เรารักรูปแบบปกติ
ในกรณีส่วนใหญ่เราพยายามทำให้พวกเขาทำตัวเหมือนปกติ มันไม่ใช่มุมมองของตัวแยกประเภท แต่เป็นมุมมองการแยกคุณลักษณะ!
ซึ่งการเปลี่ยนแปลง ?
เกณฑ์หลักในการเลือกการเปลี่ยนแปลงคือ: ทำงานกับข้อมูลได้อย่างไร ดังตัวอย่างข้างต้นบ่งชี้ว่าเป็นสิ่งสำคัญที่ต้องพิจารณาด้วยเช่นกันสองคำถาม
อะไรทำให้รู้สึกทางกายภาพ (ชีวภาพ, เศรษฐกิจ, อะไรก็ตาม) ตัวอย่างเช่นในแง่ของการ จำกัด พฤติกรรมในขณะที่ค่านิยมมีขนาดเล็กมากหรือใหญ่มาก? คำถามนี้มักจะนำไปสู่การใช้ลอการิทึม
เราสามารถทำให้มิติและยูนิตง่ายและสะดวกได้หรือไม่? ถ้าเป็นไปได้เราชอบเครื่องชั่งวัดที่คิดง่าย
คิวบ์รูทของไดรฟ์ข้อมูลและสแควร์รูทของพื้นที่ทั้งคู่มีขนาดของความยาวจนถึงเรื่องที่ซับซ้อนการแปลงเช่นนี้อาจทำให้พวกมันง่ายขึ้น ซึ่งกันและกันมักจะมีหน่วยง่าย ๆ ดังกล่าวก่อนหน้า อย่างไรก็ตามบ่อยครั้งหน่วยที่ค่อนข้างซับซ้อนนั้นเป็นเครื่องบูชาที่ต้องทำ
เมื่อการใช้อะไร ?
การแปลงที่มีประโยชน์ที่สุดในการวิเคราะห์ข้อมูลเบื้องต้นคือการแลกเปลี่ยนแบบลอการิทึมลอการิทึมรูตคิวบ์รูตสแควร์และสแควร์ ในสิ่งต่อไปนี้แม้ว่าจะไม่ได้เน้นมันก็ควรจะใช้การแปลงในช่วงที่พวกเขาให้ผลผลิต (แน่นอน) จำนวนจริงเป็นผลลัพธ์
- กลับไปกลับมา : การแลกเปลี่ยนซึ่งกันและกัน, x ถึง 1 / x, กับพี่น้องของตนซึ่งกันและกันเชิงลบ, x ถึง -1 / x, เป็นการเปลี่ยนแปลงที่แข็งแกร่งมากที่มีผลกระทบรุนแรงต่อรูปร่างการกระจาย มันไม่สามารถนำไปใช้กับค่าเป็นศูนย์ แม้ว่าจะสามารถนำไปใช้กับค่าลบได้ แต่ก็ไม่มีประโยชน์เว้นแต่ค่าทั้งหมดจะเป็นค่าบวก ส่วนกลับของอัตราส่วนอาจตีความได้ง่ายเช่นเดียวกับอัตราส่วน: ตัวอย่าง:
- ความหนาแน่นของประชากร (คนต่อพื้นที่หนึ่งหน่วย) กลายเป็นพื้นที่ต่อคน
- คนต่อแพทย์กลายเป็นหมอต่อคน
- อัตราการกัดเซาะกลายเป็นเวลาที่จะกัดเซาะความลึกของหน่วย
(ในทางปฏิบัติเราอาจต้องการทวีคูณหรือหารผลลัพธ์ของการรับส่วนกลับด้วยค่าคงที่เช่น 1,000 หรือ 10,000 เพื่อให้ได้ตัวเลขที่จัดการได้ง่าย แต่ตัวมันเองไม่มีผลต่อความเบ้หรือเส้นตรง)
ลำดับกลับกันกลับกันระหว่างค่าของสัญลักษณ์เดียวกัน: ค่ามากที่สุดจะกลายเป็นค่าที่เล็กที่สุดเป็นต้นค่ากลับกันส่วนกลับจะเก็บลำดับไว้ในค่าของสัญลักษณ์เดียวกัน
ลอการิทึม : ลอการิทึม, x log 10 x, หรือ x log ex หรือ ln x, หรือ x log 2 x, เป็นการแปลงที่มีผลอย่างมากต่อรูปร่างการแจกแจง มันถูกใช้โดยทั่วไปเพื่อลดความเบ้ที่ถูกต้องและมักจะเหมาะสมสำหรับตัวแปรที่วัดได้ ไม่สามารถใช้กับค่าศูนย์หรือค่าลบ หนึ่งหน่วยในสเกลลอการิทึมหมายถึงการคูณด้วยฐานลอการิทึมที่ใช้ การเติบโตหรือลดลงแบบทวีคูณ
- Y= a e x p ( b x )
ทำในลักษณะเชิงเส้นโดย -
เพื่อให้ตัวแปรการตอบสนอง y ควรถูกบันทึกไว้ (นี่คือ exp () หมายถึงการยกกำลัง e ประมาณ 2.71828 นั่นคือฐานของลอการิทึมธรรมชาติ) การแยกกันของการเติบโตแบบเอกซ์โปเนนเชียลหรือสมการการปฏิเสธ:
, และเพื่อให้ a คือจำนวนหรือนับเมื่อ x = 0 ถ้า a และ b> 0, y นั้นเติบโตเร็วขึ้น และอัตราที่เร็วขึ้น (เช่นดอกเบี้ยทบต้นหรือการเติบโตของประชากรโดยไม่ จำกัด ) ในขณะที่ถ้า> 0 และ b <0, y จะลดลงในอัตราที่ช้าลงและช้าลง (เช่นการสลายตัวของกัมมันตภาพรังสี)l n y= l n a + b xx = 0Y= a e x p ( 0 ) = a
- ฟังก์ชั่นพลังงาน :
Y= a xขถูกสร้างเป็นเส้นตรงโดย
เพื่อให้ตัวแปรทั้ง y และ x ควรถูกบันทึก
ฟังก์ชั่นด้านพลังงานเช่นกัน: ใส่และสำหรับ ,l o gY= l o ga + b l o gx
x = 0b > 0
Y= a xข= 0 ดังนั้นฟังก์ชั่นพลังงานสำหรับ b บวกต้องผ่านจุดกำเนิดซึ่งมักทำให้เกิดความรู้สึกทางกายภาพหรือชีวภาพหรือเศรษฐกิจ คิดว่า: ศูนย์สำหรับ x หมายถึงศูนย์สำหรับ y หรือไม่? นี้
ชนิดของฟังก์ชั่นพลังงานเป็นรูปทรงที่เหมาะกับชุดข้อมูลจำนวนมาก
ค่อนข้างดี
- พิจารณาอัตราส่วน y = p / q โดยที่ p และ q เป็นค่าบวกในทางปฏิบัติ
ตัวอย่างคือ:
- เพศชาย / หญิง
- ผู้อยู่ในอุปการะ / คนงาน
- ความยาวดาวน์สตรีม / ดาวน์วอลเล่ย์
จากนั้น y จะอยู่ระหว่าง 0 ถึงอนันต์หรือในกรณีสุดท้ายระหว่าง 1 ถึงอนันต์ ถ้า p = q ดังนั้น y = 1 คำจำกัดความดังกล่าวมักจะนำไปสู่ข้อมูลที่เบ้เพราะมีขีด จำกัด ล่างที่ชัดเจนและไม่มีขีด จำกัด บนที่ชัดเจน อย่างไรก็ตามลอการิทึมนั้นคือ
log y = log p / q = log p - log q อยู่ระหว่าง -infinity และ infinity และ p = q หมายความว่า log y = 0 ดังนั้นลอการิทึมของอัตราส่วนดังกล่าวมีแนวโน้มที่จะมีการกระจายแบบสมมาตรมากกว่า
- สแควร์รูท : สแควร์รูท , x ถึง = sqrt (x), เป็นการแปลงโดยมีเอฟเฟกต์ปานกลางในรูปแบบการกระจาย: มันอ่อนกว่าลอการิทึมและรูทลูกบาศก์ นอกจากนี้ยังใช้สำหรับลดความเบ้ที่ถูกต้องและยังมีข้อได้เปรียบที่สามารถนำไปใช้กับค่าศูนย์ โปรดทราบว่าสแควร์รูทของพื้นที่มีหน่วยความยาว โดยทั่วไปจะใช้กับข้อมูลที่มีการนับโดยเฉพาะอย่างยิ่งหากค่าส่วนใหญ่ค่อนข้างเล็กx(1 / 2 )
- สี่เหลี่ยมจัตุรัส : สี่เหลี่ยมจัตุรัส x ถึงมีผลปานกลางกับรูปร่างการกระจายและสามารถใช้เพื่อลดความเบ้ซ้าย ใน
ทางปฏิบัติเหตุผลหลักสำหรับการใช้มันคือเพื่อให้พอดีกับการตอบสนองโดยเป็น
ฟังก์ชันกำลังสอง 2 Quadratics มี
จุดเปลี่ยนไม่ว่าจะมากที่สุดหรือต่ำสุดแม้ว่าจุดหักเหในฟังก์ชั่นที่ติดตั้งกับข้อมูลอาจอยู่ไกลเกินขอบเขตของการ
สังเกต ระยะทางของวัตถุจากแหล่งกำเนิดเป็นสมการกำลังสองถ้าร่างกายนั้นเคลื่อนที่ภายใต้ความเร่งคงที่ซึ่งให้
เหตุผลทางกายภาพที่ชัดเจนมากสำหรับการใช้กำลังสอง มิฉะนั้น
quadratics มักจะใช้เพียงอย่างเดียวเพราะพวกเขาสามารถเลียนแบบx2
Y= a + b x + c x2
ความสัมพันธ์ภายในขอบเขตข้อมูล นอกภูมิภาคนั้นพวกเขาอาจ
ทำงานได้ไม่ดีนักเพราะพวกเขาใช้ค่าที่มากตามอำเภอใจสำหรับค่าเอ็กซ์ตรีมที่สุดของเอ็กซ์และถ้าการสกัดกั้น a ถูก จำกัด ให้เป็น 0 พวกมันอาจทำงานใกล้กับแหล่งกำเนิด
- การยกกำลังมักจะทำให้รู้สึกเฉพาะในกรณีที่ตัวแปรที่เกี่ยวข้องเป็นศูนย์หรือบวกเนื่องจากและเหมือนกัน( - x )2x2