ก่อนอื่นเรามาดูกันว่าเกิดอะไรขึ้นเมื่อเราบันทึกสิ่งที่เอียง
แถวบนสุดมีฮิสโทแกรมสำหรับตัวอย่างจากการแจกแจงที่ต่างกันสามแบบ
แถวด้านล่างมีฮิสโทแกรมสำหรับบันทึกของพวกเขา
YxZ ) ยังคงเอียงเล็กน้อย (แม้) เล็กน้อยแม้หลังจากบันทึกแล้วก็ตาม
ถ้าเราต้องการให้การกระจายของเราดูเป็นปกติยิ่งขึ้นการแปลงจะปรับปรุงกรณีที่สองและสามอย่างแน่นอน เราเห็นได้ว่าสิ่งนี้อาจช่วยได้
แล้วทำไมมันถึงได้ผล
โปรดทราบว่าเมื่อเราดูรูปภาพของรูปร่างการกระจายเราไม่ได้พิจารณาค่าเฉลี่ยหรือส่วนเบี่ยงเบนมาตรฐานซึ่งจะมีผลกับฉลากบนแกน
ดังนั้นเราสามารถจินตนาการถึงการมองหาตัวแปร "มาตรฐาน" บางประเภท (ในขณะที่ยังคงเป็นบวกทุกคนมีที่ตั้งและการแพร่กระจายที่คล้ายกันพูด)
การบันทึก "ดึง" ค่าสุดขีดมากขึ้นทางด้านขวา (ค่าสูง) สัมพันธ์กับค่ามัธยฐานในขณะที่ค่าที่ด้านซ้ายสุด (ค่าต่ำ) มีแนวโน้มที่จะยืดกลับห่างจากค่ามัธยฐาน
xYZ
Yมันคือ 5 ควอไทล์ควอเทอร์ช่วงเหนือค่ามัธยฐาน
แต่เมื่อเรานำท่อนซุงมันจะถูกดึงกลับไปยังค่ามัธยฐาน หลังจากบันทึกมันเป็นเพียงประมาณ2 interquartile ช่วงเหนือค่ามัธยฐาน
Y
ไม่มีอุบัติเหตุที่อัตราส่วนของ 750/150 และ 150/30 เป็น 5 ทั้งเมื่อ log (750) และ log (30) จบลงด้วยระยะทางที่ห่างจากค่ามัธยฐานของ log (y) นั่นเป็นวิธีที่บันทึกการทำงาน - การแปลงอัตราส่วนคงที่เป็นความแตกต่างคงที่
ไม่ใช่กรณีที่บันทึกจะช่วยได้อย่างชัดเจน ตัวอย่างเช่นถ้าคุณพูดว่าตัวแปรสุ่ม lognormal แล้วเลื่อนไปทางขวาอย่างมีนัยสำคัญ (เช่นเพิ่มค่าคงที่ที่มีขนาดใหญ่ลงไป) เพื่อให้ค่าเฉลี่ยกลายเป็นใหญ่เมื่อเทียบกับค่าเบี่ยงเบนมาตรฐานจากนั้นการบันทึกของมันจะสร้างความแตกต่าง รูปร่าง. มันจะเบ้น้อยกว่า - แต่แทบจะไม่
แต่การแปลงอื่น ๆ - สแควร์รูทจะบอกว่าจะดึงค่าที่มากเช่นนั้น เหตุใดบันทึกจึงได้รับความนิยมมากกว่า
- 0.162ในบันทึกธรรมชาติคือการลดลง 15% ในหมายเลขเดิมไม่ว่าหมายเลขเดิมจะใหญ่แค่ไหน
ข้อมูลทางเศรษฐกิจและการเงินจำนวนมากมีลักษณะเช่นนี้ (ผลกระทบคงที่หรือใกล้คงที่ในระดับเปอร์เซ็นต์) สเกลบันทึกนั้นสมเหตุสมผลมากในกรณีนี้ ยิ่งกว่านั้นอันเป็นผลมาจากเอฟเฟกต์เปอร์เซ็นต์ การแพร่กระจายของค่ามีแนวโน้มที่จะมีขนาดใหญ่ขึ้นเมื่อค่าเฉลี่ยเพิ่มขึ้น - และการบันทึกยังมีแนวโน้มที่จะรักษาเสถียรภาพของการแพร่กระจาย ซึ่งมักมีความสำคัญมากกว่าปกติ แน่นอนว่าการแจกแจงทั้งสามในแผนภาพดั้งเดิมนั้นมาจากครอบครัวซึ่งค่าเบี่ยงเบนมาตรฐานจะเพิ่มขึ้นตามค่าเฉลี่ยและในแต่ละกรณีการบันทึกจะทำให้เกิดความแปรปรวน [สิ่งนี้ไม่ได้เกิดขึ้นกับข้อมูลที่บิดเบือนทั้งหมด เป็นเรื่องธรรมดามากในการเรียงลำดับข้อมูลที่ปลูกในพื้นที่เฉพาะของแอปพลิเคชัน]
นอกจากนี้ยังมีบางครั้งที่สแควร์รูทจะทำให้สิ่งต่าง ๆ สมมาตรมากขึ้น แต่มันมีแนวโน้มที่จะเกิดขึ้นกับการแจกแจงแบบเบ้น้อยกว่าที่ฉันใช้ในตัวอย่างของฉันที่นี่
เราสามารถสร้างตัวอย่างเอียงขวาอย่างอ่อนโยนอีกสามชุดได้โดยที่รากที่สองทำมุมเอียงซ้ายหนึ่งสมมาตรและอีกอันหนึ่งยังเอียงขวา (แต่เอียงน้อยกว่าเดิมเล็กน้อย)
แล้วการแจกแจงแบบเบ้ซ้ายล่ะ?
หากคุณใช้การเปลี่ยนแปลงเข้าสู่ระบบเพื่อกระจายสมมาตรก็จะมีแนวโน้มที่จะทำให้มันเอียงซ้ายด้วยเหตุผลเดียวกันมันมักจะทำให้แก่ลาดหนึ่งสมมาตรมากขึ้น - เห็นการอภิปรายที่เกี่ยวข้องกันที่นี่
ตามลําดับหากคุณใช้การแปลงการบันทึกกับสิ่งที่เหลืออยู่แล้วมันจะมีแนวโน้มที่จะทำให้เอียงไปทางซ้ายมากขึ้นดึงสิ่งที่อยู่เหนือค่ามัธยฐานให้แน่นยิ่งขึ้น
ดังนั้นการแปลงบันทึกจึงไม่มีประโยชน์
ดูการเปลี่ยนแปลงพลังงาน / บันไดของ Tukey การแจกแจงที่เอียงซ้ายอาจทำให้สมมาตรได้มากกว่าโดยการใช้กำลัง (มากกว่า 1 กำลังสองบอกว่า) หรือโดยการยกกำลัง หากมีขอบเขตบนที่เห็นได้ชัดใคร ๆ ก็อาจลบการสังเกตออกจากขอบบน (ให้ผลการเบ้ที่ถูกต้อง) และจากนั้นพยายามแปลงมัน