จะประเมินความเบ้จาก boxplot ได้อย่างไร?


19

วิธีการตัดสินใจความเบ้โดยดูที่ boxplot ที่สร้างจากข้อมูลนี้:

340, 300, 520, 340, 320, 290, 260, 330

หนังสือเล่มหนึ่งบอกว่า "ถ้าควอไทล์ต่ำกว่าห่างจากค่ามัธยฐานมากกว่าควอไทล์ตอนบนแล้วการแจกแจงจะเบ้ในทางลบ" แหล่งข้อมูลอื่นหลายแห่งกล่าวว่าเหมือนกันมากหรือน้อย

ฉันสร้าง boxplot โดยใช้ R มันเหมือนดังต่อไปนี้:

กล่องพล็อต

ฉันคิดว่ามันเอียงเชิงลบเพราะควอไทล์ต่ำกว่าห่างจากค่ามัธยฐานมากกว่าควอไทล์ตอนบน แต่ปัญหาคือเมื่อฉันใช้วิธีอื่นเพื่อกำหนดความเบ้:

หมายถึง (337.5)> ค่ามัธยฐาน (325)

นี้แสดงให้เห็นข้อมูลเป็นเบ้บวก ฉันพลาดอะไรไปหรือเปล่า?

คำตอบ:


19

หนึ่งในมาตรการของเบ้จะขึ้นอยู่กับค่าเฉลี่ยค่ามัธยฐาน - เพียร์สันสองค่าสัมประสิทธิ์ความเบ้

การวัดความเบ้อีกประการหนึ่งขึ้นอยู่กับความแตกต่างของควอไทล์สัมพัทธ์ (Q3-Q2) vs (Q2-Q1) ที่แสดงเป็นอัตราส่วน

เมื่อ (Q2-Q2) vs (Q2-Q1) แทนที่จะแสดงเป็นความแตกต่าง (หรือ midhinge-median ที่เท่ากัน) ซึ่งจะต้องมีการปรับสัดส่วนเพื่อทำให้มันไม่มีมิติที่นี่ (โดยใส่ )u=0.25

มาตรการที่พบมากที่สุดคือความเบ้ที่สาม

ไม่มีเหตุผลว่ามาตรการทั้งสามนี้จะต้องสอดคล้องกัน หนึ่งในนั้นอาจแตกต่างจากอีกสองคน

สิ่งที่เราถือว่าเป็น "ความเบ้" เป็นแนวคิดที่ค่อนข้างลื่นและไม่ชัดเจน ดูที่นี่สำหรับการสนทนาเพิ่มเติม

ถ้าเราดูข้อมูลของคุณด้วย qqplot ปกติ:

ป้อนคำอธิบายรูปภาพที่นี่

[เส้นที่ทำเครื่องหมายไว้นั้นมีพื้นฐานจาก 6 คะแนนแรกเท่านั้นเพราะฉันต้องการหารือเกี่ยวกับการเบี่ยงเบนของสองครั้งล่าสุดจากรูปแบบที่นั่น]

เราเห็นว่าจุดที่เล็กที่สุด 6 จุดนั้นอยู่บนเส้นอย่างสมบูรณ์

จากนั้นจุดที่ 7 จะอยู่ต่ำกว่าเส้น (ใกล้จุดกึ่งกลางมากกว่าจุดที่สองที่สอดคล้องกันจากทางซ้าย) ในขณะที่จุดที่แปดตั้งอยู่ทางด้านบน

จุดที่ 7 บอกถึงความเบ้ซ้ายเล็กน้อยสุดท้ายที่ถูกต้อง หากคุณไม่สนใจจุดใดจุดหนึ่งความประทับใจของความเบ้จะถูกกำหนดโดยผู้อื่น

ถ้าฉันต้องบอกว่ามันเป็นอย่างใดอย่างหนึ่งฉันจะเรียกว่า "ขวาเอียง" แต่ฉันก็ยังชี้ให้เห็นว่าการแสดงผลทั้งหมดเนื่องจากผลของจุดหนึ่งที่มีขนาดใหญ่มาก ก็ไม่มีอะไรจะพูดได้ว่ามันถูกต้อง (ในทางกลับกันหากไม่มีจุดที่ 7 แทนจะเห็นได้ว่าไม่เอียงเลย)

เราจะต้องระมัดระวังอย่างมากเมื่อความประทับใจของเราถูกกำหนดโดยจุดเดียวทั้งหมดและสามารถพลิกไปมาได้โดยการลบจุดเดียว นั่นไม่ใช่พื้นฐานที่จะดำเนินต่อไป!


ฉันเริ่มต้นด้วยหลักฐานว่าสิ่งที่ทำให้ 'นอก' เป็นแบบจำลอง (สิ่งที่เกินความจริงที่เกี่ยวกับแบบจำลองหนึ่งอาจเป็นแบบอย่างที่ค่อนข้างทั่วไปภายใต้แบบจำลองอื่น)

ฉันคิดว่าการสังเกตที่ 0.01 เปอร์เซ็นไทล์บน (1/10000) ของปกติ (3.72 sds สูงกว่าค่าเฉลี่ย) ก็เท่ากับค่าที่เกินกว่าค่าปกติเช่นเดียวกับการสังเกตที่ 0.01 เปอร์เซ็นไทล์ตอนบนของการแจกแจงเอ็กซ์โพเนนเชียล (ถ้าเราแปลงการแจกแจงโดยการแปลงอินทิกรัลความน่าจะเป็นของตัวเองแต่ละอันจะเป็นชุดเดียวกัน)

เมื่อต้องการดูปัญหาเกี่ยวกับการใช้กฎ boxplot กับการแจกแจงแบบเบ้ที่ถูกต้องปานกลางให้จำลองตัวอย่างขนาดใหญ่จากการแจกแจงเอ็กซ์โพเนนเชียล

เช่นถ้าเราจำลองตัวอย่างขนาด 100 จากปกติเราจะเฉลี่ยน้อยกว่า 1 ค่าต่อตัวอย่าง ถ้าเราทำมันด้วยเลขชี้กำลังเราเฉลี่ยประมาณ 5 แต่ไม่มีพื้นฐานที่แท้จริงที่จะบอกว่าสัดส่วนที่สูงกว่าของค่าเอ็กซ์โปเนนเชียลคือ "ภายนอก" เว้นแต่ว่าเราทำโดยการเปรียบเทียบกับแบบจำลองปกติ (พูด) ในบางสถานการณ์เราอาจมีเหตุผลที่เฉพาะเจาะจงที่จะมีกฎเหนือกว่าของรูปแบบเฉพาะบางอย่าง แต่ไม่มีกฎทั่วไปที่ทำให้เรามีหลักการทั่วไปเช่นเดียวกับที่ฉันเริ่มต้นด้วยส่วนย่อยนี้ - เพื่อรักษาแต่ละรุ่น / การกระจายแสงของตัวเอง (หากค่าไม่ผิดปกติเกี่ยวกับแบบจำลองเหตุใดจึงเรียกว่าค่าผิดปกติในสถานการณ์นั้น)


วิธีเปลี่ยนคำถามในชื่อเรื่อง :

ในขณะที่มันเป็นเครื่องมือที่ค่อนข้างหยาบ (ซึ่งเป็นเหตุผลที่ฉันดูที่ QQ-plot) มีข้อบ่งชี้หลายอย่างของความเบ้ในกล่องใส่กล่อง - ถ้ามีจุดอย่างน้อยหนึ่งจุดทำเครื่องหมายว่าเป็นค่าผิดปกติอาจมีสามอย่างน้อย:

ป้อนคำอธิบายรูปภาพที่นี่

ในตัวอย่างนี้ (n = 100) จุดนอก (สีเขียว) ทำเครื่องหมายสุดขั้วและด้วยค่ามัธยฐานแนะนำความเบ้ซ้าย จากนั้นรั้ว (สีน้ำเงิน) แนะนำ (เมื่อรวมกับค่ามัธยฐาน) แนะนำความเบ้ที่ถูกต้อง จากนั้นบานพับ (ควอไทล์สีน้ำตาล) แนะนำความเบ้ซ้ายเมื่อรวมกับค่ามัธยฐาน

อย่างที่เราเห็นพวกมันไม่จำเป็นต้องสอดคล้องกัน สิ่งที่คุณจะมุ่งเน้นนั้นขึ้นอยู่กับสถานการณ์ที่คุณอยู่ (และความชอบของคุณ)

อย่างไรก็ตามคำเตือนเกี่ยวกับความหยาบของ boxplot ตัวอย่างไปยังจุดสิ้นสุดที่นี่ซึ่งรวมถึงคำอธิบายวิธีสร้างข้อมูลให้การแจกแจงที่แตกต่างกันสี่ประการด้วย boxplot เดียวกัน:

ป้อนคำอธิบายรูปภาพที่นี่

อย่างที่คุณเห็นมีการกระจายค่อนข้างเบ้กับตัวบ่งชี้ที่กล่าวถึงความเบ้ทั้งหมดที่สมมาตรสมบูรณ์แบบ

-

ลองทำสิ่งนี้จากมุมมอง "ครูของคุณคาดหวังว่าจะได้คำตอบอะไรเนื่องจากกล่องนี้เป็นกล่องสี่เหลี่ยมซึ่งทำเครื่องหมายจุดหนึ่งว่าเป็นค่าผิดปกติ"

เราเหลือคำตอบแรกว่า "พวกเขาคาดหวังให้คุณประเมินความเบ้ยกเว้นจุดนั้นหรือในตัวอย่าง?" บางคนจะแยกมันออกและประเมินความเบ้จากสิ่งที่เหลืออยู่เช่นเดียวกับ jsk ในคำตอบอื่น ในขณะที่ฉันมีลักษณะที่ขัดแย้งของวิธีการที่ฉันไม่สามารถพูดได้ว่ามันผิด - ขึ้นอยู่กับสถานการณ์ บางคนจะรวมมัน (ไม่น้อยกว่าเพราะการยกเว้น 12.5% ​​ของตัวอย่างของคุณเนื่องจากกฎที่ได้มาจากความปกติดูเหมือนขั้นตอนใหญ่ *)

* ลองนึกภาพการกระจายตัวของประชากรซึ่งสมมาตรยกเว้นหางขวาสุด (ฉันสร้างขึ้นหนึ่งอันเพื่อตอบคำถามนี้ - ปกติ แต่ด้วยหางขวาสุดขีดเป็นพาเรโต - แต่ไม่ได้แสดงไว้ในคำตอบของฉัน) ถ้าฉันวาดตัวอย่างขนาด 8 บ่อยครั้งที่การสังเกต 7 ครั้งมาจากส่วนที่ดูเป็นปกติและอีกอันมาจากส่วนบน หากเราแยกคะแนนที่ทำเครื่องหมายเป็นบ็อกซ์พล็อตออกในกรณีนั้นเราจะไม่รวมจุดที่บอกเราว่ามันเอียงจริง ๆ ! เมื่อเราทำการแจกแจงที่ถูกตัดทอนซึ่งยังคงอยู่ในสถานการณ์นั้นจะเอียงซ้ายและข้อสรุปของเราจะตรงข้ามกับการแจกแจงที่ถูกต้อง


1
@jsk ขึ้นอยู่กับว่าคุณต้องการวัดความเบ้ เนื่องจากระดับความเบ้จะถูกกำหนดโดยส่วนหนึ่งของจุดที่อยู่ห่างไกล (มีแนวโน้มที่จะอยู่นอกทิศทางหนึ่งมากกว่าอีกทิศทางหนึ่ง) การลบออกจะทำให้พลาดจุดที่วัดความเบ้ การอภิปรายและการวิเคราะห์โดยละเอียดเพิ่มเติมอยู่ในโพสต์ที่อัปเดตของฉัน หากคุณไม่มั่นใจโปรดลังเลที่จะแลกเปลี่ยนดังกล่าวมักจะมีค่า
Glen_b -Reinstate Monica

1
@Glen_b ในขณะที่ฉันเคารพและเข้าใจจุดยืนของคุณอย่างแน่นอนฉันเชื่อว่ามีเหตุผลที่สมเหตุสมผลในการตัดสินความเบ้หลังจากลบค่าผิดไปจากเดิม หลังจากลบค่าผิดเพี้ยนการแจกแจงจะยังคงเบ้ในทางลบหลังจากลบจุดที่ 7 (260) คุณตรวจสอบ qqplot และ / หรือเปรียบเทียบค่าเฉลี่ยและค่ามัธยฐานหรือไม่?
jsk

1
อาจจะเป็นกรณีที่ค่อนข้างอ่อนแอหลังจากลบ 7 แต่ฉันไม่เห็นเหตุผลที่จะตัดสินความเบ้หลังจากลบมัน มันไม่ใช่เรื่องผิดปกติถึงแม้ว่าประเด็นนี้จะได้รับการปฏิบัติอย่างดีว่ามาตรการเอียงไม่ว่าคุณจะมองพวกเขาในกรณีนี้อย่างไรจะถูกขับเคลื่อนด้วยจุดเดียว
jsk

1
@Glen_ b Q3 + 1.5IQR เป็นกฎทั่วไปของหัวแม่มือที่สอนในระดับนี้สำหรับการระบุค่าผิดปกติในหางส่วนบน หรือไม่ที่จะลบพวกเขาเป็นเรื่องอื่น คุณเถียงว่าการกระจายนั้นบิดเบือนเพราะค่าเฉลี่ยนั้นใหญ่กว่าหรือไม่ ทำไมไม่สนใจข้อเท็จจริงที่ว่า Q1 นั้นมาจาก Q2 มากกว่าไตรมาสที่ 3 คืออะไร?
jsk

1
ฉันต้องการที่จะตรวจสอบสิ่งที่อยู่ใกล้กับพื้นผิวที่นี่ แต่ไม่มาก: บ่อยครั้งที่ boxplots กลั่นตัวมากเกินไปดังนั้นคุณอาจต้องดูข้อมูลทั้งหมดด้วย
Nick Cox

11

ไม่คุณไม่พลาดสิ่งใดเลย: คุณกำลังเห็นจริง ๆ แล้วสรุปข้อมูลแบบง่าย ๆ ที่นำเสนอ ข้อมูลเหล่านี้มีทั้งในเชิงบวกและเชิงลบ (ในแง่ของ "ความเบ้" ซึ่งแสดงถึงรูปแบบของความไม่สมดุลในการกระจายข้อมูล)

John Tukey อธิบายถึงวิธีการอย่างเป็นระบบในการสำรวจความไม่สมดุลของข้อมูลโดยใช้วิธีการ "สรุปหมายเลข N" ของเขา boxplot เป็นภาพกราฟิกของการสรุป 5 หมายเลขและด้วยเหตุนี้จึงสอดคล้องกับการวิเคราะห์นี้


MH+HX+XTi+iTi+TiM=M+=M(Ti++Ti)/2i

เมื่อต้องการใช้แนวคิดนี้กับ boxplot เพียงแค่วาดจุดกึ่งกลางของแต่ละส่วนของคู่ที่เกี่ยวข้อง: มัธยฐาน (ซึ่งมีอยู่แล้ว) จุดกึ่งกลางของบานพับ (จุดสิ้นสุดของกล่องแสดงเป็นสีฟ้า) และจุดกึ่งกลางของสุดขั้ว (แสดงเป็นสีแดง)

Boxplot

ในตัวอย่างนี้ต่ำกว่ามูลค่าของกลางบานพับเมื่อเทียบกับค่าเฉลี่ยบ่งชี้ตรงกลางของชุดเล็กน้อยในเชิงลบเบ้ (จึงยืนยันการประเมินที่ยกมาในคำถามในขณะที่ในเวลาเดียวกันอย่างเหมาะสมการ จำกัด ขอบเขตไปตรงกลางของชุด ) ในขณะที่ค่าสูง (มาก) ของ mid-extreme บ่งชี้ว่า tail ของแบตช์ (หรืออย่างน้อยสุดขั้ว) นั้นจะเบ้ในทางบวก (แม้ว่าจะมีการตรวจสอบที่ใกล้ชิดขึ้น แม้ว่านี่จะเป็นตัวอย่างที่น่าสนใจเล็กน้อย แต่ความร่ำรวยเชิงสัมพัทธ์ของการตีความนี้เมื่อเปรียบเทียบกับสถิติ "ความเบ้" เดียวได้แสดงให้เห็นถึงพลังในการอธิบายของวิธีการนี้แล้ว

ด้วยการฝึกฝนเล็กน้อยคุณไม่จำเป็นต้องวาดสถิติกลางเหล่านี้: คุณสามารถจินตนาการได้ว่าพวกเขาอยู่ที่ไหนและอ่านข้อมูลความเบ้ที่เกิดขึ้นโดยตรงจากบ็อกซ์ล็อตใด ๆ


MHEDXi=1,2,3,4,5. พล็อตมือซ้ายในรูปถัดไปคือพล็อตการวิเคราะห์สำหรับจุดกึ่งกลางของสถิติที่จับคู่เหล่านี้ จากความลาดชันที่เร่งขึ้นมันเป็นที่ชัดเจนว่าข้อมูลกำลังเบ้อยู่ในเชิงบวกมากขึ้นเรื่อย ๆ เมื่อเราเอื้อมมือไปที่หาง

รูปที่ 2

พล็อตกลางและขวาแสดงสิ่งเดียวกันสำหรับสแควร์รูท (ของข้อมูลไม่ใช่จากสถิติตัวเลขกลาง!) และลอการิทึม (ฐาน -10) เสถียรภาพสัมพัทธ์ของค่าของราก (สังเกตว่าช่วงแนวดิ่งเล็กและสัมพัทธ์ที่ลาดอยู่ตรงกลาง) บ่งชี้ว่าชุดค่า 219 นี้มีความสมมาตรทั้งในส่วนตรงกลางและในทุกส่วนของก้อยเกือบจะถึง สุดขั้วเมื่อความสูงถูกแสดงอีกครั้งเป็นรากที่สอง ผลลัพธ์นี้เป็นพื้นฐานที่แข็งแกร่ง - เกือบน่าสนใจสำหรับการวิเคราะห์ความสูงเหล่านี้ต่อไปในแง่ของรากที่สองของพวกเขา

เหนือสิ่งอื่นใดแผนการเหล่านี้เปิดเผยบางสิ่งเชิงปริมาณเกี่ยวกับความไม่สมดุลของข้อมูล: ในระดับเดิมพวกเขาเปิดเผยความเบ้ของข้อมูลที่แตกต่างกันในทันที สเกลรากที่สองข้อมูลใกล้เคียงกับสมมาตรเกี่ยวกับตรงกลางของพวกเขา - และสามารถสรุปรวบรัดได้ด้วยการสรุปห้าจำนวนหรือเทียบเท่ากับบ็อกซ์ล็อต ความเบ้อีกครั้งแตกต่างกันอย่างเห็นได้ชัดในระดับของบันทึกแสดงว่าลอการิทึมนั้น "แข็งแกร่ง" เกินไปวิธีในการแสดงข้อมูลเหล่านี้อีกครั้ง

ลักษณะทั่วไปของ boxplot ถึงเจ็ด -, เก้า -, และสรุปจำนวนมากตรงไปตรงมาเพื่อวาด Tukey เรียกพวกเขาว่า "แผนผังแผนการ" ทุกวันนี้แปลงหลายแปลงมีจุดประสงค์ที่คล้ายคลึงกันรวมถึงสแตนด์บายเช่นแปลง QQ และความแปลกใหม่เช่น "แปลงถั่ว" และ "แปลงไวโอลิน" (แม้แต่ฮิสโตแกรมต่ำที่สามารถกดให้บริการเพื่อจุดประสงค์นี้) การใช้คะแนนจากแปลงดังกล่าวทำให้สามารถประเมินความไม่สมมาตรในรายละเอียดและทำการประเมินวิธีที่คล้ายกันในการแสดงข้อมูลอีกครั้ง


7

ค่าเฉลี่ยน้อยกว่าหรือมากกว่าค่ามัธยฐานเป็นทางลัดที่มักใช้ในการกำหนดทิศทางของการเอียงตราบใดที่ไม่มีค่าผิดปกติ ในกรณีนี้การแจกแจงเบ้เป็นลบ แต่ค่าเฉลี่ยมีค่ามากกว่าค่ามัธยฐานเนื่องจากค่าผิดปกติ


ที่อธิบาย หนังสือที่ฉันอ่านไม่ได้พูดถึงเรื่องนี้เลย!
JerryW

หวังว่าหนังสืออย่างน้อยก็จะพูดถึงว่าค่าเฉลี่ยนั้นทนต่อค่าผิดได้น้อยกว่าค่าเฉลี่ยมากน้อยเพียงใด!
jsk

การนับนั้นเป็นความเบ้เชิงลบหรือไม่นั้นขึ้นอยู่กับว่าคุณวัดความเบ้
Glen_b

ยุติธรรมพอสมควร มันเป็นชุดข้อมูลขนาดเล็กที่ทำให้มันยากที่จะตัดสินความเบ้ ฉันเดาตัวอย่างนี้ถูกโยนโชคไม่ดีในการมีเพียงเหตุผลของการมีกฎระเบียบที่ขัดแย้งกันของหัวแม่มือสำหรับการกำหนดเอียง
JSK

1
ฉันยอมรับว่าชุดข้อมูลขนาดเล็กเช่นนี้สามารถทำให้มันท้าทายได้ แต่เป็นไปได้อย่างสมบูรณ์แบบที่จะสร้างการแจกแจงแบบต่อเนื่องที่ท้าทายอย่างเท่าเทียมกัน
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.