หนึ่งในมาตรการของเบ้จะขึ้นอยู่กับค่าเฉลี่ยค่ามัธยฐาน - เพียร์สันสองค่าสัมประสิทธิ์ความเบ้
การวัดความเบ้อีกประการหนึ่งขึ้นอยู่กับความแตกต่างของควอไทล์สัมพัทธ์ (Q3-Q2) vs (Q2-Q1) ที่แสดงเป็นอัตราส่วน
เมื่อ (Q2-Q2) vs (Q2-Q1) แทนที่จะแสดงเป็นความแตกต่าง (หรือ midhinge-median ที่เท่ากัน) ซึ่งจะต้องมีการปรับสัดส่วนเพื่อทำให้มันไม่มีมิติที่นี่ (โดยใส่ )u = 0.25
มาตรการที่พบมากที่สุดคือความเบ้ที่สาม
ไม่มีเหตุผลว่ามาตรการทั้งสามนี้จะต้องสอดคล้องกัน หนึ่งในนั้นอาจแตกต่างจากอีกสองคน
สิ่งที่เราถือว่าเป็น "ความเบ้" เป็นแนวคิดที่ค่อนข้างลื่นและไม่ชัดเจน ดูที่นี่สำหรับการสนทนาเพิ่มเติม
ถ้าเราดูข้อมูลของคุณด้วย qqplot ปกติ:
[เส้นที่ทำเครื่องหมายไว้นั้นมีพื้นฐานจาก 6 คะแนนแรกเท่านั้นเพราะฉันต้องการหารือเกี่ยวกับการเบี่ยงเบนของสองครั้งล่าสุดจากรูปแบบที่นั่น]
เราเห็นว่าจุดที่เล็กที่สุด 6 จุดนั้นอยู่บนเส้นอย่างสมบูรณ์
จากนั้นจุดที่ 7 จะอยู่ต่ำกว่าเส้น (ใกล้จุดกึ่งกลางมากกว่าจุดที่สองที่สอดคล้องกันจากทางซ้าย) ในขณะที่จุดที่แปดตั้งอยู่ทางด้านบน
จุดที่ 7 บอกถึงความเบ้ซ้ายเล็กน้อยสุดท้ายที่ถูกต้อง หากคุณไม่สนใจจุดใดจุดหนึ่งความประทับใจของความเบ้จะถูกกำหนดโดยผู้อื่น
ถ้าฉันต้องบอกว่ามันเป็นอย่างใดอย่างหนึ่งฉันจะเรียกว่า "ขวาเอียง" แต่ฉันก็ยังชี้ให้เห็นว่าการแสดงผลทั้งหมดเนื่องจากผลของจุดหนึ่งที่มีขนาดใหญ่มาก ก็ไม่มีอะไรจะพูดได้ว่ามันถูกต้อง (ในทางกลับกันหากไม่มีจุดที่ 7 แทนจะเห็นได้ว่าไม่เอียงเลย)
เราจะต้องระมัดระวังอย่างมากเมื่อความประทับใจของเราถูกกำหนดโดยจุดเดียวทั้งหมดและสามารถพลิกไปมาได้โดยการลบจุดเดียว นั่นไม่ใช่พื้นฐานที่จะดำเนินต่อไป!
ฉันเริ่มต้นด้วยหลักฐานว่าสิ่งที่ทำให้ 'นอก' เป็นแบบจำลอง (สิ่งที่เกินความจริงที่เกี่ยวกับแบบจำลองหนึ่งอาจเป็นแบบอย่างที่ค่อนข้างทั่วไปภายใต้แบบจำลองอื่น)
ฉันคิดว่าการสังเกตที่ 0.01 เปอร์เซ็นไทล์บน (1/10000) ของปกติ (3.72 sds สูงกว่าค่าเฉลี่ย) ก็เท่ากับค่าที่เกินกว่าค่าปกติเช่นเดียวกับการสังเกตที่ 0.01 เปอร์เซ็นไทล์ตอนบนของการแจกแจงเอ็กซ์โพเนนเชียล (ถ้าเราแปลงการแจกแจงโดยการแปลงอินทิกรัลความน่าจะเป็นของตัวเองแต่ละอันจะเป็นชุดเดียวกัน)
เมื่อต้องการดูปัญหาเกี่ยวกับการใช้กฎ boxplot กับการแจกแจงแบบเบ้ที่ถูกต้องปานกลางให้จำลองตัวอย่างขนาดใหญ่จากการแจกแจงเอ็กซ์โพเนนเชียล
เช่นถ้าเราจำลองตัวอย่างขนาด 100 จากปกติเราจะเฉลี่ยน้อยกว่า 1 ค่าต่อตัวอย่าง ถ้าเราทำมันด้วยเลขชี้กำลังเราเฉลี่ยประมาณ 5 แต่ไม่มีพื้นฐานที่แท้จริงที่จะบอกว่าสัดส่วนที่สูงกว่าของค่าเอ็กซ์โปเนนเชียลคือ "ภายนอก" เว้นแต่ว่าเราทำโดยการเปรียบเทียบกับแบบจำลองปกติ (พูด) ในบางสถานการณ์เราอาจมีเหตุผลที่เฉพาะเจาะจงที่จะมีกฎเหนือกว่าของรูปแบบเฉพาะบางอย่าง แต่ไม่มีกฎทั่วไปที่ทำให้เรามีหลักการทั่วไปเช่นเดียวกับที่ฉันเริ่มต้นด้วยส่วนย่อยนี้ - เพื่อรักษาแต่ละรุ่น / การกระจายแสงของตัวเอง (หากค่าไม่ผิดปกติเกี่ยวกับแบบจำลองเหตุใดจึงเรียกว่าค่าผิดปกติในสถานการณ์นั้น)
วิธีเปลี่ยนคำถามในชื่อเรื่อง :
ในขณะที่มันเป็นเครื่องมือที่ค่อนข้างหยาบ (ซึ่งเป็นเหตุผลที่ฉันดูที่ QQ-plot) มีข้อบ่งชี้หลายอย่างของความเบ้ในกล่องใส่กล่อง - ถ้ามีจุดอย่างน้อยหนึ่งจุดทำเครื่องหมายว่าเป็นค่าผิดปกติอาจมีสามอย่างน้อย:
ในตัวอย่างนี้ (n = 100) จุดนอก (สีเขียว) ทำเครื่องหมายสุดขั้วและด้วยค่ามัธยฐานแนะนำความเบ้ซ้าย จากนั้นรั้ว (สีน้ำเงิน) แนะนำ (เมื่อรวมกับค่ามัธยฐาน) แนะนำความเบ้ที่ถูกต้อง จากนั้นบานพับ (ควอไทล์สีน้ำตาล) แนะนำความเบ้ซ้ายเมื่อรวมกับค่ามัธยฐาน
อย่างที่เราเห็นพวกมันไม่จำเป็นต้องสอดคล้องกัน สิ่งที่คุณจะมุ่งเน้นนั้นขึ้นอยู่กับสถานการณ์ที่คุณอยู่ (และความชอบของคุณ)
อย่างไรก็ตามคำเตือนเกี่ยวกับความหยาบของ boxplot ตัวอย่างไปยังจุดสิ้นสุดที่นี่ซึ่งรวมถึงคำอธิบายวิธีสร้างข้อมูลให้การแจกแจงที่แตกต่างกันสี่ประการด้วย boxplot เดียวกัน:
อย่างที่คุณเห็นมีการกระจายค่อนข้างเบ้กับตัวบ่งชี้ที่กล่าวถึงความเบ้ทั้งหมดที่สมมาตรสมบูรณ์แบบ
-
ลองทำสิ่งนี้จากมุมมอง "ครูของคุณคาดหวังว่าจะได้คำตอบอะไรเนื่องจากกล่องนี้เป็นกล่องสี่เหลี่ยมซึ่งทำเครื่องหมายจุดหนึ่งว่าเป็นค่าผิดปกติ"
เราเหลือคำตอบแรกว่า "พวกเขาคาดหวังให้คุณประเมินความเบ้ยกเว้นจุดนั้นหรือในตัวอย่าง?" บางคนจะแยกมันออกและประเมินความเบ้จากสิ่งที่เหลืออยู่เช่นเดียวกับ jsk ในคำตอบอื่น ในขณะที่ฉันมีลักษณะที่ขัดแย้งของวิธีการที่ฉันไม่สามารถพูดได้ว่ามันผิด - ขึ้นอยู่กับสถานการณ์ บางคนจะรวมมัน (ไม่น้อยกว่าเพราะการยกเว้น 12.5% ของตัวอย่างของคุณเนื่องจากกฎที่ได้มาจากความปกติดูเหมือนขั้นตอนใหญ่ *)
* ลองนึกภาพการกระจายตัวของประชากรซึ่งสมมาตรยกเว้นหางขวาสุด (ฉันสร้างขึ้นหนึ่งอันเพื่อตอบคำถามนี้ - ปกติ แต่ด้วยหางขวาสุดขีดเป็นพาเรโต - แต่ไม่ได้แสดงไว้ในคำตอบของฉัน) ถ้าฉันวาดตัวอย่างขนาด 8 บ่อยครั้งที่การสังเกต 7 ครั้งมาจากส่วนที่ดูเป็นปกติและอีกอันมาจากส่วนบน หากเราแยกคะแนนที่ทำเครื่องหมายเป็นบ็อกซ์พล็อตออกในกรณีนั้นเราจะไม่รวมจุดที่บอกเราว่ามันเอียงจริง ๆ ! เมื่อเราทำการแจกแจงที่ถูกตัดทอนซึ่งยังคงอยู่ในสถานการณ์นั้นจะเอียงซ้ายและข้อสรุปของเราจะตรงข้ามกับการแจกแจงที่ถูกต้อง