ทำความเข้าใจกับหนวดของ boxplot


9

ฉันมีคำถามเกี่ยวกับการแปลความหมายของเคราของกล่องสี่เหลี่ยม ฉันได้อ่านข้อความต่อไปนี้: "ที่ด้านบนและด้านล่างของสี่เหลี่ยม" หนวด "แสดงช่วง 1.5 เท่าของระยะห่างระหว่าง 0.25- และ 0.75- ควอนไทล์" แต่ไม่เข้าใจความหมายของ "ระยะทาง" ทั้งหมด .

เป็นไปไม่ได้ที่มวลความน่าจะเป็นมีความหมายเนื่องจากระหว่าง 0.25 และ 0.75 quantile เราเห็นได้ชัดว่ามีเปอร์เซ็นต์ของข้อมูลเท่ากันเสมอ แล้วความคิดคืออะไร?

คำตอบ:


6

ค่าของ X ที่สอดคล้องกับ 75 ควอไทล์ลบด้วยค่าของ X ที่สอดคล้องกับที่ 25 คือระยะทาง ตัวอย่างเช่นสำหรับ SAT Math Test, 620 คือ 75 และ 520 คือ quantile 25 ดังนั้นถ้าคุณได้คะแนนสูงกว่า 620 คุณก็ทำได้ดีกว่า 75% ของผู้สอบ เคราจะขยายได้ยาวถึง 1.5 * (620-520) คะแนน


แต่แล้วเคราก็จะมีความยาวเท่ากันทั้งสองด้านของกล่อง (ซึ่งไม่จำเป็นต้องเป็นอย่างนั้น)
บุคคลทั่วไป 555

8
+1, a (มากกว่าเล็กน้อย) คำตอบที่สมบูรณ์คือเคราสูงถึง 1.5 * IQR หากคุณไม่มีข้อมูลใด ๆ เพิ่มเติมภายในช่วงเวลานั้นหนวดจะสั้นลง นอกจากนี้ข้อมูลเพิ่มเติมใด ๆ นอกเหนือจากจุดนั้นจะถูกวางแผนเป็นรายบุคคลเป็นค่าผิดปกติ
gung - Reinstate Monica

ด้วยคำอธิบายเพิ่มเติมเล็กน้อยตอนนี้มันชัดเจนแล้วขอบคุณมาก!
เยี่ยมชม 555

ฉันแก้ไขคำตอบด้วยจุดที่ยอดเยี่ยมของ @ gung
Dimitriy V. Masterov

5
@gung และคำตอบแม้จะสมบูรณ์มากขึ้นก็คือว่าเคราเสมออยู่บนจุดเชื่อมต่อที่มีอยู่ในข้อมูล
ฮัดลีย์

4

บ็อกซ์ล็อตมีวัตถุประสงค์เพื่อสรุปชุดข้อมูลที่ค่อนข้างเล็กในแบบที่แสดงให้เห็นชัดเจน

  • ค่ากลาง

  • การแพร่กระจายของค่า "ทั่วไป"

  • ค่าส่วนบุคคลที่แยกออกจากค่ากลางมากเมื่อเทียบกับค่าสเปรดนั้นแยกออกเป็นค่าความสนใจพิเศษและระบุแยกต่างหาก (เช่นชื่อ) สิ่งเหล่านี้เรียกว่า "ค่าที่ระบุ"

สิ่งนี้จะต้องทำในลักษณะที่แข็งแกร่ง : นั่นหมายความว่า boxplot ไม่ควรมองที่แตกต่างกันอย่างเห็นได้ชัดเมื่อหนึ่งหรือส่วนที่ค่อนข้างเล็กของค่าข้อมูลมีการเปลี่ยนแปลงโดยพลการ

วิธีแก้ปัญหาที่นำมาใช้โดยนักประดิษฐ์John Tukeyคือการใช้สถิติการสั่งซื้อ - ข้อมูลที่เรียงลำดับจากต่ำสุดไปสูงสุด - อย่างเป็นระบบ เพื่อความง่าย (เขาทำการคำนวณทางจิตใจหรือด้วยดินสอและกระดาษ) Tukey มุ่งเน้นไปที่ค่ามัธยฐาน : ค่ากลางของชุดตัวเลข (สำหรับแบตช์ที่มีค่าเป็นจำนวนคู่ Tukey ใช้จุดกึ่งกลางของค่ากลางสองค่า) ค่ามัธยฐานสามารถทนต่อการเปลี่ยนแปลงได้ถึงครึ่งหนึ่งของข้อมูลที่ใช้ ดังนั้น:

  • ค่ากลางเป็นที่คาดกันกับค่ามัธยฐานของข้อมูลทั้งหมด

  • การแพร่กระจายถูกประเมินด้วยความแตกต่างระหว่างค่ามัธยฐานของ "ครึ่งบน" - ข้อมูลทั้งหมดเท่ากับหรือสูงกว่าค่ามัธยฐาน - และ "ครึ่งล่าง" - ข้อมูลทั้งหมดเท่ากับหรือน้อยกว่าค่ามัธยฐาน ค่ามัธยฐานทั้งสองนี้เรียกว่า "บานพับ" ด้านบนและล่าง พวกเขามักจะถูกแทนที่ด้วยสิ่งที่เรียกว่าควอไทล์ในปัจจุบัน (ซึ่งไม่มีคำจำกัดความสากล, อนิจจา)

  • รั้วที่มองไม่เห็นสำหรับการตรวจค่าผิดปกติจะถูกสร้างขึ้น 1.5 และ 3 เท่าของการแพร่กระจายเกินกว่าบานพับ (ห่างจากค่ากลาง)

    • "ค่าที่ปลายแต่ละด้านใกล้เคียงที่สุด แต่ยังอยู่ภายในรั้วด้านในคือ 'ติดกัน'
    • ค่าที่อยู่นอกรั้วแรกจะถูกเรียกว่า "ค่าผิดปกติ"
    • ค่าที่อยู่นอกรั้วที่สองคือ "ไกล"

(ผู้ที่มีอายุมากพอที่จะจดจำพวกฮิปปี้เถียงในยุค 60 จะเข้าใจเรื่องตลก)

เนื่องจากสเปรดคือความแตกต่างของค่าข้อมูลรั้วเหล่านี้จึงมีหน่วยการวัดเหมือนกับข้อมูลต้นฉบับ: นี่คือความหมายของ "ระยะทาง" ในคำถาม

เกี่ยวกับค่าข้อมูลที่จะระบุ Tukey เขียน

อย่างน้อยเราสามารถระบุค่าที่สูงที่สุดและอาจทำได้ดีในการระบุอีกสองสามอย่าง

วิธีการแบบกราฟิกใด ๆ เพื่อแสดงค่ามัธยฐานบานพับและค่าที่ระบุควรจะเรียกว่า "boxplot" (เดิมคือ "พล็อตแบบ box-and-whisker") รั้วมักจะไม่ปรากฎ การออกแบบของ Tukey ประกอบด้วยสี่เหลี่ยมผืนผ้าอธิบายบานพับด้วย "เอว" ที่ค่ามัธยฐาน "หนวดเครา" ที่ไม่สร้างความรำคาญเหมือนสายขยายออกไปด้านนอกจากบานพับไปยังค่าที่ระบุด้านในสุด (ทั้งด้านบนและด้านล่างกล่อง) โดยปกติแล้วค่าที่ระบุด้านในสุดเหล่านี้คือค่าติดกันที่กำหนดไว้ด้านบน

ดังนั้นลักษณะเริ่มต้นของ boxplot คือการขยายเคราไปยังค่าข้อมูลที่ไม่อยู่ไกลที่สุดและเพื่อระบุ (ผ่านฉลากข้อความ) ข้อมูลที่ประกอบด้วยปลายเคราและค่าผิดปกติทั้งหมด ตัวอย่างเช่นภูเขาไฟ Tupungatito เป็นค่าที่อยู่ติดกันสูงสำหรับข้อมูลความสูงของภูเขาไฟที่ปรากฎทางด้านขวาของภาพ: ผู้เคราหยุดอยู่ตรงนั้น Tupungatito และภูเขาไฟที่สูงขึ้นไปทั้งหมดนั้นแยกจากกัน

ดังนั้นสิ่งนี้จะแสดงข้อมูลโดยสุจริตระยะห่างในกราฟิกเป็นสัดส่วนกับความแตกต่างของค่าข้อมูล (การออกเดินทางจากสัดส่วนโดยตรงใด ๆ จะแนะนำ "ปัจจัยเท็จ" ในคำศัพท์ของ Tufte (1983))

รูปจาก EDA

สองกล่องแปลงจากหนังสือของ Tukey EDA (หน้า 41) แสดงส่วนประกอบ เป็นที่น่าสังเกตว่าเขาได้ระบุค่าที่ไม่เป็นสาระสำคัญที่ระดับสูงสุดและต่ำสุดของชุดข้อมูลรัฐที่ด้านซ้ายและอีกหนึ่งค่าที่ไม่อยู่รอบนอกของความสูงของภูเขาไฟทางด้านขวา สิ่งนี้แสดงให้เห็นถึงการมีอิทธิพลซึ่งกันและกันของกฎและการตัดสินที่ขจรขจายของหนังสือ

(คุณสามารถบอกได้ว่าข้อมูลที่ระบุเหล่านี้ไม่ได้อยู่นอกบ้านเพราะคุณสามารถประเมินตำแหน่งของรั้วได้ตัวอย่างเช่นบานพับของความสูงของรัฐอยู่ใกล้ 11,000 และ 1,000 กระจายไปรอบ ๆ 10,000 คูณด้วย 1.5 และ 3 ให้ระยะทาง 15,000 และ 30,000 ดังนั้นรั้วบนที่มองไม่เห็นจะต้องอยู่ใกล้กับ 11,000 + 15,000 = 26,000 และรั้วด้านล่างที่ 1,000 - 15,000 นั้นจะต่ำกว่าศูนย์ส่วนรั้วไกลจะอยู่ใกล้ 11,000 + 30,000 = 41,000 และ 1,000 - 30,000 = -29,000.)


อ้างอิง

Tufte, Edward การแสดงผลข้อมูลเชิงปริมาณ ข่าวเชสเชียร์ 2526

Tukey, John บทที่ 2 EDA แอดดิสัน - เวสลีย์ 2520

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.