บ็อกซ์ล็อตมีวัตถุประสงค์เพื่อสรุปชุดข้อมูลที่ค่อนข้างเล็กในแบบที่แสดงให้เห็นชัดเจน
สิ่งนี้จะต้องทำในลักษณะที่แข็งแกร่ง : นั่นหมายความว่า boxplot ไม่ควรมองที่แตกต่างกันอย่างเห็นได้ชัดเมื่อหนึ่งหรือส่วนที่ค่อนข้างเล็กของค่าข้อมูลมีการเปลี่ยนแปลงโดยพลการ
วิธีแก้ปัญหาที่นำมาใช้โดยนักประดิษฐ์John Tukeyคือการใช้สถิติการสั่งซื้อ - ข้อมูลที่เรียงลำดับจากต่ำสุดไปสูงสุด - อย่างเป็นระบบ เพื่อความง่าย (เขาทำการคำนวณทางจิตใจหรือด้วยดินสอและกระดาษ) Tukey มุ่งเน้นไปที่ค่ามัธยฐาน : ค่ากลางของชุดตัวเลข (สำหรับแบตช์ที่มีค่าเป็นจำนวนคู่ Tukey ใช้จุดกึ่งกลางของค่ากลางสองค่า) ค่ามัธยฐานสามารถทนต่อการเปลี่ยนแปลงได้ถึงครึ่งหนึ่งของข้อมูลที่ใช้ ดังนั้น:
ค่ากลางเป็นที่คาดกันกับค่ามัธยฐานของข้อมูลทั้งหมด
การแพร่กระจายถูกประเมินด้วยความแตกต่างระหว่างค่ามัธยฐานของ "ครึ่งบน" - ข้อมูลทั้งหมดเท่ากับหรือสูงกว่าค่ามัธยฐาน - และ "ครึ่งล่าง" - ข้อมูลทั้งหมดเท่ากับหรือน้อยกว่าค่ามัธยฐาน ค่ามัธยฐานทั้งสองนี้เรียกว่า "บานพับ" ด้านบนและล่าง พวกเขามักจะถูกแทนที่ด้วยสิ่งที่เรียกว่าควอไทล์ในปัจจุบัน (ซึ่งไม่มีคำจำกัดความสากล, อนิจจา)
รั้วที่มองไม่เห็นสำหรับการตรวจค่าผิดปกติจะถูกสร้างขึ้น 1.5 และ 3 เท่าของการแพร่กระจายเกินกว่าบานพับ (ห่างจากค่ากลาง)
- "ค่าที่ปลายแต่ละด้านใกล้เคียงที่สุด แต่ยังอยู่ภายในรั้วด้านในคือ 'ติดกัน'
- ค่าที่อยู่นอกรั้วแรกจะถูกเรียกว่า "ค่าผิดปกติ"
- ค่าที่อยู่นอกรั้วที่สองคือ "ไกล"
(ผู้ที่มีอายุมากพอที่จะจดจำพวกฮิปปี้เถียงในยุค 60 จะเข้าใจเรื่องตลก)
เนื่องจากสเปรดคือความแตกต่างของค่าข้อมูลรั้วเหล่านี้จึงมีหน่วยการวัดเหมือนกับข้อมูลต้นฉบับ: นี่คือความหมายของ "ระยะทาง" ในคำถาม
เกี่ยวกับค่าข้อมูลที่จะระบุ Tukey เขียน
อย่างน้อยเราสามารถระบุค่าที่สูงที่สุดและอาจทำได้ดีในการระบุอีกสองสามอย่าง
วิธีการแบบกราฟิกใด ๆ เพื่อแสดงค่ามัธยฐานบานพับและค่าที่ระบุควรจะเรียกว่า "boxplot" (เดิมคือ "พล็อตแบบ box-and-whisker") รั้วมักจะไม่ปรากฎ การออกแบบของ Tukey ประกอบด้วยสี่เหลี่ยมผืนผ้าอธิบายบานพับด้วย "เอว" ที่ค่ามัธยฐาน "หนวดเครา" ที่ไม่สร้างความรำคาญเหมือนสายขยายออกไปด้านนอกจากบานพับไปยังค่าที่ระบุด้านในสุด (ทั้งด้านบนและด้านล่างกล่อง) โดยปกติแล้วค่าที่ระบุด้านในสุดเหล่านี้คือค่าติดกันที่กำหนดไว้ด้านบน
ดังนั้นลักษณะเริ่มต้นของ boxplot คือการขยายเคราไปยังค่าข้อมูลที่ไม่อยู่ไกลที่สุดและเพื่อระบุ (ผ่านฉลากข้อความ) ข้อมูลที่ประกอบด้วยปลายเคราและค่าผิดปกติทั้งหมด ตัวอย่างเช่นภูเขาไฟ Tupungatito เป็นค่าที่อยู่ติดกันสูงสำหรับข้อมูลความสูงของภูเขาไฟที่ปรากฎทางด้านขวาของภาพ: ผู้เคราหยุดอยู่ตรงนั้น Tupungatito และภูเขาไฟที่สูงขึ้นไปทั้งหมดนั้นแยกจากกัน
ดังนั้นสิ่งนี้จะแสดงข้อมูลโดยสุจริตระยะห่างในกราฟิกเป็นสัดส่วนกับความแตกต่างของค่าข้อมูล (การออกเดินทางจากสัดส่วนโดยตรงใด ๆ จะแนะนำ "ปัจจัยเท็จ" ในคำศัพท์ของ Tufte (1983))
สองกล่องแปลงจากหนังสือของ Tukey EDA (หน้า 41) แสดงส่วนประกอบ เป็นที่น่าสังเกตว่าเขาได้ระบุค่าที่ไม่เป็นสาระสำคัญที่ระดับสูงสุดและต่ำสุดของชุดข้อมูลรัฐที่ด้านซ้ายและอีกหนึ่งค่าที่ไม่อยู่รอบนอกของความสูงของภูเขาไฟทางด้านขวา สิ่งนี้แสดงให้เห็นถึงการมีอิทธิพลซึ่งกันและกันของกฎและการตัดสินที่ขจรขจายของหนังสือ
(คุณสามารถบอกได้ว่าข้อมูลที่ระบุเหล่านี้ไม่ได้อยู่นอกบ้านเพราะคุณสามารถประเมินตำแหน่งของรั้วได้ตัวอย่างเช่นบานพับของความสูงของรัฐอยู่ใกล้ 11,000 และ 1,000 กระจายไปรอบ ๆ 10,000 คูณด้วย 1.5 และ 3 ให้ระยะทาง 15,000 และ 30,000 ดังนั้นรั้วบนที่มองไม่เห็นจะต้องอยู่ใกล้กับ 11,000 + 15,000 = 26,000 และรั้วด้านล่างที่ 1,000 - 15,000 นั้นจะต่ำกว่าศูนย์ส่วนรั้วไกลจะอยู่ใกล้ 11,000 + 30,000 = 41,000 และ 1,000 - 30,000 = -29,000.)
อ้างอิง
Tufte, Edward การแสดงผลข้อมูลเชิงปริมาณ ข่าวเชสเชียร์ 2526
Tukey, John บทที่ 2 EDA แอดดิสัน - เวสลีย์ 2520