พล็อตกล่องข้อมูลใดให้ข้อมูลว่าฮิสโตแกรมไม่มี?


13

ฮิสโทแกรมให้ความรู้สึกที่ดีเกี่ยวกับการกระจายตัวของตัวแปร พล็อตกล่องพยายามทำสิ่งเดียวกัน แต่อย่าให้ภาพการกระจายตัวของตัวแปรนี้เป็นอย่างดี

ฉันไม่เข้าใจว่าทำไมคนถึงใช้กล่องแปลง ฮิสโทแกรมดีกว่าในทุกด้าน มีเหตุผลที่ฉันจะใช้ทั้งคู่หรือไม่

สิ่งเดียวที่ฉันคิดว่าพล็อตกล่องให้คือ: ค่าผิดปกติ! มันบอกเราว่าการสังเกตใดที่อาจเป็นค่าผิดปกติ


1
ฮิสโตแกรมนั้นแย่กว่าการเป็นตัวแทนของการแจกแจงทั้งหมดหรือไม่?
Anthony Martin

2
ขึ้นอยู่กับสิ่งที่คุณต้องการด้วยพล็อตกล่องคุณสามารถมีค่าที่แม่นยำบางอย่าง (เช่นค่ามัธยฐาน, P75) ที่คุณไม่มีฮิสโตแกรม มันแสดงข้อมูลน้อยลง แต่มีการสังเคราะห์มากกว่า ประเด็นของฉันคือแม้แต่ฮิสโตแกรมก็คือการทำให้เข้าใจง่ายและสิ้นเปลืองข้อมูลเมื่อเทียบกับการกระจายทั้งหมด แต่สามารถใช้งานได้ง่ายกว่า
Anthony Martin

2
มุมมองตรงกันข้ามเกี่ยวกับการใช้ประโยชน์ของฮิสโตแกรมได้รับการแสดงออกอย่างตรงไปตรงมาและแสดงให้เห็นอย่างดีในโพสต์ upvoted สูงที่stats.stackexchange.com/a/51753 (ซึ่งสามารถพบได้โดยการค้นหา "ฮิสโตแกรม" ในเว็บไซต์ของเรา)
whuber

3
ความคิดที่น่าสนใจ - แต่การเพิ่มขนาดของถังขยะจะช่วยลดฮิสโตแกรมให้เป็นรูปเหมือนกล่องแบบกล่องในขณะที่ยังคงต้องพึ่งพาการเลือกจุดตัด IMHO ข้อดีที่แท้จริงของ boxplots สามารถทำได้ดีที่สุดโดยศึกษาการใช้สรุป N-letter ของ Tukey สำหรับการวิเคราะห์เชิงสำรวจข้อมูลหลายตัวแปรและจดจำว่าเขาคำนวณด้วยดินสอและกระดาษในเวลานั้น สำหรับการสร้างภาพข้อมูลเช่น "ร่องรอยการเคลื่อนที่แบบคร่าว ๆ " บทสรุปแบบไม่มีเงื่อนไขอื่น ๆ ของการตอบสนองแบบมีเงื่อนไขเช่นฮิสโทแกรมหรือแผนการไวโอลินก็จะไม่ทำงาน
whuber

1
ฮิสโทแกรมที่เกิดจากความล้มเหลวทั้งสอง (IMO) เกิดขึ้นเมื่อมีตัวอย่างน้อยหรือเมื่อกล่องมีขนาดที่ไม่ถูกต้อง จุดอ่อนของ boxplot ที่ดี (และฉันคิดว่าความแปรปรวนของ JMP เมื่อฉันพูดมัน) นั้นมีหลากหลายรูปแบบและรายละเอียดที่ดี ที่เดียวที่ boxplot ส่องสว่างคือเมื่อมีตัวอย่างน้อย ฉันชอบมันเมื่อมีจำนวนของตัวแปรการโต้ตอบในระดับต่าง ๆ - ดังนั้นพล็อตความแปรปรวน JMP
EngrStudent - Reinstate Monica

คำตอบ:


16

ความจริงที่ว่ากล่องแปลงให้บทสรุปของการแจกแจงมากขึ้นสามารถมองได้ว่าเป็นข้อได้เปรียบในบางกรณี บางครั้งเมื่อเราเปรียบเทียบการแจกแจงเราไม่สนใจรูปร่างโดยรวม แต่ในที่ที่การกระจายอยู่ตรงข้ามกัน การพล็อตควอไทล์เคียงข้างกันอาจเป็นวิธีที่มีประโยชน์ในการทำสิ่งนี้โดยไม่รบกวนรายละเอียดอื่น ๆ ที่เราอาจไม่สนใจ


1
นี่คือคำตอบที่ดีที่สุด Boxplots ดีกว่าสำหรับการเปรียบเทียบการแจกแจงมากกว่าฮิสโตแกรม!
kjetil b halvorsen

14

ในกรณี univariate กล่องแปลงจะให้ข้อมูลบางอย่างที่ฮิสโตแกรมไม่ได้ (อย่างน้อยไม่ชัดเจน) นั่นคือโดยทั่วไปจะมีค่ามัธยฐาน, 25 และ 75 เปอร์เซ็นไทล์, min / max ที่ไม่ใช่ค่าผิดปกติและแยกจุดที่ถือว่าเป็นค่าผิดปกติอย่างชัดเจน ทั้งหมดนี้สามารถ "eyeballed" จากฮิสโตแกรม (และอาจจะดีกว่าที่จะเป็น eyeballed ในกรณีของค่าผิดปกติ)

อย่างไรก็ตามข้อดีที่ใหญ่กว่ามากคือการเปรียบเทียบการกระจายข้ามกลุ่มต่าง ๆ ทั้งหมดในครั้งเดียว ด้วย 10+ กลุ่มนี่เป็นงานที่น่าเบื่อหน่ายกับฮิสโทแกรมเคียงข้างกัน แต่ง่ายมากที่มีพล็อตกล่อง

ดังที่คุณกล่าวถึงไวโอลิน (หรือแปลงถั่ว) เป็นทางเลือกที่ให้ข้อมูลมากกว่า อย่างไรก็ตามพวกเขาต้องการความรู้ทางสถิติมากกว่ากล่องแปลงข้อมูลเล็กน้อย (เช่นหากนำเสนอต่อผู้ชมที่ไม่ใช่เชิงสถิติมันอาจจะน่ากลัวกว่านี้อีกเล็กน้อย) และแผนการแปลงกล่องนั้นยาวกว่าการประมาณความหนาแน่นของเคอร์เนล


3
+1 แม้ว่าการแก้ไขกล่องแปลงจะให้ค่ามัธยฐานไม่ใช่หมายถึง
Greenparker

3
ทุกคนสามารถถูกต้อง พล็อตกล่องมักจะแสดงค่าเฉลี่ย (ฉันเคยเห็นสิ่งนี้ถูกปฏิเสธ แต่จำไม่ได้ว่าเห็นตัวอย่าง) แต่การใช้งานบางอย่างช่วยให้คุณสามารถแสดงความหมายเช่นกัน นั่นเป็นความคิดที่ดี
Nick Cox

ขอบคุณสำหรับการชี้ให้เห็นว่า ฉันคิดว่า (ไม่ถูกต้อง) โดยปกติแล้วจะเป็นค่าเฉลี่ยซึ่งอาจนำไปสู่การแปลงที่แปลกมากในบางกรณี
หน้าผา AB

1
จะดีถ้ามีภาพที่จะไปพร้อมกับสิ่งนี้เพื่อแสดงค่าของการเปรียบเทียบแบบเคียงข้างกันกับพล็อตกล่องและฮิสโทแกรม
Rudolf Olah

7
  1. ถ้าฉันแสดงฮิสโตแกรมและถามคุณว่าค่ามัธยฐานอยู่ที่ไหนคุณอาจต้องใช้เวลาคิดสักหน่อย ... แล้วคุณจะได้ค่าประมาณ ถ้าฉันทำแบบเดียวกันกับกล่องสี่เหลี่ยมคุณมีมันทันที ถ้านั่นคือสิ่งที่คุณสนใจ boxplots จะชนะอย่างชัดเจน

  2. ฉันยอมรับว่า boxplots ไม่ได้มีประสิทธิภาพเท่ากับคำอธิบายของการกระจายตัวอย่างเดียวเนื่องจากมันลดลงเหลือเพียงไม่กี่จุดและนั่นไม่ได้บอกอะไรคุณมากนัก

    อย่างไรก็ตามหากคุณเปรียบเทียบการกระจายหลายสิบครั้งการมีรายละเอียดทั้งหมดของแต่ละรายการอาจเป็นข้อมูลที่มากกว่าการเปรียบเทียบได้ง่าย - คุณอาจต้องการลดข้อมูลให้เหลือน้อยลงเพื่อเปรียบเทียบ

  3. หากข้อมูลเพิ่มเติมดีกว่ามีตัวเลือกที่ดีกว่าฮิสโตแกรมมากกว่า พล็อตก้านและใบตัวอย่างหรือพล็อต ecdf / quantile

    หรือคุณสามารถเพิ่มข้อมูลลงในฮิสโตแกรม:

ฮิสโตแกรมที่มีกล่องส่วนขอบ ฮิสโทแกรม Rugplot กับกระวนกระวายใจ ฮิสโตแกรมที่มีแถบกราฟ

(แปลงจากคำตอบนี้ )

ครั้งแรกของเหล่านั้น - การเพิ่มกล่องสี่เหลี่ยมแคบ ๆ ที่ขอบ - ให้ประโยชน์ใด ๆ แก่คุณที่จะได้รับจากจอแสดงผลทั้งสอง


1

พล็อตบาร์ให้เฉพาะช่วงความถี่ของการสังเกตในขณะที่พล็อตบ็อกซ์ดีกว่าในการบอกว่าพารามิเตอร์หลายอย่างของการโกหกการแจกแจง, ค่าเฉลี่ยตัวอย่างและความแปรปรวนที่พล็อตบาร์ไม่สามารถทำได้ จึงใช้กล่องแปลงเป็นเครื่องมือเปรียบเทียบที่มีประสิทธิภาพหากมีการแจกแจงหลายแบบ


มันเป็นเรื่องยากสำหรับ boxplot ที่จะแสดงค่าเฉลี่ย - เกือบจะพวกเขาใช้ค่ามัธยฐาน - และพวกเขาไม่เคยแสดงความแปรปรวนโดยตรง หมายเหตุเช่นกันว่าปริมาณเหล่านี้มักจะไม่ถือว่าเป็น "ค่าพารามิเตอร์ของการกระจาย" พวกเขามีสถิติเชิงพรรณนาสำหรับชุดของข้อมูล
whuber

พวกเขาเป็นเครื่องมือที่ดีสำหรับการอธิบายการแจกแจงโดยไม่ต้องคำนวณมากเกินไป และพวกเขาแสดงค่ามัธยฐานมากขึ้นและเนื่องจากในหลายกรณีมาตรการทั้งสองตรงกันพล็อตกล่องเป็นเครื่องมือที่ดีในการประมาณค่าเฉลี่ยเช่นกัน
Shiv_90

ความคิดเห็นของคุณดูเหมือนว่าจะยังคงรบกวนข้อมูลที่มีการกระจายพื้นฐาน มันหายากมากสำหรับค่าเฉลี่ยที่เท่ากับค่ามัธยฐานในชุดข้อมูลใด ๆ ยิ่งไปกว่านั้นหนึ่งในการใช้งาน boxplot ที่ดีและใช้กันมากที่สุดคือการระบุความไม่สมมาตรซึ่งมักแสดงถึงความแตกต่างที่สำคัญระหว่างค่าเฉลี่ยและค่ามัธยฐาน หนึ่งในหลักการพื้นฐานที่อยู่เบื้องหลังความคิดดั้งเดิมของ boxplot คือมันเป็นเครื่องมือสำรวจที่มีประสิทธิภาพ - ซึ่งบอกเป็นนัยว่าไม่ควรใช้สถิติที่ละเอียดอ่อนเช่นค่าเฉลี่ยหรือความแปรปรวน
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.