การอ่านพล็อตแบบกล่องและมัสสุ: สามารถรวบรวมความแตกต่างที่สำคัญระหว่างกลุ่มได้หรือไม่


11

สมมติว่าเรากำลังดูพล็อตบ็อกซ์และมัสสุนี้:

พล็อต

ระหว่างวันพฤหัสบดีและวันศุกร์ฉันคิดว่าส่วนใหญ่จะเห็นว่าดูเหมือนจะมีความแตกต่างอย่างมีนัยสำคัญในเวลานอน นั่นเป็นการคาดเดาทางสถิติที่ถูกต้องใช่มั้ย เราสามารถแยกแยะความแตกต่างอย่างมีนัยสำคัญได้หรือไม่เนื่องจากช่วงควอไทล์ชั้นในนั้นไม่ทับซ้อนกันระหว่างวันพฤหัสบดีและวันศุกร์? สิ่งที่เกี่ยวกับความจริงที่ว่าเคราบนและล่างของวันพฤหัสบดีและวันศุกร์ตามลำดับทับซ้อนกัน? สิ่งนี้มีผลต่อการวิเคราะห์ของเราหรือไม่

มักจะมาพร้อมกับแผนภูมิเช่นนี้จะเป็นแบบ ANOVA แต่ฉันแค่อยากรู้ว่าเราสามารถพูดเกี่ยวกับความแตกต่างระหว่างกลุ่มได้ง่ายๆเพียงแค่ดูที่บ็อกซ์ล็อ


วงกลมแทนค่าผิดปกติ
Michael R. Chernick

3
ตราบใดที่พล็อตพลาดการระบุขนาดตัวอย่างใด ๆ มันก็เป็นเรื่องยาก แต่ถ้าคุณรวมกับช่วงความเชื่อมั่นพล็อตสำหรับค่าเฉลี่ยคุณจะเปรียบเทียบช่วงความมั่นใจเหล่านั้น ดูเหมือนว่าพวกเขาจะไม่ปรากฏในพล็อตของคุณ
kjetil b halvorsen

@kjetilbhalvorsen นี่เป็นเพียงพล็อตที่ฉันคว้ามาจาก Google :) ... ฉันได้รวมไว้ในพล็อตของฉันเองสิ่งที่คุณได้อธิบายไว้เป็นส่วนหนึ่งของการทดสอบ HSD ของ Tukey
blacksite

2
หากปราศจาก CIs คุณจะไม่สามารถพูดถึงความแตกต่างที่สำคัญ อย่างไรก็ตามฉันจะบอกว่ามีความแตกต่าง "เด่น" ระหว่างวันพฤหัสบดีและวันศุกร์ หรือแม้กระทั่ง "ความแตกต่างที่โดดเด่นที่สุด" เกิดขึ้นระหว่างวันพฤหัสบดีและวันศุกร์ ..
Ashe

1
วงกลมนั้นมีคะแนนมากกว่า 1.5 IQR จากควอไทล์ใกล้ พวกเขาไม่ใช่คนผิดปกติอย่างชัดเจนและเป็นกลาง สำหรับวันพฤหัสบดีนั้นดูไม่ธรรมดาเมื่อเทียบกับการกระจายที่เหลือ สำหรับวันศุกร์นั้นทำจริงๆ และนักวิจัยหรือนักวิเคราะห์ควรต้องการตรวจสอบว่าเป็นไปได้และดูว่ามีเรื่องราวที่จะอธิบาย บางทีบางคนไม่ได้นอน! การตั้งค่าสถานะจุดข้อมูลด้วยวิธีนี้เป็นการตั้งค่าสถานะเพื่อตรวจสอบและคิด ไม่ใช่วิธีการทางสถิติในการระบุปีศาจที่จะต้องสะเดาะเคราะห์
Nick Cox

คำตอบ:


4

ไม่คุณไม่สามารถ หากคุณมีขนาดตัวอย่างและประสบการณ์มากมายคุณอาจเดาได้และความแม่นยำของการเดาของคุณจะขึ้นอยู่กับขนาดตัวอย่าง (นอกเหนือจากขนาดเอฟเฟกต์) แล้ว ถ้า N = 1,000,000 ต่อกลุ่มมีความสำคัญมาก ถ้า N = 10 ต่อกลุ่มไม่มาก ที่ 100 ต่อกลุ่มมันยากที่จะคาดเดา

ฉันขอยืนยันว่านั่นเป็นสิ่งที่ดี สิ่งที่ต้องทำกับพล็อตเรื่องกล่องไม่ใช่การพยายามคาดเดาอย่างมีนัยสำคัญทางสถิติ แต่ลองดูว่าเกิดอะไรขึ้นและลองคิดดูด้วยเหตุผล อืมมม นอนหลับมากขึ้นในวันหยุดสุดสัปดาห์ นั่นน่าสนใจ แต่ไม่น่าแปลกใจจริงๆ เราสามารถจำลองชั่วโมงแห่งการนอนหลับเป็นฟังก์ชั่นของสุดสัปดาห์กับไม่ได้ หรือเราอาจลองดูว่ารูปแบบนี้แปรเปลี่ยนหรือไม่ บางทีคนที่เกษียณแล้วไม่มีรูปแบบนี้ พนักงานกะทำงานอย่างไร คนที่ทำงานในวันหยุดสุดสัปดาห์? คนที่ทำงาน 7 วันต่อสัปดาห์?

ในฐานะศาสตราจารย์คนโปรดของฉันในโรงเรียนระดับบัณฑิตศึกษา (เฮอร์แมนฟรีดแมน) เคยพูดว่า: "หยุด p-ing ในการวิจัย!"


1
ฉันคิดว่าคำตอบนี้เป็นแง่ร้ายโดยไม่จำเป็น ที่จริงแล้ว boxplots มีข้อมูลบางอย่างเกี่ยวกับขนาดกลุ่มเนื่องจากขนาดกลุ่มเล็กจริงๆ ( ) มีโครงสร้าง "เสื่อม" เนื่องจากการแจกแจงเหล่านี้ไม่เบ้มากเกินไปและมีค่าผิดปกติเล็กน้อย IQR (คูณหลายค่าที่เหมาะสม) เป็นตัวแทนที่ดีสำหรับ SD ดังนั้นเราจึงสามารถจำกัดความผิดพลาดมาตรฐานได้ ดังนั้นเราจึงสามารถทำการวิเคราะห์ ANOVA แบบคร่าวๆได้อย่างคร่าวๆจากพล็อตเพียงอย่างเดียวและมันจะแสดงให้เห็นว่า ANOVA โดยรวมมีความสำคัญ ท่านสามารถทำการทดสอบแบบโพสต์เฉพาะกิจได้อีกด้วย N<5
whuber

8

ใช่คุณสามารถ. อย่างน้อยก็ประมาณ

ฉันอธิบายวิธีการด้านล่าง (และแน่นอนว่ามีความสัมพันธ์กับ "กล่องทับซ้อน" ตามที่คุณแนะนำ) พร้อมกับคำเตือนและข้อ จำกัด บางอย่าง แต่ก่อนอื่นเรามาพูดคุยเกี่ยวกับขั้นตอนเบื้องต้นสำหรับพื้นหลังและบริบท (ฉันคิดว่าคำตอบที่เหมาะสมที่นี่ไม่ควรมุ่งเน้นไปที่รายละเอียดของตัวอย่าง - แม้ว่ามันอาจจะเป็นการทำบุญบางอย่างที่พูดถึงกัน แต่ในประเด็นสำคัญของการใช้ boxplots เพื่อประเมินว่าความแตกต่างที่ชัดเจนสามารถอธิบายได้อย่างง่ายดาย .)

หากคุณมีสิทธิ์เข้าถึงข้อมูลคุณสามารถวาดรูปสี่เหลี่ยมมุมฉากซึ่งออกแบบมาสำหรับการเปรียบเทียบภาพแบบนี้

ภาพที่แสดงกล่องสี่เหลี่ยมหยักใน R

มีการอภิปรายของการคำนวณ Boxplot หยักเป็นที่นี่ หากช่วงรอยไม่ทับซ้อนกันทั้งสองกลุ่มจะถูกเปรียบเทียบกันโดยประมาณที่ระดับ 5%; การคำนวณขึ้นอยู่กับการคำนวณตามปกติ แต่ค่อนข้างแข็งแกร่งและทำงานได้ดีพอสมควรในช่วงการแจกแจง (หากได้รับการทดสอบอย่างเป็นทางการพลังจะไม่สูงตามปกติ แต่ควรทำอย่างดีสำหรับกรณีที่มีน้ำหนักมากขึ้นหรือน้อยลง "ทั่วไป")

พิจารณาว่ากล่องสี่เหลี่ยมที่มีรอยบากนั้นทำงานได้อย่างไรคุณสามารถมองเห็นกฎง่ายๆที่จะทำงานเมื่อคุณมีจอแสดงผลแบบเดียวกับคำถาม เมื่อขนาดตัวอย่างเท่ากับ 10 และวางค่ามัธยฐานอยู่ใกล้กับกลางกล่องรอยหยักในกล่องสี่เหลี่ยมมีรอยบากอยู่ที่ความกว้างของกล่องดังนั้นรอยบากและกล่องจะอยู่ในที่เดียวกัน

ดูที่นี่สำหรับการอภิปรายถึงวิธีการ "n=10

n=10

n=9n=10

n=10n=10,10n=9,9n=8,8

nnn=40

ดูพล็อตของคุณ:

โปรดทราบว่าเราสามารถบอกได้จากลักษณะที่ปรากฏของพล็อตในคำถามที่ขนาดตัวอย่างต้องมีอย่างน้อย 5; ถ้าพวกมันมีน้อยกว่า 5 ตัวแต่ละ boxplots จะมีเงื่อนงำที่ชัดเจนว่าพวกมันมาจากขนาดตัวอย่างที่ต่ำกว่า (เช่นค่ามัธยฐานเป็นศูนย์กลางตายของแต่ละกล่องหรือมัสสุเป็นความยาว 0 เมื่อมีค่าผิดปกติ)

อีกทางเลือกหนึ่งถ้ากล่อง (ทำเครื่องหมายควอไทล์) ไม่ทับซ้อนกันและขนาดตัวอย่างอย่างน้อย 10 จากนั้นทั้งสองกลุ่มที่ถูกเปรียบเทียบควรมีค่ามัธยฐานที่แตกต่างกันในระดับ 5% (ถือว่าเป็นการเปรียบเทียบแบบคู่เดียว)

nn=5

[โปรดทราบว่าสิ่งนี้จะไม่คำนึงถึงจำนวนการเปรียบเทียบดังนั้นหากคุณทำการเปรียบเทียบหลายข้อผิดพลาดประเภทโดยรวมของคุณจะใหญ่ขึ้น มันมีไว้สำหรับการตรวจสอบด้วยภาพแทนที่จะทดสอบอย่างเป็นทางการ อย่างไรก็ตามความคิดที่เกี่ยวข้องสามารถปรับให้เข้ากับแนวทางที่เป็นทางการมากขึ้นรวมถึงการปรับเพื่อการเปรียบเทียบหลาย ๆ อย่าง]

หากมีการพูดถึงว่าคุณสามารถทำได้ก็สมควรที่จะพิจารณาว่าคุณควรทำหรือไม่ อาจจะไม่; ปัญหาของการแฮ็ค p- อาจเกิดขึ้นได้จริง แต่ถ้าคุณใช้สิ่งนี้เพื่อพิจารณาว่าตัวอย่างการติดตามข้อมูลใหม่เกี่ยวกับปัญหาการวิจัยหรือไม่และสิ่งที่คุณมีก็คือบ็อกซ์พล็อตในกระดาษ ค่อนข้างมีประโยชน์ที่จะสามารถประเมินได้ว่ามีมากกว่านั้นสามารถอธิบายได้อย่างง่ายดายจากความแปรปรวนเนื่องจากเสียงรบกวน แต่การพิจารณาปัญหาในเชิงลึกนั้นจริง ๆ แล้วจะตอบคำถามต่าง ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.