เท่าที่ boxplot ที่มีรอยบากไปอ้างอิง McGill et al [1] ที่กล่าวถึงในคำถามของคุณมีรายละเอียดที่สมบูรณ์ (ไม่ใช่ทุกสิ่งที่ฉันพูดที่นี่พูดถึงที่นี่อย่างชัดเจน แต่ก็มีรายละเอียดเพียงพอที่จะเข้าใจ)
ช่วงเวลาเป็นช่วงเวลาที่แข็งแกร่ง แต่อาศัยแบบเกาส์เซียน
กระดาษอ้างอิงช่วงเวลาต่อไปนี้สำหรับรอยหยัก (โดยที่คือค่ามัธยฐานตัวอย่างและคือช่วง interquartile ตัวอย่าง):MR
M±1.7×1.25R/(1.35N−−√)
ที่อยู่:
1.35เป็นตัวแปลงแบบ asymptotic เพื่อเปลี่ยน IQRs ให้เป็นค่าประมาณของ - โดยเฉพาะมันประมาณความแตกต่างระหว่าง 0.75 quantile กับ 0.25 quantile ของ standard standard; ควอไทล์ที่มีประชากรประมาณ 1.35ออกจากกันเพื่อให้ค่าประมาณควรจะเป็นที่สอดคล้องกัน (เป็นกลาง asymptotically) ประมาณการของ (ขึ้นอย่างถูกต้องเกี่ยวกับ 1.349)σσR/1.35σ
1.25มาเพราะเรากำลังจัดการกับข้อผิดพลาดมาตรฐานของซีมิคโทติคมากกว่าค่าเฉลี่ย โดยเฉพาะความแปรปรวน asymptotic ของมัธยฐานตัวอย่างคือโดยที่คือความหนาแน่นของความสูงที่มัธยฐาน สำหรับการแจกแจงแบบปกติคือดังนั้นข้อผิดพลาดมาตรฐานแบบซีมโทติคของมัธยฐานตัวอย่างคือ{N}14nf20f0f012π√σ≈0.3989σ12N√f0=π/2−−−√σ/N−−√≈1.253σ/N−−√
ในฐานะที่เป็น StasK กล่าวถึงที่นี่ขนาดเล็กคือยิ่งน่าสงสัยมากขึ้นนี้ (แทนที่เหตุผลที่สามของเขาด้วยหนึ่งเกี่ยวกับความสมเหตุสมผลของการใช้การกระจายปกติในสถานที่แรกN
รวมไปสองเราได้รับการประมาณการ asymptotic ของข้อผิดพลาดมาตรฐานของค่ามัธยฐานของเกี่ยวกับ {N}) McGill et al ให้เครดิตกับ Kendall และ Stuart (ฉันจำไม่ได้ว่าสูตรเฉพาะเกิดขึ้นที่นั่นหรือไม่ แต่ส่วนประกอบจะเป็น)1.25R/(1.35N−−√)
ดังนั้นสิ่งที่เหลือไว้เพื่อหารือคือปัจจัย 1.7
โปรดทราบว่าถ้าเราเปรียบเทียบหนึ่งตัวอย่างกับค่าคงที่ (พูดว่ามัธยฐานตั้งสมมติฐาน) เราจะใช้ 1.96 สำหรับการทดสอบ 5%; ดังนั้นถ้าเรามีข้อผิดพลาดมาตรฐานที่แตกต่างกันสองข้อ (อันที่ค่อนข้างใหญ่หนึ่งอันเล็กมาก) นั่นจะเกี่ยวกับปัจจัยที่จะใช้ (เนื่องจากถ้าโมฆะเป็นจริงความแตกต่างจะเกือบทั้งหมดเนื่องจากการเปลี่ยนแปลงในอันที่ใหญ่กว่า ข้อผิดพลาดมาตรฐานและขนาดเล็กสามารถ - ประมาณ - ได้รับการแก้ไขอย่างมีประสิทธิภาพ)
ในทางกลับกันหากข้อผิดพลาดมาตรฐานทั้งสองเหมือนกัน 1.96 จะเป็นปัจจัยที่มีขนาดใหญ่เกินไปเนื่องจากรอยบากทั้งสองชุดเข้ามา - สำหรับรอยหยักทั้งสองชุดจะไม่ทับซ้อนกันเราจะเพิ่มหนึ่งชุดลงไป นี้จะทำให้ปัจจัยที่เหมาะสม asymptotically1.96/2–√≈1.386
อยู่ที่ไหนสักแห่งระหว่างเรามี 1.7 เป็นปัจจัยประนีประนอมอย่างคร่าวๆ McGill และคณะอธิบายว่า "เลือกโดยประจักษ์" มันค่อนข้างใกล้เคียงกับสมมติว่าอัตราส่วนของความแปรปรวนที่เฉพาะเจาะจงดังนั้นฉันเดา (และมันก็ไม่มีอะไรมากไปกว่านั้น) คือการเลือกเชิงประจักษ์ (ขึ้นอยู่กับการจำลองบางอย่าง) อยู่ระหว่างชุดของอัตราส่วนค่ารอบสำหรับความแปรปรวน 1: 1, 2: 1,3: 1, ... ) ที่ "ดีที่สุดประนีประนอม"จากอัตราส่วนเสียบแล้วเป็นปัดเศษให้สองร่าง . อย่างน้อยก็เป็นวิธีที่เป็นไปได้ที่จะจบลงที่ 1.7rr:11.96/1+1/r−−−−−−√
นำพวกเขาทั้งหมด (1.35,1.25 และ 1.7) เข้าด้วยกันให้ประมาณ 1.57 บางแหล่งได้รับ 1.58 โดยการคำนวณ 1.35 หรือ 1.25 (หรือทั้งสองอย่าง) ถูกต้องมากขึ้น แต่เมื่อประนีประนอมระหว่าง 1.386 และ 1.96 นั้น 1.7 นั้นไม่แม่นยำแม้แต่สองร่างที่สำคัญ (เป็นเพียงค่าประนีประนอม ballpark) ดังนั้นความแม่นยำเพิ่มเติมคือ ไม่มีจุดหมาย (พวกมันอาจจะแค่ปัดเศษทั้งหมดเป็น 1.6 แล้วก็ทำได้)
โปรดทราบว่าไม่มีการปรับสำหรับการเปรียบเทียบหลาย ๆ ที่นี่
มีการเปรียบเทียบที่แตกต่างกันในขีด จำกัด ของความเชื่อมั่นสำหรับความแตกต่างในTukey-Kramer HSD :
y¯i∙−y¯j∙±qα;k;N−k2–√σˆε1ni+1nj−−−−−−−√
แต่ทราบว่า
นี้เป็นช่วงเวลารวมกันไม่ได้ทั้งสองผลงานที่แยกต่างหากเพื่อความแตกต่าง (เพื่อให้เรามีวาระในมากกว่าสองเอื้อแยกและและเราถือว่าความแปรปรวนคงที่ (ดังนั้นเราจึงไม่ได้เกี่ยวข้องกับการประนีประนอมกับ - เมื่อเราอาจมีความแปรปรวนแตกต่างกันมาก - แทนที่จะเป็นกรณีแบบ asymptotic )c.1ni+1nj−−−−−−√k.1ni−−√k.1nj−−√1.961.96/2–√
มันขึ้นอยู่กับวิธีการไม่ใช่ค่ามัธยฐาน (ไม่ใช่ 1.35)
มันขึ้นอยู่กับซึ่งขึ้นอยู่กับความแตกต่างของค่าเฉลี่ยที่มากที่สุด (ดังนั้นจึงไม่มีแม้แต่ส่วนใดของ 1.96 ในส่วนนี้แม้แต่ส่วนที่หารด้วย ) ในทางตรงกันข้ามเมื่อเปรียบเทียบกับพล็อตกล่องหลาย ๆ แบบไม่มีการพิจารณาถึงรอยหยักบนความแตกต่างที่ใหญ่ที่สุดของค่ามัธยฐานq2–√
ดังนั้นในขณะที่แนวคิดหลายประการที่อยู่เบื้องหลังรูปแบบขององค์ประกอบนั้นคล้ายคลึงกัน แต่จริงๆแล้วพวกเขาแตกต่างกันมากในสิ่งที่พวกเขาทำ
[1] McGill, R. , Tukey, JW และ Larsen, WA (1978) การเปลี่ยนแปลงของกล่องแปลง นักสถิติชาวอเมริกัน 32, 12–16