ฉันสงสัยว่าจะอนุมานความแปรปรวนของตัวแปรได้อย่างไรโดยใช้ boxplot อย่างน้อยเป็นไปได้หรือไม่ที่จะอนุมานว่าตัวแปรสองตัวมีความแปรปรวนแบบเดียวกันกับการสังเกต boxplot หรือไม่?
ฉันสงสัยว่าจะอนุมานความแปรปรวนของตัวแปรได้อย่างไรโดยใช้ boxplot อย่างน้อยเป็นไปได้หรือไม่ที่จะอนุมานว่าตัวแปรสองตัวมีความแปรปรวนแบบเดียวกันกับการสังเกต boxplot หรือไม่?
คำตอบ:
ไม่ใช่โดยไม่มีข้อสันนิษฐานที่เข้มงวดมาก หากคุณคิดว่าคำตอบคือใช่ (แทนที่จะถามซึ่งฉันปรบมือให้คุณ) ฉันคิดว่าฉันอาจหลอกคุณได้ด้วยตัวอย่าง (ตัวนับ) นี้:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
ดูคล้ายกันใช่มั้ย ยัง !
ในกรณีที่ไม่ชัดเจนจากรหัสประชากร2
คือ:
-3.000 -2.650 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 2.650 3.000
และไม่คุณไม่สามารถอนุมานได้ว่าประชากรนี้เป็นปกติเพียงเพราะมันสมมาตรอย่างแน่นอน นี่คือพล็อตของประชากร QQ 2
:
แน่นอนว่าไม่ได้ดูปกติสำหรับฉัน
แก้ไข - ตอบความคิดเห็นของคุณ:
ความแปรปรวนเป็นสถิติตัวเลข หากความแปรปรวนของการแจกแจงสองค่าเท่ากันนั่นคือสิ่งที่คุณต้องพูดถึง หากการแจกแจงสองแบบเป็นปกติแน่นอนอีกครั้งมีนิยามทางคณิตศาสตร์ที่ทั้งคู่จะพอดี หากการแจกแจงสองแบบไม่ปกติหรือเท่ากันคุณไม่ควรพูดเป็นอย่างอื่น หากคุณต้องการที่จะบอกว่าพวกเขากำลังประมาณเท่ากันหรือปกติคุณอาจจะกำหนด "พอตัวอย่าง" ในทางที่เหมาะกับวัตถุประสงค์ของคุณซึ่งคุณไม่ได้ระบุที่นี่ ความไวต่อความแตกต่างของการแจกแจงนั้นแตกต่างกันอย่างมากในการวิเคราะห์ที่มักกระตุ้นคำถามเช่นคุณ ตัวอย่างเช่น,มันค่อนข้างแข็งแกร่งสำหรับการละเมิดหลังซึ่งมีขนาดตัวอย่างเท่ากัน ) ดังนั้นฉันจึงไม่แนะนำให้ทำการทดสอบเพื่อเปรียบเทียบประชากรของฉัน2
กับประชากร1
(การแจกแจงแบบปกติ)
นี่เป็นคำตอบที่ดี ความคิดเห็นเพิ่มเติมเหล่านี้ยาวเกินไปเล็กน้อย (อัปเดต: ตอนนี้ยาวเกินไป) เพื่อไปเป็นความคิดเห็น
อย่างเคร่งครัดสิ่งที่คุณสามารถอ่านได้จาก boxplot เกี่ยวกับความแปรปรวนของการกระจายคือช่วง interquartile (ความยาวหรือความสูงของกล่อง) และช่วง (ความยาวหรือความสูงระหว่างสุดขั้วของจอแสดงผล)
การประมาณว่ากล่องแปลงที่ดูเหมือนกันมีแนวโน้มที่จะมีความแปรปรวนที่คล้ายกันมาก แต่ระวัง พล็อตของกล่องที่มีตำแหน่งหรือก้อยแตกต่างกันมาก (หรือทั้งสองอย่าง) ไม่น่าจะมีความแปรปรวนที่คล้ายกันมากที่สุด แต่ก็เป็นไปไม่ได้ แต่แม้ว่าพล็อตกล่องจะมีลักษณะเหมือนกันคุณจะไม่ได้รับข้อมูลในพล็อตกล่องธรรมดาหรือวานิลลาเกี่ยวกับความแปรปรวนภายในกล่องหรือความแปรปรวนภายในเคราจริง ๆ (เส้นที่แสดงระหว่างกล่องและจุดข้อมูลภายใน 1.5 IQR ของควอไทล์ใกล้เคียง) . NB มีหลายรูปแบบของแผนการแปลง ผู้เขียนมักจะยากจนในการจัดทำเอกสารกฎที่แม่นยำที่ใช้โดยซอฟต์แวร์ของพวกเขา
ความนิยมของพล็อตกล่องมีราคา พล็อตกล่องอาจมีประโยชน์อย่างยิ่งสำหรับการแสดงคุณสมบัติขั้นต้นของกลุ่มหรือตัวแปรจำนวนมาก (พูดว่า 20 หรือ 30 บางครั้งก็ยิ่งมากขึ้น) ตามที่ใช้กันทั่วไปในการเปรียบเทียบพูดว่า 2 หรือ 3 กลุ่มพวกเขามียอดขายเกินจริงในมุมมองของฉันเนื่องจากแผนการอื่นสามารถแสดงรายละเอียดได้มากขึ้นอย่างชาญฉลาดในพื้นที่เดียวกัน โดยธรรมชาติแล้วสิ่งนี้เป็นที่แพร่หลายหากไม่ได้รับการยอมรับอย่างกว้างขวางและการปรับปรุงต่างๆของพล็อตกล่องแสดงรายละเอียดเพิ่มเติม
การทำงานอย่างจริงจังกับความแปรปรวนจำเป็นต้องเข้าถึงข้อมูลต้นฉบับ
นี่คือแปรงกว้างและสามารถเพิ่มรายละเอียดเพิ่มเติมได้ ตัวอย่างเช่นตำแหน่งของค่ามัธยฐานในกล่องบางครั้งให้ข้อมูลเพิ่มเติมเล็กน้อย
UPDATE
ฉันเดาว่าผู้คนจำนวนมากมีความสนใจในการใช้ (และข้อ จำกัด ) ของแผนการแปลงโดยทั่วไปมากกว่าในคำถามที่เฉพาะเจาะจงของความแปรปรวนอนุมานจากพล็อตกล่อง (ซึ่งคำตอบสั้น ๆ คือ "คุณไม่สามารถยกเว้นทางอ้อมประมาณ และบางครั้ง ") ดังนั้นฉันจะเพิ่มความเห็นเพิ่มเติมเกี่ยวกับทางเลือกอื่นตามที่ได้รับแจ้งจาก @Christian Sauer
ฮิสโทแกรมที่ใช้อย่างสมเหตุสมผลมักจะยังคงแข่งขันได้ ข้อความเกริ่นนำแบบคลาสสิกสมัยใหม่โดย Freedman, Pisani และ Purves ใช้มันตลอด
สิ่งที่แตกต่างกันที่รู้จักกันในชื่อ dot หรือ strip plots (แผนภูมิ) (และจากชื่ออื่น ๆ ) นั้นง่ายต่อการเข้าใจ จุดที่เหมือนกันสามารถซ้อนกันได้หลังจากทำการ binning ถ้าต้องการ คุณสามารถเพิ่มค่ามัธยฐานและควอไทล์หรือช่วงเวลาเฉลี่ยและความมั่นใจในเนื้อหาของหัวใจของคุณ
แปลง Quantile ดูเหมือนว่าเป็นรสชาติที่ได้มา แต่ในหลาย ๆ ด้านที่หลากหลายที่สุดของทั้งหมด ฉันรวมที่นี่ของค่าสั่งซื้อน่าจะเป็นสะสมอีกครั้ง (ตำแหน่งการวางแผน) เช่นเดียวกับแปลง quantile ที่จะตรงถ้าข้อมูลใด ๆ ที่มีการกระจาย "แบรนด์เนม" ที่ได้รับการพิจารณา (ปกติเอ็กซ์โพเนเชียนแกมม่าอะไรก็ตาม) (รับทราบถึง @Scortchi สำหรับการอ้างอิงถึง "แบรนด์เนม" ที่ใช้โดย CJ Geyer)
แต่รายการที่ครอบคลุมเป็นไปไม่ได้ (ฉันจะเพิ่มตัวอย่างเช่นในบางครั้งการแทนแบบสแต็กและใบไม้นั้นถูกต้องอย่างยิ่งที่จะเห็นรายละเอียดที่สำคัญในข้อมูลเช่นเดียวกับเมื่อการตั้งค่าหลักนั้นอาละวาด) หลักการสำคัญคือพล็อตการกระจายประเภทที่ดีที่สุด การรับรู้โครงสร้างที่ละเอียดของข้อมูลที่น่าสนใจหรือมีความสำคัญเป็นไปไม่ได้ดูเหมือนว่าจะเป็นไปไม่ได้การรับรู้ที่ละเอียด (granulatority, outliers และอื่น ๆ ) รวมถึงโครงสร้างที่หยาบ (ระดับการแพร่กระจายความเบ้ ฯลฯ )
พล็อตของกล่องไม่ดีเท่ากันในการแสดงโครงสร้างทุกชนิด พวกเขาไม่สามารถและไม่ได้ตั้งใจจะเป็น เป็นมูลค่าการตั้งค่าสถานะที่ JW Tukey ในการวิเคราะห์ข้อมูลเชิงสำรวจ Reading, MA: Addison-Wesley (1977) ให้ตัวอย่างของข้อมูล bimodal จาก Rayleigh ซึ่งโครงกล่องปิดบังโครงสร้างหลักอย่างสมบูรณ์ ในฐานะนักสถิติที่ยิ่งใหญ่เขาตระหนักดีว่าแผนการแปลงกล่องไม่ใช่คำตอบเสมอไป
แนวปฏิบัติที่แปลกประหลาดซึ่งแพร่หลายในตำราแนะนำกำลังคุยกันถึงเรื่อง ANOVA ในขณะที่เชื้อเชิญผู้อ่านให้ดูที่แปลงของกล่องซึ่งแสดงค่ามัธยฐานและควอไทล์ไม่ใช่ค่าเฉลี่ยและความแปรปรวน (SDs) โดยธรรมชาติแล้วการดูข้อมูลนั้นดีกว่าไม่ได้มอง แต่ถึงกระนั้นการแสดงภาพกราฟิกที่เหมาะสมกว่านั้นก็คือบางส่วนของพล็อตข้อมูลดิบที่มีการติดตั้งหมายถึง +/- ตัวคูณที่เหมาะสมของ SE
แนวทางที่ไร้เดียงสา:
ในการแจกแจงแบบปกติควอนไทล์ 25% และ 75% จะอยู่ที่ระยะทางจากจุดศูนย์กลาง นั่นให้ความหนาแน่นกึ่งกลาง 50% ครอบคลุมระยะนี้สองเท่า ( ) ใน boxplot ช่วง intequartile (IQR ระยะทางจากด้านล่างของกล่องถึงด้านบน) ครอบคลุมจำนวน 50% ของกลุ่มตัวอย่าง1.35 ⋅ σ
ถ้าคุณทำสมมติฐานว่าประชากรของคุณต่อการกระจายปกติ (ซึ่งบางครั้งเป็นสมมติฐาน BIG ที่จะทำไม่ได้เล็กน้อยดังนั้น) แล้วค่าเบี่ยงเบนมาตรฐานของประชากรของคุณอาจจะประมาณประมาณจากสมการว่า เป็นIQRσ = 0.74 ⋅ ฉันQ R
และเกี่ยวกับการเปรียบเทียบความแปรปรวนโดย boxplot: กล่องที่กว้างขึ้นหมายถึงความแปรปรวนที่มากขึ้น แต่นั่นจะช่วยให้คุณเข้าใจอย่างถ่องแท้และคุณต้องคำนึงถึงเรื่องนี้ด้วย เพื่อยืนยันคุณควรใช้ความแตกต่างของสมมติฐาน