ลดความแปรปรวนจาก boxplot


12

ฉันสงสัยว่าจะอนุมานความแปรปรวนของตัวแปรได้อย่างไรโดยใช้ boxplot อย่างน้อยเป็นไปได้หรือไม่ที่จะอนุมานว่าตัวแปรสองตัวมีความแปรปรวนแบบเดียวกันกับการสังเกต boxplot หรือไม่?


1
เพิ่งสะดุดในบทความนี้เกี่ยวกับหัวข้อที่คล้ายกัน หวังว่ามันจะทำให้คุณเข้าใจ
Penguin_Knight

คำตอบ:


16

ไม่ใช่โดยไม่มีข้อสันนิษฐานที่เข้มงวดมาก หากคุณคิดว่าคำตอบคือใช่ (แทนที่จะถามซึ่งฉันปรบมือให้คุณ) ฉันคิดว่าฉันอาจหลอกคุณได้ด้วยตัวอย่าง (ตัวนับ) นี้:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

ดูคล้ายกันใช่มั้ย ยัง !σ12=1,σ22=1.96

ในกรณีที่ไม่ชัดเจนจากรหัสประชากร2คือ:

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

และไม่คุณไม่สามารถอนุมานได้ว่าประชากรนี้เป็นปกติเพียงเพราะมันสมมาตรอย่างแน่นอน นี่คือพล็อตของประชากร QQ 2:

แน่นอนว่าไม่ได้ดูปกติสำหรับฉัน

แก้ไข - ตอบความคิดเห็นของคุณ:

ความแปรปรวนเป็นสถิติตัวเลข หากความแปรปรวนของการแจกแจงสองค่าเท่ากันนั่นคือสิ่งที่คุณต้องพูดถึง หากการแจกแจงสองแบบเป็นปกติแน่นอนอีกครั้งมีนิยามทางคณิตศาสตร์ที่ทั้งคู่จะพอดี หากการแจกแจงสองแบบไม่ปกติหรือเท่ากันคุณไม่ควรพูดเป็นอย่างอื่น หากคุณต้องการที่จะบอกว่าพวกเขากำลังประมาณเท่ากันหรือปกติคุณอาจจะกำหนด "พอตัวอย่าง" ในทางที่เหมาะกับวัตถุประสงค์ของคุณซึ่งคุณไม่ได้ระบุที่นี่ ความไวต่อความแตกต่างของการแจกแจงนั้นแตกต่างกันอย่างมากในการวิเคราะห์ที่มักกระตุ้นคำถามเช่นคุณ ตัวอย่างเช่น,tมันค่อนข้างแข็งแกร่งสำหรับการละเมิดหลังซึ่งมีขนาดตัวอย่างเท่ากัน ) ดังนั้นฉันจึงไม่แนะนำให้ทำการทดสอบเพื่อเปรียบเทียบประชากรของฉัน2กับประชากร1(การแจกแจงแบบปกติ)


3
ตัวอย่างที่ดี Nick ใช้ R. (จนกว่าทุกคนจะใช้ R เป็นแนวปฏิบัติที่ดีที่จะกล่าวถึง)
Nick Cox

อด

ฉันมีบทความยาว ๆ แต่ก็ไม่เหมาะกับพื้นที่ที่มี
Nick Cox

คำตอบที่ดี. คุณสามารถเขียนข้อมูลที่เราควรรายงานเพื่อที่จะพูดว่า: "มันเป็นเรื่องปกติและความแปรปรวนเหมือนกัน"
Donbeo

แก้ไขเพื่อตอบสนอง
Nick Stauner

10

นี่เป็นคำตอบที่ดี ความคิดเห็นเพิ่มเติมเหล่านี้ยาวเกินไปเล็กน้อย (อัปเดต: ตอนนี้ยาวเกินไป) เพื่อไปเป็นความคิดเห็น

อย่างเคร่งครัดสิ่งที่คุณสามารถอ่านได้จาก boxplot เกี่ยวกับความแปรปรวนของการกระจายคือช่วง interquartile (ความยาวหรือความสูงของกล่อง) และช่วง (ความยาวหรือความสูงระหว่างสุดขั้วของจอแสดงผล)

การประมาณว่ากล่องแปลงที่ดูเหมือนกันมีแนวโน้มที่จะมีความแปรปรวนที่คล้ายกันมาก แต่ระวัง พล็อตของกล่องที่มีตำแหน่งหรือก้อยแตกต่างกันมาก (หรือทั้งสองอย่าง) ไม่น่าจะมีความแปรปรวนที่คล้ายกันมากที่สุด แต่ก็เป็นไปไม่ได้ แต่แม้ว่าพล็อตกล่องจะมีลักษณะเหมือนกันคุณจะไม่ได้รับข้อมูลในพล็อตกล่องธรรมดาหรือวานิลลาเกี่ยวกับความแปรปรวนภายในกล่องหรือความแปรปรวนภายในเคราจริง ๆ (เส้นที่แสดงระหว่างกล่องและจุดข้อมูลภายใน 1.5 IQR ของควอไทล์ใกล้เคียง) . NB มีหลายรูปแบบของแผนการแปลง ผู้เขียนมักจะยากจนในการจัดทำเอกสารกฎที่แม่นยำที่ใช้โดยซอฟต์แวร์ของพวกเขา

ความนิยมของพล็อตกล่องมีราคา พล็อตกล่องอาจมีประโยชน์อย่างยิ่งสำหรับการแสดงคุณสมบัติขั้นต้นของกลุ่มหรือตัวแปรจำนวนมาก (พูดว่า 20 หรือ 30 บางครั้งก็ยิ่งมากขึ้น) ตามที่ใช้กันทั่วไปในการเปรียบเทียบพูดว่า 2 หรือ 3 กลุ่มพวกเขามียอดขายเกินจริงในมุมมองของฉันเนื่องจากแผนการอื่นสามารถแสดงรายละเอียดได้มากขึ้นอย่างชาญฉลาดในพื้นที่เดียวกัน โดยธรรมชาติแล้วสิ่งนี้เป็นที่แพร่หลายหากไม่ได้รับการยอมรับอย่างกว้างขวางและการปรับปรุงต่างๆของพล็อตกล่องแสดงรายละเอียดเพิ่มเติม

การทำงานอย่างจริงจังกับความแปรปรวนจำเป็นต้องเข้าถึงข้อมูลต้นฉบับ

นี่คือแปรงกว้างและสามารถเพิ่มรายละเอียดเพิ่มเติมได้ ตัวอย่างเช่นตำแหน่งของค่ามัธยฐานในกล่องบางครั้งให้ข้อมูลเพิ่มเติมเล็กน้อย

UPDATE

ฉันเดาว่าผู้คนจำนวนมากมีความสนใจในการใช้ (และข้อ จำกัด ) ของแผนการแปลงโดยทั่วไปมากกว่าในคำถามที่เฉพาะเจาะจงของความแปรปรวนอนุมานจากพล็อตกล่อง (ซึ่งคำตอบสั้น ๆ คือ "คุณไม่สามารถยกเว้นทางอ้อมประมาณ และบางครั้ง ") ดังนั้นฉันจะเพิ่มความเห็นเพิ่มเติมเกี่ยวกับทางเลือกอื่นตามที่ได้รับแจ้งจาก @Christian Sauer

  • ฮิสโทแกรมที่ใช้อย่างสมเหตุสมผลมักจะยังคงแข่งขันได้ ข้อความเกริ่นนำแบบคลาสสิกสมัยใหม่โดย Freedman, Pisani และ Purves ใช้มันตลอด

  • สิ่งที่แตกต่างกันที่รู้จักกันในชื่อ dot หรือ strip plots (แผนภูมิ) (และจากชื่ออื่น ๆ ) นั้นง่ายต่อการเข้าใจ จุดที่เหมือนกันสามารถซ้อนกันได้หลังจากทำการ binning ถ้าต้องการ คุณสามารถเพิ่มค่ามัธยฐานและควอไทล์หรือช่วงเวลาเฉลี่ยและความมั่นใจในเนื้อหาของหัวใจของคุณ

  • แปลง Quantile ดูเหมือนว่าเป็นรสชาติที่ได้มา แต่ในหลาย ๆ ด้านที่หลากหลายที่สุดของทั้งหมด ฉันรวมที่นี่ของค่าสั่งซื้อน่าจะเป็นสะสมอีกครั้ง (ตำแหน่งการวางแผน) เช่นเดียวกับแปลง quantile ที่จะตรงถ้าข้อมูลใด ๆ ที่มีการกระจาย "แบรนด์เนม" ที่ได้รับการพิจารณา (ปกติเอ็กซ์โพเนเชียนแกมม่าอะไรก็ตาม) (รับทราบถึง @Scortchi สำหรับการอ้างอิงถึง "แบรนด์เนม" ที่ใช้โดย CJ Geyer)

แต่รายการที่ครอบคลุมเป็นไปไม่ได้ (ฉันจะเพิ่มตัวอย่างเช่นในบางครั้งการแทนแบบสแต็กและใบไม้นั้นถูกต้องอย่างยิ่งที่จะเห็นรายละเอียดที่สำคัญในข้อมูลเช่นเดียวกับเมื่อการตั้งค่าหลักนั้นอาละวาด) หลักการสำคัญคือพล็อตการกระจายประเภทที่ดีที่สุด การรับรู้โครงสร้างที่ละเอียดของข้อมูลที่น่าสนใจหรือมีความสำคัญเป็นไปไม่ได้ดูเหมือนว่าจะเป็นไปไม่ได้การรับรู้ที่ละเอียด (granulatority, outliers และอื่น ๆ ) รวมถึงโครงสร้างที่หยาบ (ระดับการแพร่กระจายความเบ้ ฯลฯ )

พล็อตของกล่องไม่ดีเท่ากันในการแสดงโครงสร้างทุกชนิด พวกเขาไม่สามารถและไม่ได้ตั้งใจจะเป็น เป็นมูลค่าการตั้งค่าสถานะที่ JW Tukey ในการวิเคราะห์ข้อมูลเชิงสำรวจ Reading, MA: Addison-Wesley (1977) ให้ตัวอย่างของข้อมูล bimodal จาก Rayleigh ซึ่งโครงกล่องปิดบังโครงสร้างหลักอย่างสมบูรณ์ ในฐานะนักสถิติที่ยิ่งใหญ่เขาตระหนักดีว่าแผนการแปลงกล่องไม่ใช่คำตอบเสมอไป

แนวปฏิบัติที่แปลกประหลาดซึ่งแพร่หลายในตำราแนะนำกำลังคุยกันถึงเรื่อง ANOVA ในขณะที่เชื้อเชิญผู้อ่านให้ดูที่แปลงของกล่องซึ่งแสดงค่ามัธยฐานและควอไทล์ไม่ใช่ค่าเฉลี่ยและความแปรปรวน (SDs) โดยธรรมชาติแล้วการดูข้อมูลนั้นดีกว่าไม่ได้มอง แต่ถึงกระนั้นการแสดงภาพกราฟิกที่เหมาะสมกว่านั้นก็คือบางส่วนของพล็อตข้อมูลดิบที่มีการติดตั้งหมายถึง +/- ตัวคูณที่เหมาะสมของ SE


นิคคุณช่วยอธิบายทางเลือกให้กับกล่องแปลงสำหรับตัวแปรจำนวนน้อยได้หรือไม่?
คริสเตียนซาวเออ

@ChristianSauer ขอบคุณสำหรับพรอมต์: โปรดดูการปรับปรุง
Nick Cox

ขอบคุณสำหรับการปรับปรุงที่ดีมาก ฉันชอบย่อหน้าสุดท้ายของคุณโดยเฉพาะฉันพบว่ากล่องแปลงประกอบกับ ANOVA และ / หรือการถดถอยค่อนข้างสับสน - มันเหมือนกับการเปรียบเทียบแอปเปิ้ลกับส้ม
คริสเตียนซาวเออ

2
สถิติเช่นเดียวกับวิทยาศาสตร์อื่น ๆ ที่เต็มไปด้วยคำศัพท์แปลกประหลาดสัญกรณ์และนิสัยการวิเคราะห์คัดลอกมาจากคนอื่น ๆ
Nick Cox

1
ฉันเห็นด้วยทั้งหมด - ในวิทยานิพนธ์ปริญญาโทของฉันฉันตรวจสอบตัวแปรอิสระสำหรับการแจกแจงแบบปกติ ... นั่นเป็นรูปแบบที่ดีที่สุดของสถิติลัทธิขนส่งสินค้า :(
คริสเตียนซาวเออ

6

แนวทางที่ไร้เดียงสา:

ในการแจกแจงแบบปกติควอนไทล์ 25% และ 75% จะอยู่ที่ระยะทางจากจุดศูนย์กลาง นั่นให้ความหนาแน่นกึ่งกลาง 50% ครอบคลุมระยะนี้สองเท่า ( ) ใน boxplot ช่วง intequartile (IQR ระยะทางจากด้านล่างของกล่องถึงด้านบน) ครอบคลุมจำนวน 50% ของกลุ่มตัวอย่าง1.35 σ0.67σ1.35σ

ถ้าคุณทำสมมติฐานว่าประชากรของคุณต่อการกระจายปกติ (ซึ่งบางครั้งเป็นสมมติฐาน BIG ที่จะทำไม่ได้เล็กน้อยดังนั้น) แล้วค่าเบี่ยงเบนมาตรฐานของประชากรของคุณอาจจะประมาณประมาณจากสมการว่า เป็นIQRσ = 0.74 ฉันQ RIQR=1.35σσ=0.74IQR

และเกี่ยวกับการเปรียบเทียบความแปรปรวนโดย boxplot: กล่องที่กว้างขึ้นหมายถึงความแปรปรวนที่มากขึ้น แต่นั่นจะช่วยให้คุณเข้าใจอย่างถ่องแท้และคุณต้องคำนึงถึงเรื่องนี้ด้วย เพื่อยืนยันคุณควรใช้ความแตกต่างของสมมติฐาน


เพื่อเปรียบเทียบความแปรปรวนที่เรายังคงคิดว่าการกระจายตัวทั้งสองเป็นปกติ? เราสามารถอนุมานได้ว่าตัวแปรนั้นเป็นเรื่องปกติถ้ากล่องนั้นมีความสมมาตรตรงกลางหรือไม่?
Donbeo

1
ฉันสมัครทุกอย่างที่ @Nick_Stauner พูด สิ่งที่ฉันเปิดเผยคือสมมติว่าประชากรของคุณเป็นปกติซึ่งต้องมีในหมู่คนอื่น ๆ แต่ไม่ใช่เพียงแค่สมมาตรและ kurtosis = 0 สมมติฐานนี้มีการละเมิดบ่อยครั้ง
Rufo

2
Kurtosis มีการกำหนดในหลายวิธี ในคำจำกัดความอื่น (ง่ายกว่า) ปกติ (เกาส์เซียน) มี kurtosis 3 คุณต้องตรวจสอบว่าซอฟต์แวร์ของคุณใช้คำจำกัดความใดถ้าคุณใช้คอมพิวเตอร์ในทางปฏิบัติ
Nick Cox

1
สำหรับการแจกแจงแบบปกตินั่นคือkurtosis 3, kurtosis ส่วนเกิน 0ถ้าฉันไม่ผิด ฉันอยากรู้ว่าแพคเกจซอฟต์แวร์ยอดนิยมใด ๆ ที่สร้างความโด่งดังไม่เกินค่าเริ่มต้น ที่อาจจะสร้างความสับสนมาก (ไม่ปฏิเสธว่าคนโดยทั่วไปค่อนข้างสับสนโดยการละเว้นของ "ส่วนเกิน" ในทางปฏิบัติตรงกันข้าม) ...
Nick Stauner

1
Stata จะสร้างความเสียหายเป็นค่าเริ่มต้น "เกิน kurtosis" เป็นคำที่น่ากลัวในมุมมองของฉัน แต่นอกเหนือจากการกำจัด Kurtosis ตามที่นิยามไว้อย่างง่ายที่สุดในช่วงเวลาที่สองและสี่มีคุณสมบัติที่ดีกว่า (kurtosis 3); การใช้คำจำกัดความสุดท้ายสามารถนำมาประกอบกับความเคารพที่มากเกินไปของการแจกแจงแบบปกติว่าเป็น "ปกติ" อย่างใด (การเล่นทั้งหมดที่ตั้งใจ) จากการแจกแจงอื่น ๆ เบี่ยงเบน เราควรมีมุมมองที่กว้างขึ้นเกี่ยวกับการแจกแจงที่เป็นไปได้และเป็นธรรมชาติ
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.