วิธีที่ดีที่สุดในการใส่ฮิสโตแกรมสองตัวในระดับเดียวกัน?


14

สมมติว่าฉันมีการแจกแจงสองแบบที่ฉันต้องการเปรียบเทียบในรายละเอียดนั่นคือในวิธีที่ทำให้รูปร่างขนาดและการเปลี่ยนแปลงมองเห็นได้ง่าย วิธีหนึ่งที่ดีในการทำเช่นนี้คือการพล็อตฮิสโตแกรมสำหรับการแจกแจงแต่ละครั้งวางไว้ในระดับ X ที่เหมือนกัน

เมื่อทำเช่นนี้จะต้องทำอย่างไรให้เกิดความผิดพลาด? ฮิสโทแกรมทั้งสองควรใช้ขอบเขตของช่องเก็บเดียวกันแม้ว่าการกระจายครั้งเดียวจะกระจายมากกว่าที่อื่น ๆ อย่างเช่นในภาพที่ 1 ด้านล่าง? ควรทำการแยกกันอย่างอิสระสำหรับฮิสโตแกรมแต่ละชิ้นก่อนซูมเช่นเดียวกับในภาพที่ 2 ด้านล่าง? เรื่องนี้มีกฎง่ายๆหรือไม่?

ภาพ 1 ภาพที่ 2


5
แปลง QQ เป็นเครื่องมือที่ดีกว่ามากสำหรับการเปรียบเทียบที่ชัดเจนของการแจกแจงเชิงประจักษ์ ใช้พวกเขาเพื่อหลีกเลี่ยงปัญหาการ binning ทั้งหมด
whuber

3
@whuber: ตกลงถ้าคุณต้องการเพียงแค่การสร้างภาพที่มีความสำคัญว่าสองกระจายจะแตกต่างกัน แต่วิธี histogram เป็น IMHO ดีกว่าถ้าคุณต้องการเข้าใจรายละเอียดในวิธีการที่พวกเขากำลังที่แตกต่างกัน
dsimcha

3
@dsimcha ประสบการณ์ของฉันตรงกันข้าม พล็อต QQ แสดงให้เห็นอย่างชัดเจน (ในเชิงปริมาณ) ความแตกต่างของระดับตำแหน่งและรูปร่างโดยเฉพาะอย่างยิ่งในความหนาของก้อย (ลองเปรียบเทียบสอง SDs โดยตรงจากฮิสโตแกรมตัวอย่างเช่น: มันเป็นไปไม่ได้เมื่อพวกมันใกล้เคียงกับค่าใน QQ plot คุณต้องเปรียบเทียบความลาดชันซึ่งรวดเร็วและแม่นยำมาก) พล็อต QQ นั้นด้อยกว่าฮิสโตแกรมในแง่ ของการเลือกโหมด แต่ไม่มีฮิสโตแกรมดีจนกระทั่งนั้นมีการรวบรวมข้อมูลในปริมาณที่เหมาะสมและมีตัวเลือกถังขยะที่ดี
whuber

1
ฉันยอมรับว่าแผนการ QQ เป็นทางออกที่ดีที่สุดแม้ว่าพวกเขาจะไม่หลีกเลี่ยงปัญหาถังขยะพวกเขาเพียง แต่บังคับให้คุณวางถังขยะในสถานที่เฉพาะ (quantiles :-) ในทางกลับกันนี่ก็หมายความว่าถังขยะไม่ได้ แน่นอนไม่ควรแบ่งปันโดยการแจกแจงสองครั้ง
conjugateprior

1
@dsimcha ฉันคิดว่าบางอย่างเช่นอายุ / เพศแปลงอาจเป็นภาพที่มีประโยชน์ อย่างไรก็ตามทำไมต้องใช้ฮิสโตแกรมสำหรับสิ่งนี้ เพียงแค่พล็อตฟังก์ชั่นการกระจายโดยตรง อย่างไรก็ตามหากคุณกำลังเล่นกับสิ่งที่ประจักษ์แล้วข้อเสนอแนะการวางแผน QQ เป็นตัวเลือกที่ดีที่สุด
Dmitrij Celov

คำตอบ:


7

ฉันคิดว่าคุณต้องใช้ถังขยะเดียวกัน มิฉะนั้นจิตใจจะเล่นกลกับคุณ Normal (0,2) ดูกระจัดกระจายกว่าเมื่อเทียบกับ Normal (0,1) ใน Image # 2 มากกว่าใน Image # 1 ไม่มีอะไรเกี่ยวข้องกับสถิติ ดูเหมือนว่าปกติ (0,1) ไปกับ "อาหาร"

-Ralph Winters

จุดกึ่งกลางและฮิสโตแกรมสามารถเปลี่ยนการรับรู้ของการกระจายตัว โปรดสังเกตว่าในแอปเพล็ตนี้การเลือกถังขยะสูงสุดหมายถึงช่วง> 1.5 - ~ 5 ในขณะที่การเลือกถังขยะขั้นต่ำแสดงช่วง <1 -> 5.5

http://www.stat.sc.edu/~west/javahtml/Histogram.html


1
คุณสามารถให้เหตุผลทางทฤษฎีสำหรับความคิดเห็นนี้ได้หรือไม่?
whuber

ไม่เพียงแค่ความเห็น แต่ถ้าฉันมีเวลาฉันจะเริ่มต้นการวิจัยของฉันจากโลกของบรรจุภัณฑ์ค้าปลีก
Ralph Winters

@ โฮเบอร์: ส่วนใหญ่เกี่ยวข้องกับวิธีที่สมองประมวลผลข้อมูล เมื่อมีถังขยะขนาดเล็กจิตใจของเราก็ "ย่อ" ขอบเขตของเส้นโค้ง ลองเปลี่ยนขนาดของถังขยะเป็นรูป # 2 เพื่อดูว่าฉันหมายถึงอะไร
โก้

@ นิโก้ใช่มีองค์ประกอบการรับรู้คำถาม แต่ในแถวหน้าเป็นปัญหาทางสถิติเพราะมันมีอิทธิพลมากกว่า: ถังขยะขนาดเล็ก ==> ความแปรปรวนตัวอย่างเพิ่มเติมในถังขยะ ==> ฮิสโทแกรม "ragged" เพิ่มเติม ==> ความยากลำบากมากขึ้นในการเปรียบเทียบ ดังนั้น IMO คำตอบที่คุ้มค่าควรเพิ่มการสนับสนุนจากทฤษฎีทางสถิติ (อย่างน้อยที่สุด)
whuber

@ โฮเบอร์: ฉันหมายถึงความจริงที่ว่าการกระจายดูแตกต่างกันในสองภาพ แน่นอนว่ารูปลักษณ์ของพวกเขานั้นไม่มีอะไรเกี่ยวข้องกับการกระจายตัวของพวกเขาจริงๆ
โก้

2

อีกวิธีหนึ่งคือการพล็อตการแจกแจงที่แตกต่างกันในพล็อตเดียวกันและใช้บางอย่างเช่นalphaพารามิเตอร์ในggplot2เพื่อแก้ไขปัญหาการ overplotting ยูทิลิตีของวิธีนี้จะขึ้นอยู่กับความแตกต่างหรือความคล้ายคลึงในการกระจายของคุณเนื่องจากจะถูกพล็อตด้วยถังขยะเดียวกัน อีกทางเลือกหนึ่งคือการแสดงเส้นโค้งความหนาแน่นเรียบสำหรับการกระจายแต่ละครั้ง นี่คือตัวอย่างของตัวเลือกเหล่านี้และตัวเลือกอื่น ๆ ที่กล่าวถึงในเธรด:

library(ggplot2)

df <- melt(
    data.frame( 
        x = rnorm(1000)
        , y = rnorm(1000, 0, 2)
    )
)


ggplot(data = df) + 
#   geom_bar(aes(x = value, fill = variable), alpha = 1/2)
#   geom_bar(aes(x = value)) + facet_grid(variable ~ .)
#   geom_density(aes(x = value, colour = variable))
#   stat_qq(aes(sample = value, colour = variable))

สิ่งนี้ไม่เพียงแค่ผลักคำถามลงไปที่ปัญหาในการเลือกความกว้างของเคอร์เนลที่เหมาะสมหรือไม่และเราสามารถเปรียบเทียบทั้งสองสมูทโดยใช้ความกว้างของเคอร์เนลที่ต่างกันได้หรือไม่
whuber

1
@whuber - จุดที่ถูกต้อง ฉันไม่ได้พยายามที่จะแนะนำให้เส้นโค้งความหนาแน่นเป็นวิธีสิ้นสุดทั้งหมดที่จะใช้เพียงแค่เสนอทางเลือกอื่น ๆ เห็นได้ชัดจากโพสต์นี้ว่ามีข้อดีและข้อเสียต่อวิธีการใด ๆ ดังนั้นจึงเสนอทางเลือกนี้ให้เป็นอีกทางเลือกหนึ่งในการผสม
Chase

ด้วยเหตุนี้ฉันจึงโหวตคำตอบของคุณ +1
whuber

0

ดังนั้นคำถามของการรักษาขนาดถังขยะเดียวกันหรือการรักษาจำนวนถังขยะเท่ากัน ฉันเห็นข้อโต้แย้งของทั้งสองฝ่าย การแก้ไขปัญหาคือการทำให้ค่ามาตรฐานเป็นอันดับแรก จากนั้นคุณสามารถรักษาทั้งสอง


นั่นจะใช้ได้เมื่อขนาดตัวอย่างทั้งสองมีขนาดใกล้เคียงกัน แต่เมื่อแตกต่างกันขนาดของ bin ทั่วไป (แม้ในหน่วยมาตรฐาน) อาจเหมาะสมสำหรับฮิสโตแกรมหนึ่งอันหรืออื่น ๆ แต่ไม่ใช่สำหรับทั้งสอง คุณจะจัดการกับกรณีนี้อย่างไร
whuber

บางทีเรากำลังคิดถึงความหมายต่าง ๆ ของมาตรฐาน ฉันหมายถึงคนที่ฉันเชื่อมโยงกับที่เช่นถ้าประชากรหนึ่งมี stdev เท่ากับ 5 และอีกคนมี stdev เท่ากับ 10 หลังจากมาตรฐานพวกเขาทั้งคู่จะมี stdev เท่ากับ 1 พวกเขาอาจเปรียบเทียบได้มากกว่า ขนาด bin เนื่องจากแต่ละ bin มีจำนวนพิกเซลและข้อมูลเทียบเท่ากัน หรือบางทีคุณอาจได้รับในปัญหาขนาดใหญ่ที่ "ขนาดถังที่เหมาะสม" เป็นบิตของศิลปะสีดำและไม่ซ้ำกับชุดข้อมูลทุก ...
Xan

เราแบ่งปันความหมายเดียวกันของ "มาตรฐาน" เลือกขนาดถังจำเป็นต้องใช้ดุลยพินิจและความรู้ของบริบท แต่ก็ยืดลักษณะมันเป็น "ศิลปะดำ" A: ดูตัวอย่างเช่นstats.stackexchange.com/q/798/919
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.