ฮิสโตแกรมที่มีชุดถังขยะสม่ำเสมอและไม่สม่ำเสมอ


10

คำถามนี้อธิบายถึงความแตกต่างพื้นฐานระหว่างเครื่องแบบและฮิสโตแกรมที่ไม่ใช่แบบฟอร์ม และคำถามนี้กล่าวถึงกฎของหัวแม่มือสำหรับการเลือกจำนวนช่องเก็บของฮิสโตแกรมสม่ำเสมอที่ปรับให้เหมาะสม (ในบางแง่มุม) ระดับที่ฮิสโทแกรมแสดงถึงการกระจายตัวจากการสุ่มตัวอย่างข้อมูล

ดูเหมือนว่าฉันจะไม่พบการสนทนา "การมองโลกในแง่ดี" แบบเดียวกันเกี่ยวกับฮิสโตแกรมชุดที่ไม่เหมือนกัน ฉันมีการแจกแจงแบบไม่อิงพารามิเตอร์แบบกระจุกตัวและมีค่าผิดปกติที่อยู่ไกลดังนั้นฮิสโตแกรมที่ไม่สม่ำเสมอทำให้เข้าใจได้ง่ายขึ้น แต่ฉันชอบที่จะเห็นการวิเคราะห์ที่แม่นยำยิ่งขึ้นของคำถามสองข้อต่อไปนี้:

  1. ฮิสโตแกรมแบบสม่ำเสมอเมื่อใดจะดีกว่าแบบ bin ที่ไม่สม่ำเสมอ
  2. ฮิสโตแกรมที่ไม่สม่ำเสมอนั้นมีจำนวนเท่าใด

สำหรับฮิสโตแกรมที่ไม่เหมือนกันฉันถือว่าเป็นกรณีที่ง่ายที่สุดที่เรานำตัวอย่างจากการแจกแจงที่ไม่รู้จักเรียงลำดับค่าและแยกพวกมันออกเป็น b เช่นที่แต่ละ bin มีของสิ่งเหล่านี้ ตัวอย่าง (สมมติว่าสำหรับบางจำนวนเต็มขนาดใหญ่ ) ช่วงที่จะเกิดขึ้นโดยการจุดกึ่งกลางระหว่างของค่าในถังผมและ\ นาทีของค่าในถังi + 1 ที่นี่และนี่คือลิงค์ที่อธิบายฮิสโทแกรมที่ไม่เหมือนกันประเภทนี้nnkknnkสูงสุดผมนาทีผม+1


มีข้อมูลไม่เพียงพอที่จะตอบ (2) เงื่อนไขในการไม่สม่ำเสมอคืออะไร? คุณสามารถเลือกถังขยะที่คุณชอบหรือมีข้อ จำกัด บางอย่าง? คุณต้องการเพิ่มประสิทธิภาพอะไร เช่นคุณต้องการค่าเฉลี่ยความคลาดเคลื่อนกำลังสองรวมต่ำสุดระหว่างและหรือไม่ หรืออย่างอื่น? ^
Glen_b -Reinstate Monica

@Glen_b ฉันอธิบายรายละเอียดเพิ่มเติมเล็กน้อยเกี่ยวกับชนิดของฮิสโตแกรมที่ฉันกำลังพิจารณาในกรณีถังขยะที่ไม่เหมือนกัน
Alan Turing

ตรวจสอบการแก้ไขของคุณ คุณหมายถึง "n = cm" มากกว่า "cn" หรือไม่ นอกจากนี้ยังมีการพิมพ์ผิดในภายหลัง
Glen_b -Reinstate Monica

คุณพยายามสื่ออะไรแบบนี้ ?
Glen_b -Reinstate Monica

ดูการสนทนาเรื่องการประนีประนอมระหว่างสิ่งนั้นกับฮิสโตแกรมตามปกติด้วย
Glen_b -Reinstate Monica

คำตอบ:


7

ฮิสโตแกรมแบบสม่ำเสมอเมื่อใดจะดีกว่าแบบ bin ที่ไม่สม่ำเสมอ

สิ่งนี้ต้องการการระบุว่าเราต้องการเพิ่มประสิทธิภาพประเภทใด หลายคนพยายามปรับข้อผิดพลาดกำลังสองเฉลี่ยโดยเฉลี่ยให้เหมาะสม แต่ในหลาย ๆ กรณีฉันคิดว่าค่อนข้างพลาดจุดทำฮิสโตแกรม มันมักจะ (ตาของฉัน) 'oversmooths'; สำหรับเครื่องมือสำรวจอย่างฮิสโตแกรมฉันสามารถทนต่อความหยาบได้ดีกว่าเนื่องจากความหยาบนั้นทำให้ฉันรู้สึกถึงขอบเขตที่ฉันควรจะ "เรียบ" ด้วยตา; ฉันมักจะเพิ่มจำนวนช่องเก็บของตามปกติอย่างน้อยสองเท่าในบางครั้งการจัดการที่ดีกว่า ฉันมักจะเห็นด้วยกับAndrew Gelmanในเรื่องนี้ แน่นอนถ้าความสนใจของฉันได้รับ AIMSE ที่ดีจริงๆฉันอาจไม่ควรพิจารณาฮิสโตแกรมต่อไป

ดังนั้นเราต้องมีเกณฑ์

ให้ฉันเริ่มด้วยการพูดถึงตัวเลือกบางส่วนของฮิสโตแกรมพื้นที่ไม่เท่ากัน:

มีวิธีการบางอย่างที่ทำให้เรียบยิ่งขึ้น (น้อยลง, กว้างกว่าถังขยะ) ในพื้นที่ที่มีความหนาแน่นต่ำและมีถังขยะที่แคบกว่าซึ่งความหนาแน่นสูงกว่า - เช่นฮีสโตแกรม "พื้นที่เท่ากัน" หรือ "นับเท่ากัน" คำถามที่แก้ไขของคุณดูเหมือนจะพิจารณาถึงความเป็นไปได้ในการนับที่เท่ากัน

histogramฟังก์ชั่นในการวิจัยของlatticeแพคเกจสามารถผลิตประมาณแถบพื้นที่เท่ากับ:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

การเปรียบเทียบความกว้างเท่ากันและพื้นที่เท่ากัน

การจุ่มลงไปทางด้านขวาของถังขยะด้านซ้ายนั้นจะชัดเจนยิ่งขึ้นถ้าคุณใช้รากที่สี่ ด้วยถังขยะที่มีความกว้างเท่ากันคุณจะไม่สามารถมองเห็นได้เว้นแต่ว่าคุณใช้ถังขยะจำนวน 15 ถึง 20 เท่าและจากนั้นหางขวาดูแย่มาก

มีฮิสโตแกรมนับเท่ากันที่นี่พร้อมรหัส R ซึ่งใช้ตัวอย่างปริมาณเพื่อหาจุดพัก

ตัวอย่างเช่นในข้อมูลเดียวกับข้างต้นนี่คือ 6 ถังขยะด้วย (หวังว่า) 8 ข้อสังเกตแต่ละข้อ:

ฮิสโตแกรมเท่ากับ

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

คำถาม CV นี้ชี้ไปที่กระดาษโดย Denby และ Mallowsเวอร์ชันที่สามารถดาวน์โหลดได้จากที่นี่ซึ่งอธิบายถึงการประนีประนอมระหว่างถังขยะความกว้างเท่ากันและพื้นที่ถังขยะเท่ากัน

นอกจากนี้ยังตอบคำถามที่คุณมีในระดับหนึ่ง

คุณอาจคิดว่าปัญหาเป็นหนึ่งในการระบุการแบ่งในกระบวนการปัวซองค่าคงที่ ที่จะนำไปสู่การทำงานเช่นนี้ นอกจากนี้ยังมีความเป็นไปได้ที่เกี่ยวข้องกับการดูอัลกอริธึมการจัดกลุ่ม / การจำแนกประเภทบน (พูด) ปัวซองนับจำนวน มีการใช้การจัดกลุ่มบนฮิสโตแกรม 2 มิติ ( ภาพ , ผลกระทบ) เพื่อระบุภูมิภาคที่มีความเหมือนกัน

-

หากเรามีฮิสโตแกรมนับเท่ากันและเกณฑ์บางอย่างเพื่อเพิ่มประสิทธิภาพเราสามารถลองใช้ช่วงของจำนวนการนับต่อ bin และประเมินเกณฑ์ในบางวิธี กระดาษคันที่กล่าวถึงที่นี่ [ กระดาษหรือกระดาษทำงาน pdf ] และบางส่วนของการอ้างอิง (เช่นเอกสาร Sheather et al เป็นต้น) ร่าง "plug in" การประมาณความกว้างของถังขยะตามความคิดของเคอร์เนลที่ปรับให้เรียบเพื่อปรับ AIMSE; การพูดแบบกว้าง ๆ นั้นควรปรับให้เข้ากับสถานการณ์นี้ได้แม้ว่าฉันจะจำไม่ได้ว่าได้ทำไปแล้ว

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.