ฮิสโตแกรมแบบสม่ำเสมอเมื่อใดจะดีกว่าแบบ bin ที่ไม่สม่ำเสมอ
สิ่งนี้ต้องการการระบุว่าเราต้องการเพิ่มประสิทธิภาพประเภทใด หลายคนพยายามปรับข้อผิดพลาดกำลังสองเฉลี่ยโดยเฉลี่ยให้เหมาะสม แต่ในหลาย ๆ กรณีฉันคิดว่าค่อนข้างพลาดจุดทำฮิสโตแกรม มันมักจะ (ตาของฉัน) 'oversmooths'; สำหรับเครื่องมือสำรวจอย่างฮิสโตแกรมฉันสามารถทนต่อความหยาบได้ดีกว่าเนื่องจากความหยาบนั้นทำให้ฉันรู้สึกถึงขอบเขตที่ฉันควรจะ "เรียบ" ด้วยตา; ฉันมักจะเพิ่มจำนวนช่องเก็บของตามปกติอย่างน้อยสองเท่าในบางครั้งการจัดการที่ดีกว่า ฉันมักจะเห็นด้วยกับAndrew Gelmanในเรื่องนี้ แน่นอนถ้าความสนใจของฉันได้รับ AIMSE ที่ดีจริงๆฉันอาจไม่ควรพิจารณาฮิสโตแกรมต่อไป
ดังนั้นเราต้องมีเกณฑ์
ให้ฉันเริ่มด้วยการพูดถึงตัวเลือกบางส่วนของฮิสโตแกรมพื้นที่ไม่เท่ากัน:
มีวิธีการบางอย่างที่ทำให้เรียบยิ่งขึ้น (น้อยลง, กว้างกว่าถังขยะ) ในพื้นที่ที่มีความหนาแน่นต่ำและมีถังขยะที่แคบกว่าซึ่งความหนาแน่นสูงกว่า - เช่นฮีสโตแกรม "พื้นที่เท่ากัน" หรือ "นับเท่ากัน" คำถามที่แก้ไขของคุณดูเหมือนจะพิจารณาถึงความเป็นไปได้ในการนับที่เท่ากัน
histogram
ฟังก์ชั่นในการวิจัยของlattice
แพคเกจสามารถผลิตประมาณแถบพื้นที่เท่ากับ:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
การจุ่มลงไปทางด้านขวาของถังขยะด้านซ้ายนั้นจะชัดเจนยิ่งขึ้นถ้าคุณใช้รากที่สี่ ด้วยถังขยะที่มีความกว้างเท่ากันคุณจะไม่สามารถมองเห็นได้เว้นแต่ว่าคุณใช้ถังขยะจำนวน 15 ถึง 20 เท่าและจากนั้นหางขวาดูแย่มาก
มีฮิสโตแกรมนับเท่ากันที่นี่พร้อมรหัส R ซึ่งใช้ตัวอย่างปริมาณเพื่อหาจุดพัก
ตัวอย่างเช่นในข้อมูลเดียวกับข้างต้นนี่คือ 6 ถังขยะด้วย (หวังว่า) 8 ข้อสังเกตแต่ละข้อ:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
คำถาม CV นี้ชี้ไปที่กระดาษโดย Denby และ Mallowsเวอร์ชันที่สามารถดาวน์โหลดได้จากที่นี่ซึ่งอธิบายถึงการประนีประนอมระหว่างถังขยะความกว้างเท่ากันและพื้นที่ถังขยะเท่ากัน
นอกจากนี้ยังตอบคำถามที่คุณมีในระดับหนึ่ง
คุณอาจคิดว่าปัญหาเป็นหนึ่งในการระบุการแบ่งในกระบวนการปัวซองค่าคงที่ ที่จะนำไปสู่การทำงานเช่นนี้ นอกจากนี้ยังมีความเป็นไปได้ที่เกี่ยวข้องกับการดูอัลกอริธึมการจัดกลุ่ม / การจำแนกประเภทบน (พูด) ปัวซองนับจำนวน มีการใช้การจัดกลุ่มบนฮิสโตแกรม 2 มิติ ( ภาพ , ผลกระทบ) เพื่อระบุภูมิภาคที่มีความเหมือนกัน
-
หากเรามีฮิสโตแกรมนับเท่ากันและเกณฑ์บางอย่างเพื่อเพิ่มประสิทธิภาพเราสามารถลองใช้ช่วงของจำนวนการนับต่อ bin และประเมินเกณฑ์ในบางวิธี กระดาษคันที่กล่าวถึงที่นี่ [ กระดาษหรือกระดาษทำงาน pdf ] และบางส่วนของการอ้างอิง (เช่นเอกสาร Sheather et al เป็นต้น) ร่าง "plug in" การประมาณความกว้างของถังขยะตามความคิดของเคอร์เนลที่ปรับให้เรียบเพื่อปรับ AIMSE; การพูดแบบกว้าง ๆ นั้นควรปรับให้เข้ากับสถานการณ์นี้ได้แม้ว่าฉันจะจำไม่ได้ว่าได้ทำไปแล้ว