มีขีด จำกัด สูงสุดของจำนวนช่วงเวลาในฮิสโตแกรมหรือไม่?


10

ฉันได้อ่านหลายบทความและเนื้อหาจากหนังสือที่อธิบายถึงวิธีการเลือกที่ดีจำนวนของช่วง (ถังขยะ) สำหรับ histogram ของชุดข้อมูล แต่ฉันสงสัยว่าถ้ามีความยากสูงสุดจำนวนช่วงเวลาที่อยู่กับจำนวนของคะแนนใน ชุดข้อมูลหรือเกณฑ์อื่น ๆ

ความเป็นมา:เหตุผลที่ฉันถามคือฉันพยายามเขียนซอฟต์แวร์ตามขั้นตอนจากรายงานการวิจัย ขั้นตอนหนึ่งในกระบวนการนี้คือการสร้างฮิสโตแกรมหลาย ๆ อันจากชุดข้อมูลจากนั้นเลือกความละเอียดที่เหมาะสมที่สุดตามฟังก์ชั่นลักษณะ (กำหนดโดยผู้เขียนบทความ) ปัญหาของฉันคือผู้เขียนไม่ได้กล่าวถึงขอบเขตบนสำหรับช่วงเวลาที่จะทดสอบ (ฉันมีหลายร้อยชุดข้อมูลในการวิเคราะห์และแต่ละคนสามารถมีความแตกต่างกัน "ที่ดีที่สุด" จำนวนของถังขยะ. นอกจากนี้มันเป็นสิ่งสำคัญที่ดีที่สุดจำนวนถังขยะจะถูกเลือกเพื่อให้ตนเองดูที่ผลลัพธ์และการเลือกที่ดีจะไม่ งาน.)

การกำหนดจำนวนช่วงเวลาสูงสุดเพียงเพื่อให้เป็นจำนวนคะแนนในชุดข้อมูลเป็นแนวทางที่ดีหรือมีเกณฑ์อื่น ๆ ที่มักใช้ในสถิติหรือไม่


คุณหมายถึงถังขยะขนาดเท่ากัน (เช่นถังขยะซึ่งมีช่วงเวลาเดียวกัน) หรือไม่
Adam Ryczkowski

ฉันเชื่อว่าคำตอบนั้นขึ้นอยู่กับอัลกอริทึมที่คุณพยายามจะใช้ ฉันคิดว่าคำถามนั้นไม่สมบูรณ์หากคุณไม่มีลิงก์ไปยังรายงานการวิจัย
Adam Ryczkowski

จำนวนคะแนนเป็นจำนวนสูงสุดทางทฤษฎี แต่ที่เกือบจะไม่ใช่ฮิสโตแกรมก็จะเป็นพล็อตแถบรูปแบบแปลก ๆ หรือพล็อตพรม
Peter Flom

1
ที่จริงแล้วจำนวนคะแนนนั้นไม่สูงสุดจริง ๆ ขอโทษฉันมีกาแฟไม่พอ! ถังขยะบางส่วนจะเป็น 0 เช่นสมมติว่า (สำหรับตัวอย่างง่ายๆที่น่าขัน) ที่คุณมี 3 คะแนน: 1.02 2.21 และ 5.92 ถ้าคุณต้องการจำนวนสูงสุดของถังขยะมันชัดเจนมากกว่า 3 อาจเป็น 6: 1-2, 2-3, 3-4, 4-5 และ 5-6 (ด้วยช่วงเวลาเปิดและปิดที่เหมาะสมเพื่อหลีกเลี่ยงการทำซ้ำสองครั้ง)
Peter Flom

1
@whuber: ค่าคือชุดของการวัดระยะทางของโครงร่างวัตถุจากเซนทรอยด์ซึ่งถูกทำให้เป็นมาตรฐานเป็น [0, 1] กระดาษใช้การแยกระยะทางเหล่านี้ออก2J ถังขยะค้นหาที่ดีที่สุด Jโดยการลดผลรวมของข้อผิดพลาดการนับ (จากการ binning) บวกกับ pdf ของฮิสโตแกรม เพื่อความเข้าใจที่ดีที่สุดของฉัน
Wayne

คำตอบ:


6

ไม่มีขีด จำกัด บนที่ยากนัก แต่ในอีกด้านหนึ่งในสถานการณ์ส่วนใหญ่เมื่อคุณได้รับการสังเกตที่ไม่เหมือนใครทั้งหมดในถังขยะของตัวเองถังขยะปลีกย่อยจะให้บริการเพื่อระบุตำแหน่งของพวกเขาอย่างแม่นยำมากขึ้นโดยไม่ต้องสื่อมากขึ้น เช่นเปรียบเทียบสิ่งเหล่านี้:

ฮิสโตแกรมที่มี 30 ถังขยะ
ฮิสโตแกรม 100 ถัง

ยกเว้นในบางสถานการณ์ที่เฉพาะเจาะจงมีแนวโน้มว่าจะไม่มีประโยชน์ในทางปฏิบัติในพล็อตที่สองและไม่มากในครั้งแรก หากข้อมูลของคุณต่อเนื่องอาจเป็นไปได้ว่ามีจำนวนถังขยะมากเกินไป

ดังนั้นในสถานการณ์ส่วนใหญ่ที่ดูเหมือนว่าอย่างน้อยก็เป็นขอบเขตบนที่ใช้งานได้จริง - ทุกการสังเกตที่เป็นเอกลักษณ์ในถังขยะของมันเอง

(หากมีเป็นประโยชน์ในถังมากกว่าหนึ่งต่อการสังเกตไม่ซ้ำกันคุณควรอาจจะทำ rugplot หรือ stripchart jittered ที่จะได้รับชนิดของข้อมูลนั้น) - สิ่งที่ชอบสิ่งที่ทำในขอบของ histograms เหล่านี้:

ฮิสโทแกรม rugplot กับกระวนกระวายใจ
ฮิสโตแกรมที่มีแถบกราฟ

(ฮิสโทแกรมเหล่านี้นำมาจากคำตอบนี้ใกล้จะสิ้นสุด)


5

มีกรณีที่ดีสำหรับการมีถังขยะจำนวนมากเช่นถังขยะสำหรับทุกค่าที่เป็นไปได้เมื่อใดก็ตามที่สงสัยว่ารายละเอียดของฮิสโตแกรมจะไม่ส่งเสียงรบกวน แต่เป็นโครงสร้างที่น่าสนใจหรือสำคัญ

สิ่งนี้ไม่ได้เชื่อมโยงโดยตรงกับแรงจูงใจที่แม่นยำสำหรับคำถามนี้ต้องการกฎอัตโนมัติสำหรับจำนวนที่เหมาะสมของถังขยะ แต่มันเกี่ยวข้องกับคำถามโดยรวม

ให้เรากระโดดข้ามตัวอย่างทันที ในประชากรศาสตร์รอบอายุรายงานเป็นเรื่องธรรมดาโดยเฉพาะอย่างยิ่ง แต่ไม่เพียง แต่ในประเทศที่มีความรู้ จำกัด สิ่งที่สามารถเกิดขึ้นได้คือหลาย ๆ คนไม่ทราบวันเดือนปีเกิดที่แน่นอนหรือมีเหตุผลทางสังคมหรือเหตุผลส่วนตัวไม่ว่าจะเป็นการอธิบายหรือเกินอายุ ประวัติศาสตร์ทางทหารเต็มไปด้วยตัวอย่างของผู้คนที่โกหกเรื่องอายุของพวกเขาเพื่อหลีกเลี่ยงหรือแสวงหาการรับใช้ในกองทัพ ผู้อ่านหลายคนจะรู้จักคนที่ขี้อายมาก ๆ หรือไม่จริงเกี่ยวกับอายุของพวกเขาแม้ว่าพวกเขาจะไม่โกหกเรื่องนี้ในการสำรวจสำมะโนประชากรก็ตาม ผลลัพธ์สุทธิแตกต่างกันไป แต่โดยนัยแล้วมักจะปัดเศษเช่นอายุที่ลงท้ายด้วย 0 และ 5 นั้นพบได้บ่อยกว่าอายุหนึ่งปีหรือน้อยกว่า

ปรากฏการณ์ที่คล้ายกันของการตั้งค่าหลักเป็นเรื่องปกติแม้สำหรับปัญหาที่แตกต่างกันมาก ด้วยวิธีการวัดแบบเก่าบางหลักตัวเลขสุดท้ายของการวัดที่รายงานจะต้องวัดด้วยตาโดยการแก้ไขระหว่างเครื่องหมายที่สำเร็จการศึกษา นี่เป็นมาตรฐานที่ยาวนานในอุตุนิยมวิทยาพร้อมปรอทวัดอุณหภูมิ พบว่าตัวเลขบางตัวที่รายงานร่วมกันนั้นเป็นเรื่องธรรมดามากกว่าตัวเลขอื่น ๆ และพวกเราแต่ละคนมีลายเซ็นเป็นของตัวเองซึ่งเป็นรูปแบบส่วนตัวที่นิยมบางหลักมากกว่าคนอื่น ๆ การแจกแจงการอ้างอิงตามปกติที่นี่คือชุดรูปแบบนั่นคือตราบใดที่ช่วงของการวัดที่เป็นไปได้นั้นมีค่ามากกว่า "หน่วย" ของการวัดหลายเท่าคาดว่าตัวเลขสุดท้ายจะเกิดขึ้นด้วยความถี่ที่เท่ากัน ดังนั้นหากรายงานอุณหภูมิสีสามารถครอบคลุมช่วง (50)C ตัวเลขสิบหลักสุดท้ายเศษส่วนขององศา .0, .1 , .8, .9 ควรเกิดขึ้นกับความน่าจะเป็น 0.1 คุณภาพของการประมาณนี้น่าจะดีแม้ในช่วงที่ จำกัด มากขึ้น

อนึ่งการดูตัวเลขสุดท้ายของข้อมูลที่รายงานนั้นเป็นวิธีที่ง่ายและดีในการตรวจสอบข้อมูลที่ประดิษฐ์ขึ้นซึ่งเป็นวิธีที่ง่ายต่อการเข้าใจและมีปัญหาน้อยกว่าการตรวจสอบตัวเลขที่ทันสมัยในปัจจุบันด้วยการอุทธรณ์กฎหมายของ Benford

ฮิสโทแกรมของฮิสโทแกรมควรชัดเจนแล้ว การนำเสนอที่มีลักษณะคล้ายเข็มสามารถให้บริการเพื่อแสดงหรือโดยทั่วไปเพื่อตรวจสอบโครงสร้างที่ดีเช่นนี้ โดยธรรมชาติหากไม่มีสิ่งใดที่น่าสนใจกราฟสามารถใช้งานได้เล็กน้อย

ตัวอย่างหนึ่งแสดงอายุที่เพิ่มขึ้นจากการสำรวจสำมะโนประชากรของกานาในปี 1960 ดูที่http://www.stata.com/manuals13/rspikeplot.pdf

มีการตรวจสอบที่ดีของการแจกแจงของตัวเลขสุดท้ายใน

Preece, DA 1981 การแจกแจงตัวเลขสุดท้ายในข้อมูล สถิติ 30: 31-60

หมายเหตุเกี่ยวกับคำศัพท์: บางคนเขียนเกี่ยวกับค่าที่ไม่ซ้ำกันของตัวแปรเมื่อพวกเขาจะพูดถึงคุณค่าที่แตกต่างของตัวแปรได้ดีขึ้น พจนานุกรมและคู่มือการใช้งานยังคงแนะนำว่า "ไม่เหมือนใคร" หมายถึงการเกิดขึ้นเพียงครั้งเดียวเท่านั้น ดังนั้นอายุที่รายงานที่แตกต่างกันของประชากรอาจเป็นในปี 0, 1, 2, ฯลฯ แต่ส่วนใหญ่ของอายุเหล่านั้นจะไม่ซ้ำกับคนคนหนึ่ง


4

ไม่มีฮาร์ดไดรฟ์สูงสุดสำหรับจำนวนช่องเก็บในฮิสโตแกรม หากตัวแปรที่ถูกพล็อตเป็นแบบต่อเนื่องสามารถสร้างอาร์กิวเมนต์สำหรับจำนวนหมวดหมู่ที่ไม่มีที่สิ้นสุด (และฮิสโตแกรมกลายเป็นผืนพรม)

จำนวนคะแนนในชุดข้อมูลไม่ใช่ขอบเขตบนที่เหมาะสม พิจารณาชุดข้อมูลที่มีสองค่า: 1 และ 1,000 การมีสองถังขยะจะไม่เหมาะสม

วิธีการปฏิบัติสองวิธีในการกำหนดขอบเขตบนคือ: a) การกำหนดการปัดเศษพื้นฐานของข้อมูล ตัวอย่างเช่นหากข้อมูลเป็นจำนวนเต็มจะเป็นการเหมาะสมที่จะมีถังขยะที่มีความกว้างจำนวนเต็ม b) ดูที่ความละเอียดสูงสุดที่มองเห็นได้ (เช่นจำนวนพิกเซลในมิติแนวนอนที่สามารถใช้สำหรับการลงจุด)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.