ฉันมีสิ่งที่ฉันคิดอย่างไร้เดียงสาว่าเป็นปัญหาที่ค่อนข้างตรงไปตรงมาซึ่งเกี่ยวข้องกับการตรวจจับนอกขอบเขตสำหรับชุดข้อมูลนับที่แตกต่างกันจำนวนมาก โดยเฉพาะฉันต้องการตรวจสอบว่าหนึ่งหรือมากกว่าหนึ่งค่าในชุดข้อมูลการนับจะสูงกว่าหรือต่ำกว่าที่คาดไว้เมื่อเทียบกับการนับที่เหลือในการแจกแจง
ปัจจัยที่ทำให้สับสนคือฉันต้องทำสิ่งนี้สำหรับการแจกแจง 3,500 ครั้งและมีโอกาสที่พวกเขาบางคนจะพอดีกับปัวซองที่มีสัญญาณเกินศูนย์ที่สูงเกินจริงในขณะที่คนอื่น ๆ ด้วยเหตุนี้คะแนน Z แบบง่ายหรือการวางแผนการแจกแจงจึงไม่เหมาะสมกับชุดข้อมูลจำนวนมาก นี่คือตัวอย่างของข้อมูลการนับที่ฉันต้องการตรวจจับค่าผิดปกติ
counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0
0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0
2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14
15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15
15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.
ตอนแรกฉันคิดว่าฉันจะต้องเขียนลูปใน Python หรือ R ที่จะใช้ชุดของโมเดลสำหรับการแจกจ่ายแต่ละครั้งและเลือกโมเดลการฟิตที่ดีที่สุดตาม AIC หรืออื่น ๆ (อาจจะเป็น fitdistrplus ใน R) จากนั้นฉันจะถามว่าอะไรคือสุดขั้วสำหรับการแจกแจงที่กำหนด (จำนวนที่ตกอยู่ในก้อยเช่นการนับของ "4" จะมีค่าเกินกว่าในการแจกแจง counts1 ข้างต้นหรือไม่) อย่างไรก็ตามฉันไม่แน่ใจว่านี่เป็นกลยุทธ์ที่ถูกต้องและเกิดขึ้นกับฉันอาจมีวิธีการง่ายๆในการพิจารณาค่าผิดปกติในข้อมูลนับซึ่งฉันไม่ทราบ ฉันค้นหาอย่างกว้างขวางและไม่พบสิ่งใดที่เหมาะสมกับปัญหาของฉันเนื่องจากมีจำนวนดิสทริบิวชันที่ฉันต้องการดู
เป้าหมายสูงสุดของฉันคือการตรวจสอบการเพิ่มขึ้นหรือลดลงที่สำคัญในการนับสำหรับการแจกแจงการนับแต่ละครั้งโดยใช้วิธีการทางสถิติที่เหมาะสมที่สุด