ตรวจจับค่าผิดปกติในข้อมูลการนับ


21

ฉันมีสิ่งที่ฉันคิดอย่างไร้เดียงสาว่าเป็นปัญหาที่ค่อนข้างตรงไปตรงมาซึ่งเกี่ยวข้องกับการตรวจจับนอกขอบเขตสำหรับชุดข้อมูลนับที่แตกต่างกันจำนวนมาก โดยเฉพาะฉันต้องการตรวจสอบว่าหนึ่งหรือมากกว่าหนึ่งค่าในชุดข้อมูลการนับจะสูงกว่าหรือต่ำกว่าที่คาดไว้เมื่อเทียบกับการนับที่เหลือในการแจกแจง

ปัจจัยที่ทำให้สับสนคือฉันต้องทำสิ่งนี้สำหรับการแจกแจง 3,500 ครั้งและมีโอกาสที่พวกเขาบางคนจะพอดีกับปัวซองที่มีสัญญาณเกินศูนย์ที่สูงเกินจริงในขณะที่คนอื่น ๆ ด้วยเหตุนี้คะแนน Z แบบง่ายหรือการวางแผนการแจกแจงจึงไม่เหมาะสมกับชุดข้อมูลจำนวนมาก นี่คือตัวอย่างของข้อมูลการนับที่ฉันต้องการตรวจจับค่าผิดปกติ

counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 
         0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0 
         2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 
         0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
         0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 
         1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14 
         15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15 
         15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.

ตอนแรกฉันคิดว่าฉันจะต้องเขียนลูปใน Python หรือ R ที่จะใช้ชุดของโมเดลสำหรับการแจกจ่ายแต่ละครั้งและเลือกโมเดลการฟิตที่ดีที่สุดตาม AIC หรืออื่น ๆ (อาจจะเป็น fitdistrplus ใน R) จากนั้นฉันจะถามว่าอะไรคือสุดขั้วสำหรับการแจกแจงที่กำหนด (จำนวนที่ตกอยู่ในก้อยเช่นการนับของ "4" จะมีค่าเกินกว่าในการแจกแจง counts1 ข้างต้นหรือไม่) อย่างไรก็ตามฉันไม่แน่ใจว่านี่เป็นกลยุทธ์ที่ถูกต้องและเกิดขึ้นกับฉันอาจมีวิธีการง่ายๆในการพิจารณาค่าผิดปกติในข้อมูลนับซึ่งฉันไม่ทราบ ฉันค้นหาอย่างกว้างขวางและไม่พบสิ่งใดที่เหมาะสมกับปัญหาของฉันเนื่องจากมีจำนวนดิสทริบิวชันที่ฉันต้องการดู

เป้าหมายสูงสุดของฉันคือการตรวจสอบการเพิ่มขึ้นหรือลดลงที่สำคัญในการนับสำหรับการแจกแจงการนับแต่ละครั้งโดยใช้วิธีการทางสถิติที่เหมาะสมที่สุด

คำตอบ:


23

คุณไม่สามารถใช้ระยะห่างของการสังเกตจากข้อมูลแบบคลาสสิกของคุณในการตรวจจับค่าผิดปกติได้อย่างน่าเชื่อถือเพราะขั้นตอนการติดตั้งที่คุณใช้นั้นมีแนวโน้มที่จะถูกดึงไปยังค่าผิดปกติ (ซึ่งเรียกว่า วิธีง่ายๆในการตรวจจับค่าผิดปกติคือใช้แนวคิดทั่วไปที่คุณแนะนำ (ระยะทางจากความพอดี) แต่แทนที่ตัวประมาณแบบดั้งเดิมด้วยตัวที่มีความทนทานน้อยกว่าที่จะถูกสะบัดโดยค่าผิดปกติ ด้านล่างฉันนำเสนอภาพประกอบทั่วไปของแนวคิดแล้วอภิปรายวิธีแก้ปัญหาเฉพาะของคุณ

ยังไม่มีข้อความ(0,1)

x<-c(-2.21,-1.84,-.95,-.91,-.36,-.19,-.11,-.1,.18,
.3,.31,.43,.51,.64,.67,.72,1.22,1.35,8.1,17.6)

(สองอันสุดท้ายควรเป็น. 81 และ 1.76 แต่ผิดพลาดโดยไม่ตั้งใจ)

การใช้กฎการตรวจหาค่าผิดปกติตามการเปรียบเทียบสถิติ

|xผม-AVE(xผม)|SD(xผม)

SDSD

คุณเคยใช้สถิติที่แข็งแกร่งแทน:

|xผม-med(xผม)|บ้า(xผม)

ZSD

(เพื่อความสมบูรณ์ของความสมบูรณ์ฉันควรชี้ให้เห็นว่าบางคนถึงแม้จะอยู่ในวัยและวันนี้ก็ชอบที่จะยึดค่าประมาณดิบ - ผ่าน - ประมาณ 4.35 แทนที่จะใช้การประมาณการที่แม่นยำยิ่งขึ้นจากการตัดแต่ง แต่นี่ไม่เข้าใจฉัน )

สำหรับการแจกแจงอื่น ๆ สถานการณ์นั้นไม่แตกต่างกันเพียงแค่คุณจะต้องแปลงข้อมูลของคุณก่อน ตัวอย่างเช่นในกรณีของคุณ:

X

Y=2X

Y>med(Y)+3

X

Yยังไม่มีข้อความ(med(Y),1)

λ

λλ=3

พี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.