หากข้อมูลของคุณมีค่าผิดปกติเพียงครั้งเดียวก็สามารถพบได้อย่างน่าเชื่อถือโดยใช้วิธีการที่คุณแนะนำ (โดยไม่ต้องทำซ้ำ) แนวทางที่เป็นทางการสำหรับเรื่องนี้คือ
Cook, R. Dennis (1979) ข้อสังเกตที่มีอิทธิพลในการถดถอยเชิงเส้น วารสารสมาคมสถิติอเมริกัน ( สมาคมสถิติอเมริกัน) 74 (365): 169–174
MMMρ
- 11+pp
- หรือหากค่าผิดปกติไม่ได้อยู่นอกพื้นที่ออกแบบ (Ellis and Morgenthaler (1992))
Ml1robustbase
quantreg
R
⌊np+1⌋Mρ
ในช่วง 20 ปีที่ผ่านมา (และ 10 ครั้งล่าสุดเป็นพิเศษ) ตัวอัลกอริธึมตรวจจับค่าผิดปกติที่รวดเร็วและเชื่อถือได้ขนาดใหญ่ได้รับการออกแบบมาเพื่อแก้ปัญหาเกี่ยวกับ combinatorial โดยประมาณ สิ่งเหล่านี้ถูกนำไปใช้อย่างกว้างขวางในแพ็คเกจทางสถิติที่ได้รับความนิยมสูงสุด (R, Matlab, SAS, STATA, ... )
O(2p)pn
pp<20
Rousseeuw, PJ และ van Zomeren BC (1990) เปิดโปงหลายตัวแปรค่าผิดปกติและจุด Leverage วารสารของสมาคมอเมริกันสถิติฉบับ 85, หมายเลข 411, pp. 633-639
Rousseeuw, PJ และ Van Driessen, K. (2006) คอมพิวเตอร์ LTS ถดถอยสำหรับชุดข้อมูลขนาดใหญ่ การเก็บข้อมูลการขุดและการค้นหาความรู้เล่มที่ 12 ฉบับที่ 1 หน้า 29 - 45
Hubert, M. , Rousseeuw, PJ และ Van Aelst, S. (2008) วิธีวิเคราะห์หลายตัวแปรที่มีความทนทานสูง สถิติวิทยาศาสตร์ปีที่ 5 23, หมายเลข 1, 92–119
Ellis SP และ Morgenthaler S. (1992) เลเวอเรจและรายละเอียดในการถดถอย L1 วารสารของสมาคมอเมริกันสถิติฉบับ 87, หมายเลข 417, pp. 143-148
หนังสืออ้างอิงล่าสุดเกี่ยวกับปัญหาของการระบุผิดคือ:
Maronna RA, Martin RD และ Yohai VJ (2006) สถิติที่แข็งแกร่ง: ทฤษฎีและวิธีการ ไวลีย์นิวยอร์ก
วิธีการเหล่านี้ (และอื่น ๆ อีกมากมายของวิธีการเหล่านี้) ถูกนำไปใช้งาน (รวมถึงอื่น ๆ ) ในแพ็คเกจrobustbase
R