การตั้งค่าสถานะผิดปกติไม่ใช่การตัดสินใจ (หรือในกรณีใด ๆ ที่ไม่จำเป็นต้องเป็นหนึ่ง) ได้รับแบบจำลองทางสถิติค่าผิดปกติมีความแม่นยำนิยามวัตถุประสงค์: พวกเขามีข้อสังเกตที่ไม่ปฏิบัติตามรูปแบบของเสียงส่วนใหญ่ของข้อมูล การสังเกตดังกล่าวจะต้องแยกจากกันเมื่อเริ่มการวิเคราะห์ใด ๆ เพียงเพราะระยะห่างจากข้อมูลจำนวนมากทำให้มั่นใจได้ว่าพวกเขาจะออกแรงดึงที่ไม่สมสัดส่วนบนแบบจำลองหลายตัวแปรใด ๆ ที่เหมาะสมโดยความเป็นไปได้สูงสุด
มันเป็นเรื่องสำคัญที่จะต้องชี้ให้เห็นว่าตัวแปรที่หลากหลายนั้นไม่สามารถตรวจพบได้อย่างน่าเชื่อถือโดยใช้สิ่งตกค้างจากรูปสี่เหลี่ยมจัตุรัสที่น้อยที่สุด (หรือแบบจำลองอื่นใดที่ประมาณโดย ML หรือฟังก์ชันการสูญเสียแบบนูนอื่น ๆ ) เพียงแค่ใส่ค่าผิดปกติหลายตัวแปรสามารถตรวจพบได้อย่างน่าเชื่อถือโดยใช้ส่วนที่เหลือของพวกเขาจากรูปแบบการติดตั้งโดยใช้ขั้นตอนการประเมินที่ไม่ไวต่อการถูกอิทธิพลจากพวกเขา
ความเชื่อที่ว่าคนนอกจะจำเป็นต้องโดดเด่นในแบบคลาสสิกจัดอันดับที่ไหนสักแห่งกับคนอื่นยากที่จะหักล้างข้อมูลเชิงสถิติเช่นการตีความค่า p เป็นการวัดหลักฐานหรือการอนุมานจากประชากรจากตัวอย่างลำเอียง ยกเว้นบางทีว่าอันนี้อาจแก่กว่ามาก: เกาส์เองแนะนำให้ใช้ตัวประมาณที่แข็งแกร่งเช่นค่ามัธยฐานและค่าบ้า (แทนที่จะเป็นค่าเฉลี่ยคลาสสิกและค่าเบี่ยงเบนมาตรฐาน) เพื่อประมาณค่าพารามิเตอร์ของการแจกแจงแบบปกติจากการสังเกตที่มีเสียงดัง เท่าที่ได้รับปัจจัยความมั่นคงของคนบ้า (1)
เพื่อให้เป็นตัวอย่างภาพง่ายขึ้นอยู่กับข้อมูลจริงพิจารณาน่าอับอายข้อมูล CYG ดาว เส้นสีแดงที่นี่แสดงให้เห็นถึงรูปสี่เหลี่ยมจัตุรัสที่น้อยที่สุดเส้นสีฟ้าที่พอดีที่ได้รับโดยใช้ชุดการถดถอยเชิงเส้นที่มีประสิทธิภาพ ความพอดีที่นี่คือ FastLTS (2) fit ซึ่งเป็นทางเลือกแทน LS fit ที่สามารถใช้ในการตรวจจับค่าผิดปกติ (เพราะใช้ขั้นตอนการประมาณค่าที่ทำให้มั่นใจได้ว่าอิทธิพลของการสังเกตใด ๆ ที่มีต่อค่าสัมประสิทธิ์โดยประมาณ) รหัส R ที่จะทำซ้ำคือ:
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
ที่น่าสนใจการสำรวจรอบด้านซ้ายทั้งสี่ด้านนั้นไม่ได้มีสิ่งตกค้างที่ใหญ่ที่สุดในส่วนของ LS fit และ QQ plot ของส่วนที่เหลือของ LS fit (หรือเครื่องมือวินิจฉัยใด ๆ ที่ได้มาจากพวกมันเช่นระยะห่างของ Cook หรือ dfbeta) ล้มเหลวในการแสดงว่ามีปัญหาใด ๆ นี่เป็นเรื่องปกติ: ไม่จำเป็นต้องมีค่าผิดปกติเกินสองตัว (ไม่คำนึงถึงขนาดตัวอย่าง) เพื่อดึงค่าประมาณ LS ในลักษณะที่ค่าผิดปกติจะไม่โดดเด่นในพล็อตที่เหลือ นี้เรียกว่าผลกำบังและเป็นเอกสารที่ดี บางทีสิ่งเดียวที่น่าทึ่งเกี่ยวกับชุดข้อมูล CYGstars ก็คือมันเป็นแบบ bivariate (ดังนั้นเราสามารถใช้การตรวจสอบด้วยตาเปล่าเพื่อยืนยันผลของการฟิตร่างกาย) และมีคำอธิบายที่ดีว่าทำไมการสังเกตทั้งสี่ทางซ้ายจึงผิดปกติ
นี่คือ btw ข้อยกเว้นมากกว่ากฎ: ยกเว้นในการศึกษานำร่องขนาดเล็กที่เกี่ยวข้องกับกลุ่มตัวอย่างขนาดเล็กและตัวแปรน้อยและที่บุคคลที่ทำการวิเคราะห์ทางสถิติมีส่วนร่วมในกระบวนการเก็บข้อมูลฉันไม่เคยพบกรณีที่ความเชื่อเดิมเกี่ยวกับ ตัวตนของผู้ผิดเป็นจริงจริง นี่คือวิธีที่เงียบสงบง่ายต่อการตรวจสอบ ไม่ว่าจะมีการระบุค่าผิดปกติโดยใช้อัลกอริธึมการตรวจหาค่าผิดปกติหรือความรู้สึกของลำไส้ของผู้วิจัยหรือไม่ค่าผิดปกตินั้นเกิดจากการสังเกตแบบนิยามที่มีค่าผิดปกติ (หรือ 'ดึง') มากกว่าค่าสัมประสิทธิ์ กล่าวอีกนัยหนึ่งค่าผิดปกติคือการสังเกตซึ่งการลบออกจากตัวอย่างควรส่งผลกระทบอย่างรุนแรงกับ LS
แม้ว่าฉันจะไม่เคยมีประสบการณ์นี้มาก่อน แต่ก็มีบางกรณีที่มีการบันทึกไว้อย่างดีในวรรณคดีซึ่งการสังเกตที่ทำเครื่องหมายเป็นค่าผิดปกติโดยอัลกอริทึมการตรวจจับค่าผิดปกตินั้นพบว่าเป็นข้อผิดพลาดขั้นต้น ไม่ว่าในกรณีใดก็ตามไม่รับประกันทางวิทยาศาสตร์และฉลาดพอที่จะลบค่าผิดปกติหากพวกเขาสามารถเข้าใจหรืออธิบายได้ ถ้าการสังเกตการณ์ขนาดเล็กนั้นถูกลบออกไปจากตัวหลักของข้อมูลที่มันสามารถดึงผลลัพธ์ของกระบวนการทางสถิติได้ด้วยตัวมันเองก็เป็นเรื่องที่ฉลาด (และฉันอาจเพิ่มความเป็นธรรมชาติ) เพื่อแยกมันออกจากกันโดยไม่คำนึงว่า ไม่ใช่จุดข้อมูลเหล่านี้ที่จะต้องสงสัยในบริเวณอื่น
(1): ดู Stephen M. Stigler, ประวัติความเป็นมาของสถิติ: การวัดความไม่แน่นอนก่อนปี 1900
(2): การคำนวณการถดถอย LTS สำหรับชุดข้อมูลขนาดใหญ่ (2006) PJ Rousseeuw, K. van Driessen
(3): วิธีวิเคราะห์หลายตัวแปรที่มีความทนทานสูง (2008) Hubert M. , Rousseeuw PJ และ Van Aelst S. ที่มา: นักสถิติ วิทย์ เล่มที่ 23, 92-119