ลองจินตนาการถึงเส้นการถดถอยที่พอดีกับข้อมูลบางอย่าง
ทีนี้ลองนึกถึงจุดข้อมูลเพิ่มเติมระยะห่างที่ห่างจากตัวหลักของข้อมูล แต่มีจุดหนึ่งที่อยู่ที่ไหนสักแห่งตามแนวการถดถอยนั้น
หากต้องนำบรรทัดการถดถอยมาใช้ใหม่ค่าสัมประสิทธิ์จะไม่เปลี่ยนแปลง ในทางกลับกันการลบค่าผิดปกติพิเศษจะไม่มีผลต่อสัมประสิทธิ์
ดังนั้นจุดนอกหรือจุดงัดจะมีอิทธิพลเป็นศูนย์ถ้ามันสอดคล้องอย่างสมบูรณ์กับส่วนที่เหลือของข้อมูลและรูปแบบที่เหลือหมายถึง
สำหรับ "line" read "plane" หรือ "hyperplane" หากต้องการ แต่ตัวอย่างที่ง่ายที่สุดของตัวแปรสองตัวและพล็อตกระจายที่เพียงพอ
อย่างไรก็ตามในขณะที่คุณชื่นชอบคำจำกัดความ - บ่อยครั้งที่ดูเหมือนว่ามีแนวโน้มที่จะอ่านมากเกินไป - นี่คือคำจำกัดความของค่าผิดปกติที่ฉันชอบ:
"Outliers เป็นค่าตัวอย่างที่ทำให้เกิดความประหลาดใจเมื่อเทียบกับกลุ่มตัวอย่างส่วนใหญ่" (WN Venables และ BD Ripley 2002 สถิติที่ใช้ในปัจจุบันกับ S. New York: Springer, p.119)
สิ่งที่สำคัญอย่างยิ่งคือความประหลาดใจที่อยู่ในใจของผู้ดูและขึ้นอยู่กับรูปแบบของข้อมูลโดยปริยายหรือชัดเจน อาจมีรูปแบบอื่นภายใต้ค่าผิดปกติที่ไม่น่าแปลกใจเลยถ้าข้อมูลจริงๆเป็น lognormal หรือ gamma มากกว่าปกติ
ป.ล. ฉันไม่คิดว่าคะแนนยกระดับจำเป็นต้องขาดการสังเกตใกล้เคียง ตัวอย่างเช่นพวกเขาอาจเกิดขึ้นเป็นคู่