สามารถใช้การถดถอยสำหรับการตรวจสอบ lier ออก ฉันเข้าใจว่ามีวิธีในการปรับปรุงรูปแบบการถดถอยโดยการลบค่าผิดปกติ แต่เป้าหมายหลักที่นี่ไม่เหมาะกับโมเดลการถดถอย แต่ค้นหา liers โดยใช้การถดถอย
สามารถใช้การถดถอยสำหรับการตรวจสอบ lier ออก ฉันเข้าใจว่ามีวิธีในการปรับปรุงรูปแบบการถดถอยโดยการลบค่าผิดปกติ แต่เป้าหมายหลักที่นี่ไม่เหมาะกับโมเดลการถดถอย แต่ค้นหา liers โดยใช้การถดถอย
คำตอบ:
ตัวเลือกที่ดีที่สุดของคุณในการใช้การถดถอยเพื่อค้นหาค่าผิดปกติคือการใช้การถดถอยที่มีประสิทธิภาพ
การถดถอยปกติสามารถรับผลกระทบจากค่าผิดปกติได้สองวิธี:
อย่างแรกค่าผิดปกติที่รุนแรงในทิศทาง y ที่ค่า x ใกล้สามารถส่งผลกระทบต่อความพอดีในพื้นที่นั้นในลักษณะเดียวกับที่ค่าผิดปกติอาจส่งผลต่อค่าเฉลี่ย
ประการที่สองการสังเกต 'ห่างไกล' ใน x-space เป็นการสังเกตที่มีอิทธิพล - มันสามารถดึงความพอดีของเส้นเข้าหามัน ถ้ามันอยู่ไกลพอสายจะผ่านจุดที่มีอิทธิพล:
ในพล็อตด้านซ้ายมีจุดที่ค่อนข้างมีอิทธิพลและมันจะดึงเส้นออกจากข้อมูลจำนวนมาก ในพล็อตที่ถูกต้องมันจะถูกย้ายไปให้ไกลยิ่งขึ้น - และตอนนี้เส้นจะผ่านจุด เมื่อค่า x เป็นค่าที่สุดขีดเมื่อคุณเลื่อนจุดนั้นขึ้นและลงเส้นนั้นจะเคลื่อนที่ไปตามนั้นโดยผ่านค่าเฉลี่ยของจุดอื่น ๆ และผ่านจุดที่มีอิทธิพลจุดเดียว
จุดที่มีอิทธิพลซึ่งสอดคล้องกับส่วนที่เหลือของข้อมูลอย่างสมบูรณ์อาจไม่ใช่ปัญหาใหญ่ แต่อย่างใดอย่างหนึ่งที่อยู่ไกลจากเส้นผ่านส่วนที่เหลือของข้อมูลจะทำให้เส้นตรงกับมันมากกว่าข้อมูล
ถ้าคุณดูพล็อตมือขวาเส้นสีแดง - เส้นถดถอยกำลังสองน้อยที่สุด - จะไม่แสดงจุดสุดขั้วว่าเป็นค่าผิดปกติเลย - ค่าที่เหลือคือ 0 แทนที่จะเป็นเศษใหญ่จากเส้นกำลังสองน้อยที่สุด ส่วนหลักของข้อมูล!
ซึ่งหมายความว่าคุณสมบูรณ์สามารถพลาดขอบเขต
ยิ่งแย่ไปกว่านั้นด้วยการถดถอยหลายครั้งค่าผิดพลาดใน x-space อาจไม่ดูผิดปกติเป็นพิเศษสำหรับตัวแปร x ตัวใดตัวหนึ่ง หากมีความเป็นไปได้ของจุดดังกล่าวอาจเป็นเรื่องที่เสี่ยงมากที่จะใช้การถดถอยกำลังสองน้อยที่สุด
การถดถอยที่แข็งแกร่ง
หากคุณพอดีกับเส้นที่แข็งแกร่ง - โดยเฉพาะอย่างยิ่งตัวแข็งแกร่งที่มีอิทธิพลต่อค่าผิดปกติ - เช่นเส้นสีเขียวในพล็อตที่สอง - ค่าผิดปกติจะมีค่าตกค้างมาก
ในที่กรณีที่คุณมีความหวังในการระบุค่าผิดปกติบางอย่าง - พวกเขาจะเป็นจุดที่ไม่ได้ - ในความรู้สึกบาง - ใกล้กับเส้น
การลบค่าผิดปกติ
แน่นอนคุณสามารถใช้การถดถอยที่แข็งแกร่งเพื่อระบุและลบค่าผิดปกติ
แต่เมื่อคุณมีค่าความถดถอยที่มีประสิทธิภาพแล้วสิ่งที่ไม่ได้รับผลกระทบจากค่าผิดปกติคุณไม่จำเป็นต้องลบค่าผิดปกติ - คุณมีแบบจำลองที่เหมาะสมแล้ว
สามารถใช้การถดถอยสำหรับการตรวจหาค่าผิดปกติ
ใช่. คำตอบนี้และคำตอบของ Glen_b ตอบคำถามนี้
เป้าหมายหลักที่นี่ไม่เหมาะกับโมเดลการถดถอย แต่ค้นหา liers โดยใช้การถดถอย
จากความคิดเห็นของ Roman Lustrik นี่เป็นวิธีแก้ปัญหาเพื่อค้นหาผู้ใช้โดยใช้การถดถอย (หลายเชิงเส้น)
เราสามารถทำแบบฝึกหัดทั้งหมดซ้ำอีกครั้งด้วยตัวอย่างที่ลดลง ในอัลกอริทึมเรากำลังเลือกตัวอย่างในข้อมูลที่มีผลต่อการถดถอยในแบบที่ไม่ดี (ซึ่งเป็นวิธีหนึ่งในการติดป้ายกำกับตัวอย่างเป็นค่าผิดปกติ)