การตรวจสอบก่อนหน้านี้โดยใช้การถดถอย


11

สามารถใช้การถดถอยสำหรับการตรวจสอบ lier ออก ฉันเข้าใจว่ามีวิธีในการปรับปรุงรูปแบบการถดถอยโดยการลบค่าผิดปกติ แต่เป้าหมายหลักที่นี่ไม่เหมาะกับโมเดลการถดถอย แต่ค้นหา liers โดยใช้การถดถอย


เมื่อความพอดีดีขึ้นหลังจากติดตั้งแบบจำลองโดยไม่มีผู้ต้องขังมีหลักฐานว่านี่เป็นคุณค่าอย่างยิ่ง นี่อาจเป็นสิ่งที่สงสัยหากคุณมีข้อมูลจำนวนมากเพราะความพอดีจะได้รับการปรับปรุงให้ดีขึ้น
Roman Luštrik

@ RomanLuštrik: นี่คือมากนิยาม hesoteric ค่าผิดปกติ ตัวอย่างเช่นมันไม่สอดคล้องกับมุมมองของค่าผิดปกติที่ใช้ในคำตอบของ Glen_b (หรือสำหรับเรื่องนั้นกับคำจำกัดความของค่าผิดปกติที่ใช้ในตำราเรียนในเรื่องเช่น "สถิติที่แข็งแกร่ง: ทฤษฎีและวิธีการ" สนใจอ้างแหล่งที่มาเพื่อสนับสนุนคำนิยามของคุณ?
603

ฉันไม่สามารถอ้างอิงใด ๆ คุณมีความถูกต้องแน่นอนว่าอะไรคือการปรับปรุงที่เหมาะสม การปรับปรุงอาจเป็นเรื่องส่วนตัวสูงและควรใช้เป็นแนวทางไม่ใช่ค่าหุ่นยนต์ตัดออกและตัดสินตามแต่ละกรณี
Roman Luštrik

Iteratively Reweighted Least Squaresเป็นวิธีการถดถอยที่มีประสิทธิภาพโดยทั่วไปใช้เพื่อค้นหาค่าผิดปกติในข้อมูล
whuber

คำตอบ:


13

ตัวเลือกที่ดีที่สุดของคุณในการใช้การถดถอยเพื่อค้นหาค่าผิดปกติคือการใช้การถดถอยที่มีประสิทธิภาพ

การถดถอยปกติสามารถรับผลกระทบจากค่าผิดปกติได้สองวิธี:

อย่างแรกค่าผิดปกติที่รุนแรงในทิศทาง y ที่ค่า x ใกล้สามารถส่งผลกระทบต่อความพอดีในพื้นที่นั้นในลักษณะเดียวกับที่ค่าผิดปกติอาจส่งผลต่อค่าเฉลี่ยx¯

ประการที่สองการสังเกต 'ห่างไกล' ใน x-space เป็นการสังเกตที่มีอิทธิพล - มันสามารถดึงความพอดีของเส้นเข้าหามัน ถ้ามันอยู่ไกลพอสายจะผ่านจุดที่มีอิทธิพล:

ป้อนคำอธิบายรูปภาพที่นี่

ในพล็อตด้านซ้ายมีจุดที่ค่อนข้างมีอิทธิพลและมันจะดึงเส้นออกจากข้อมูลจำนวนมาก ในพล็อตที่ถูกต้องมันจะถูกย้ายไปให้ไกลยิ่งขึ้น - และตอนนี้เส้นจะผ่านจุด เมื่อค่า x เป็นค่าที่สุดขีดเมื่อคุณเลื่อนจุดนั้นขึ้นและลงเส้นนั้นจะเคลื่อนที่ไปตามนั้นโดยผ่านค่าเฉลี่ยของจุดอื่น ๆ และผ่านจุดที่มีอิทธิพลจุดเดียว

จุดที่มีอิทธิพลซึ่งสอดคล้องกับส่วนที่เหลือของข้อมูลอย่างสมบูรณ์อาจไม่ใช่ปัญหาใหญ่ แต่อย่างใดอย่างหนึ่งที่อยู่ไกลจากเส้นผ่านส่วนที่เหลือของข้อมูลจะทำให้เส้นตรงกับมันมากกว่าข้อมูล

ถ้าคุณดูพล็อตมือขวาเส้นสีแดง - เส้นถดถอยกำลังสองน้อยที่สุด - จะไม่แสดงจุดสุดขั้วว่าเป็นค่าผิดปกติเลย - ค่าที่เหลือคือ 0 แทนที่จะเป็นเศษใหญ่จากเส้นกำลังสองน้อยที่สุด ส่วนหลักของข้อมูล!

ซึ่งหมายความว่าคุณสมบูรณ์สามารถพลาดขอบเขต

ยิ่งแย่ไปกว่านั้นด้วยการถดถอยหลายครั้งค่าผิดพลาดใน x-space อาจไม่ดูผิดปกติเป็นพิเศษสำหรับตัวแปร x ตัวใดตัวหนึ่ง หากมีความเป็นไปได้ของจุดดังกล่าวอาจเป็นเรื่องที่เสี่ยงมากที่จะใช้การถดถอยกำลังสองน้อยที่สุด

การถดถอยที่แข็งแกร่ง

หากคุณพอดีกับเส้นที่แข็งแกร่ง - โดยเฉพาะอย่างยิ่งตัวแข็งแกร่งที่มีอิทธิพลต่อค่าผิดปกติ - เช่นเส้นสีเขียวในพล็อตที่สอง - ค่าผิดปกติจะมีค่าตกค้างมาก

ในที่กรณีที่คุณมีความหวังในการระบุค่าผิดปกติบางอย่าง - พวกเขาจะเป็นจุดที่ไม่ได้ - ในความรู้สึกบาง - ใกล้กับเส้น


การลบค่าผิดปกติ

แน่นอนคุณสามารถใช้การถดถอยที่แข็งแกร่งเพื่อระบุและลบค่าผิดปกติ

แต่เมื่อคุณมีค่าความถดถอยที่มีประสิทธิภาพแล้วสิ่งที่ไม่ได้รับผลกระทบจากค่าผิดปกติคุณไม่จำเป็นต้องลบค่าผิดปกติ - คุณมีแบบจำลองที่เหมาะสมแล้ว


1
"คุณไม่จำเป็นต้องลบค่าผิดปกติ" ในบางครั้งการค้นหาค่าผิดพลาดนั้นเป็นจุดประสงค์ของการศึกษา (เช่นการระบุตัวตนของการฉ้อโกง)
603

1

3
(+1) คำตอบที่ดี แต่น่าเสียดายที่คุณไม่ได้พูดถึงวิธีการถดถอยที่มีประสิทธิภาพ เช่นเส้นสีเขียวถูกพล็อตที่พล็อตย่อยที่ถูกต้องอย่างไร (และทำไมคุณถึงชอบอัลกอริธึมที่มากกว่ากลุ่มอื่น) บางทีลิงก์นี้อาจมีประโยชน์ได้ที่นี่: การถดถอยเชิงเส้นอย่างรวดเร็วและทนทานต่อค่าผิดปกติ - อาจเป็นเธรดที่ดีที่สุดใน CV ที่พูดถึงการถดถอยที่แข็งแกร่ง
อะมีบา

-2

สามารถใช้การถดถอยสำหรับการตรวจหาค่าผิดปกติ

ใช่. คำตอบนี้และคำตอบของ Glen_b ตอบคำถามนี้

เป้าหมายหลักที่นี่ไม่เหมาะกับโมเดลการถดถอย แต่ค้นหา liers โดยใช้การถดถอย

จากความคิดเห็นของ Roman Lustrik นี่เป็นวิธีแก้ปัญหาเพื่อค้นหาผู้ใช้โดยใช้การถดถอย (หลายเชิงเส้น)

n

  1. n rtotal

  2. ri

  3. rirtotผมri<<rtotaล.ผม

เราสามารถทำแบบฝึกหัดทั้งหมดซ้ำอีกครั้งด้วยตัวอย่างที่ลดลง ในอัลกอริทึมเรากำลังเลือกตัวอย่างในข้อมูลที่มีผลต่อการถดถอยในแบบที่ไม่ดี (ซึ่งเป็นวิธีหนึ่งในการติดป้ายกำกับตัวอย่างเป็นค่าผิดปกติ)


1
คุณได้ลองใช้กลยุทธ์นี้ในชุดข้อมูลที่แสดงที่นี่หรือไม่? เพิ่มเติมพื้นฐานกลยุทธ์ของคุณจำนวนเงินที่อ้างว่าค่าผิดปกติสามารถพบได้อย่างน่าเชื่อถือจากผลของห่วงโซ่ของเหมาะกับการลดฟังก์ชั่นการสูญเสียนูนซึ่งเป็นที่รู้จักกันที่เข้าใจผิดเมื่อมีมากขึ้นกว่าขอบเขตเดียว (ลิงก์นี้แสดงให้เห็นว่านี้เป็นปัญหาที่เกี่ยวข้อง การหาค่าหลายตัวแปร แต่ผลลัพธ์จะนำไปใช้กับการถดถอยเช่นกัน)
user603

ฉันยินดีที่จะลบคำตอบของฉัน แต่ก่อนอื่นฉันไม่เข้าใจทั้งที่คุณให้และยิ่งกว่านั้นฉันไม่แน่ใจว่าทำไมพวกเขาถึงตอบไม่ถูกต้อง 'กลยุทธ์' อยู่ที่ไหนอ้างอิงแรก? คุณสามารถชี้ไปที่คำตอบเฉพาะได้หรือไม่? หน้าและบรรทัดใดของการอ้างอิงที่สองเกี่ยวข้องกับที่นี่และกล่าวถึง 'การเข้าใจผิด'
Theja

1
ขออภัยฉันสามารถกลับมาหาเราได้ตอนนี้ ส่วนความคิดเห็นสั้นไปเล็กน้อยเพื่อเป็นตัวอย่างและฉันจะไม่ใช้ส่วน 'คำตอบ' เนื่องจากไม่ใช่คำถามของ OP ยังคุณมีเวลาลองวิธีการของคุณในข้อมูลที่ฉันเชื่อมโยงกับ?
603
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.