เหตุใด RANSAC จึงไม่ใช้กันอย่างแพร่หลายในสถิติ


26

มาจากมุมมองของคอมพิวเตอร์ฉันมักจะใช้วิธีRANSAC (Random Sample Consensus) สำหรับการปรับโมเดลให้เหมาะสมกับข้อมูลที่มีค่าผิดปกติจำนวนมาก

อย่างไรก็ตามฉันไม่เคยเห็นมันใช้โดยนักสถิติและฉันมักจะอยู่ภายใต้ความประทับใจว่ามันไม่ได้ถือว่าเป็นวิธี "สถิติเสียง" เหตุผลที่เป็นเช่นนั้น? มันเป็นการสุ่มในธรรมชาติซึ่งทำให้ยากต่อการวิเคราะห์ แต่เป็นวิธีการบูตสแตรป

หรือเป็นเพียงกรณีของนักวิชาการที่ไม่ได้พูดคุยกัน


1
ฉันสงสัยว่าสิ่งหนึ่งเกี่ยวกับวิธีการมองเห็นด้วยคอมพิวเตอร์กับวิธีการทางสถิติ: ประสิทธิภาพในตอนแรกนั้นเป็นสิ่งที่จำเป็น อาจมีข้อเสียระหว่างประสิทธิภาพและ "ความถูกต้อง" และการมองเห็นคอมพิวเตอร์และสถิติมีน้ำหนักต่างกันสำหรับตัวแปรเหล่านั้น
Lucas Reis

คำตอบ:


10

ฉันคิดว่ากุญแจที่นี่คือการทิ้งข้อมูลส่วนใหญ่ใน RANSAC

ในแอปพลิเคชันทางสถิติส่วนใหญ่การแจกแจงบางอย่างอาจมีหางที่มีน้ำหนักมากและดังนั้นจำนวนตัวอย่างขนาดเล็กอาจประมาณค่าสถิติที่เบ้ ตัวประมาณที่แข็งแกร่งแก้ปัญหานี้ได้โดยการชั่งน้ำหนักข้อมูลต่างกัน ในทางกลับกัน RANSAC ไม่พยายามที่จะปรับค่าผิดปกติมันถูกสร้างขึ้นสำหรับกรณีที่จุดข้อมูลไม่ได้อยู่ในความเป็นจริงไม่ใช่แค่กระจายแบบไม่เป็นมาตรฐาน


1
คำตอบที่ดี ฉันเคยเห็น RANSAC ที่ใช้บ่อยที่สุดในประวัติย่อเพื่อประเมินงานเขียน นี่ใช้กันอย่างแพร่หลายมากที่สุดเมื่อเรารู้ว่าการวัดที่เกี่ยวข้องบางอย่างไม่น่าเชื่อถืออย่างมหาศาล นอกจากนี้ประสิทธิภาพแบบเรียลไทม์และข้อควรพิจารณาอื่น ๆ ทำให้เทคนิคนี้เป็นที่นิยมเนื่องจากสามารถขนานกันได้ง่าย
Luca

7

สำหรับเรามันเป็นเพียงตัวอย่างหนึ่งของการถดถอยที่แข็งแกร่ง - ฉันเชื่อว่ามันถูกใช้โดยนักสถิติด้วย แต่อาจจะไม่กว้างนักเพราะมันมีทางเลือกที่รู้จักกันดีกว่า


1
คุณสามารถยกตัวอย่างทางเลือกได้หรือไม่? ฉันต้องการตรวจสอบสิ่งนั้น
Bossykena

5
ที่รู้จักมากที่สุดและง่ายที่สุดคือการถดถอย Median-Median ที่รู้จักกันดีจากเครื่องคิดเลขอัจฉริยะ (ถอนหายใจ!) ดูที่ Wikipedia en.wikipedia.org/wiki/Robust_regressionและดู CRAN ภารกิจ Robust cran.r-project.org/web/views/Robust.html

มีทางเลือกอื่นในการ RANSAC ซึ่งไม่เพียง แต่ให้การถดถอยที่ไม่เอนเอียง แต่ยังเป็นจุดข้อมูลที่โมเดลได้ถูกประเมิน? ขอบคุณ
Valerio

2

ฟังดูคล้ายกับการห่อซึ่งเป็นเทคนิคที่ใช้บ่อย


3
RANSAC นั้นแตกต่างกันมาก - ในการบรรจุถุงตัวอย่างทั้งหมดจะถูกนำมาพิจารณาด้วยวิธีใดวิธีหนึ่ง RANSAC ใช้ในกรณีที่ควรทิ้งข้อมูลมากถึง 50%
nbubis

1

คุณทิ้งข้อมูลด้วย RANSAC ซึ่งอาจไม่เป็นธรรม แต่ขึ้นอยู่กับการเพิ่มความพอดีของโมเดล การทิ้งข้อมูลเพื่อความกระชับที่เพิ่มขึ้นมักจะหลีกเลี่ยงเพราะข้อมูลที่สำคัญอาจสูญหายไป การลบค่าผิดปกติโดยไม่มีเหตุผลเป็นปัญหาเสมอ

เป็นไปได้ของหลักสูตรที่จะพิสูจน์มัน เช่นถ้าคุณรู้ว่าข้อมูลควรเป็นไปตามรูปแบบที่กำหนด แต่ยังมีการเบี่ยงเบนในข้อมูลจากรูปแบบเนื่องจากข้อผิดพลาดในการวัด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.