การสร้างแบบจำลองด้วยป่าสุ่มต้องมีการตรวจสอบข้ามหรือไม่?


10

เท่าที่ฉันเคยเห็นความคิดเห็นมีแนวโน้มที่จะแตกต่างกันเกี่ยวกับเรื่องนี้ แนวปฏิบัติที่ดีที่สุดจะใช้การตรวจสอบข้าม (โดยเฉพาะอย่างยิ่งหากเปรียบเทียบ RF กับอัลกอริธึมอื่น ๆ ในชุดข้อมูลเดียวกัน) แหล่งที่มาดั้งเดิมระบุว่ามีการคำนวณข้อผิดพลาด OOB ข้อเท็จจริงระหว่างการฝึกอบรมแบบจำลองเพียงพอที่จะเป็นตัวบ่งชี้ประสิทธิภาพของชุดทดสอบ แม้แต่ Trevor Hastie ในการพูดคุยเมื่อไม่นานมานี้กล่าวว่า "Random Forest ให้การตรวจสอบข้ามฟรี" โดยสัญชาตญาณสิ่งนี้สมเหตุสมผลสำหรับฉันหากการฝึกอบรมและพยายามปรับปรุงโมเดล RF-based บนหนึ่งชุดข้อมูล

ความคิดเห็นของคุณเกี่ยวกับเรื่องนี้คืออะไร?


3
นี่ไม่ใช่การพูดถึงประเด็นหลักของคำถาม - แต่คุณยังอาจต้องการตรวจสอบพารามิเตอร์รอง (เช่นความลึกของต้นไม้เป็นต้น)
Wouter

คุณสามารถใช้ RF หรือเปรียบเทียบกับแนวทางอื่น ๆ ในแง่ของประสิทธิภาพในชุดฝึกอบรมหรือใช้ข้อมูลอิสระ / ชุดย่อยเพื่อทดสอบประสิทธิภาพ มันเป็นคำถามของสมมติฐานของคุณ: คุณกำลังพยายามสรุปผลลัพธ์ให้กับประชากรที่มีขนาดใหญ่ขึ้นหรือเพียงเพื่อจำแนกข้อมูลในมือไม่ใช่ทรัพย์สินของ RF
katya

คำตอบ:


3

ข้อผิดพลาด OOB ถูกคำนวณโดยการสังเกตแต่ละครั้งโดยใช้เฉพาะต้นไม้ที่ไม่มีข้อสังเกตเฉพาะนี้ในตัวอย่างบูตสแตรป ดูคำถามที่เกี่ยวข้องนี้ นี่เป็นเรื่องที่เทียบเท่ากับการตรวจสอบไขว้สองเท่าเนื่องจากความน่าจะเป็นของการสังเกตเฉพาะที่อยู่ในตัวอย่างบูทสแตรปโดยเฉพาะคือ0.61(11N)N1e10.6

เมื่อ @Wouter ชี้ให้เห็นคุณอาจต้องการทำการตรวจสอบข้ามสำหรับการปรับพารามิเตอร์ แต่เนื่องจากข้อผิดพลาดของชุดทดสอบโดยประมาณข้อผิดพลาด OOB ควรจะดี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.