2
ข้อผิดพลาดของการฝึกอบรมที่ต้องรายงานสำหรับป่าสุ่มคืออะไร
ขณะนี้ฉันกำลังปรับฟอเรสต์แบบสุ่มสำหรับปัญหาการจำแนกประเภทโดยใช้randomForestแพ็คเกจใน R และไม่แน่ใจเกี่ยวกับวิธีรายงานข้อผิดพลาดในการฝึกอบรมสำหรับโมเดลเหล่านี้ ข้อผิดพลาดในการฝึกอบรมของฉันใกล้เคียงกับ 0% เมื่อฉันคำนวณโดยใช้การคาดการณ์ที่ฉันได้รับจากคำสั่ง: predict(model, data=X_train) ที่X_trainเป็นข้อมูลการฝึกอบรม ในคำตอบของคำถามที่เกี่ยวข้องฉันอ่านว่าควรใช้ข้อผิดพลาดการฝึกอบรมนอกกระเป๋า (OOB) เป็นตัวชี้วัดข้อผิดพลาดการฝึกอบรมสำหรับฟอเรสต์แบบสุ่ม ปริมาณนี้คำนวณจากการทำนายที่ได้จากคำสั่ง: predict(model) ในกรณีนี้ข้อผิดพลาดในการฝึกอบรมของ OOB นั้นใกล้กับข้อผิดพลาดในการทดสอบ 10-CV เฉลี่ยซึ่งมากถึง 11% ฉันสงสัย: เป็นที่ยอมรับกันโดยทั่วไปในการรายงานข้อผิดพลาดการฝึกอบรมของ OOB ว่าเป็นข้อผิดพลาดในการฝึกอบรมสำหรับป่าสุ่มหรือไม่? ความจริงที่ว่าข้อผิดพลาดในการฝึกอบรมแบบดั้งเดิมนั้นต่ำเกินจริงหรือไม่? หากข้อผิดพลาดในการฝึกอบรมแบบดั้งเดิมอยู่ในระดับต่ำมาก ๆ ฉันจะเปรียบเทียบได้สองวิธีเพื่อตรวจสอบว่า RF กำลังเกินขนาดหรือไม่