หากต้องการเพิ่มคำตอบของ @Soren H. Welling
1. เป็นที่ยอมรับโดยทั่วไปในการรายงานข้อผิดพลาดการฝึกอบรม OOB ว่าเป็นข้อผิดพลาดในการฝึกอบรมสำหรับป่าสุ่มหรือไม่?
ไม่ได้ข้อผิดพลาด OOB ของรุ่นที่ผ่านการฝึกอบรมจะไม่เหมือนกับข้อผิดพลาดในการฝึกอบรม อย่างไรก็ตามมันสามารถใช้เป็นเครื่องวัดความแม่นยำในการทำนาย
2. จริงหรือไม่ที่ข้อผิดพลาดในการฝึกอบรมแบบดั้งเดิมอยู่ในระดับต่ำเทียม?
สิ่งนี้เป็นจริงถ้าเรากำลังเรียกใช้ปัญหาการจำแนกประเภทโดยใช้การตั้งค่าเริ่มต้น กระบวนการที่แน่นอนมีการอธิบายไว้ในโพสต์ฟอรัมโดย Andy Liawผู้ดูแลrandomForest
บรรจุภัณฑ์ใน R ดังนี้:
ประสิทธิภาพของชุดฝึกอบรมนั้นไม่มีความหมาย (นั่นเป็นกรณีของอัลกอริธึมส่วนใหญ่ แต่โดยเฉพาะอย่างยิ่งสำหรับ RF) ในการตั้งค่าเริ่มต้น (และแนะนำ) ต้นไม้จะเติบโตเป็นขนาดสูงสุดซึ่งหมายความว่าค่อนข้างน่าจะมีจุดข้อมูลเพียงจุดเดียวในโหนดเทอร์มินัลส่วนใหญ่ การทำนายที่โหนดเทอร์มินัลถูกกำหนดโดยคลาสส่วนใหญ่ในโหนดหรือจุดข้อมูลโลน สมมติว่าเป็นกรณีตลอดเวลา นั่นคือในทรีทั้งหมดโหนดเทอร์มินัลทั้งหมดมีจุดข้อมูลเพียงจุดเดียว จุดข้อมูลเฉพาะจะเป็น "ในถุง" ประมาณ 64% ของต้นไม้ในป่าและต้นไม้ทุกต้นมีการทำนายที่ถูกต้องสำหรับจุดข้อมูลนั้น แม้ว่าต้นไม้ทั้งหมดที่จุดข้อมูลนั้นไม่ได้อยู่ในกระเป๋าก็สามารถทำนายผลผิดพลาดได้โดยการโหวตเสียงส่วนใหญ่ของต้นไม้ทุกต้น คุณยังได้รับคำตอบที่ถูกต้องในที่สุด ดังนั้นการคาดการณ์ที่สมบูรณ์แบบสำหรับชุดรถไฟสำหรับ RF คือ "โดยการออกแบบ"
เพื่อหลีกเลี่ยงพฤติกรรมนี้คุณสามารถตั้งค่าnodesize > 1
(เพื่อให้ต้นไม้ไม่ได้เติบโตเป็นขนาดสูงสุด) และ / หรือชุดsampsize < 0.5N
(เพื่อให้ต้นไม้น้อยกว่า 50% มีแนวโน้มที่จะมีจุดที่กำหนด( xผม, yผม).
3. หากการวัดความผิดพลาดในการฝึกอบรมแบบดั้งเดิมต่ำมากฉันจะเปรียบเทียบการวัดสองแบบเพื่อตรวจสอบว่า RF กำลังเกินกำหนดหรือไม่
หากเรารัน RF ด้วยnodesize = 1
และsampsize > 0.5
ดังนั้นข้อผิดพลาดในการฝึกอบรมของ RF จะอยู่ใกล้กับ 0 เสมอในกรณีนี้วิธีเดียวที่จะบอกได้ว่าแบบจำลองนี้มีการ overfitting หรือไม่เพื่อเก็บข้อมูลบางอย่างไว้เป็นชุดการตรวจสอบอิสระ จากนั้นเราสามารถเปรียบเทียบข้อผิดพลาดการทดสอบ 10-CV (หรือข้อผิดพลาดการทดสอบ OOB) กับข้อผิดพลาดในชุดการตรวจสอบความถูกต้องอิสระ หากข้อผิดพลาดในการทดสอบ 10-CV นั้นต่ำกว่าข้อผิดพลาดในชุดการตรวจสอบความถูกต้องอิสระมากแสดงว่าแบบจำลองนั้นมีขนาดใหญ่เกินไป