ฉันมีการถดถอยแบบป่าที่สร้างขึ้นโดยใช้ skl และฉันทราบว่าฉันให้ผลลัพธ์ที่แตกต่างกันตามการตั้งค่าเมล็ดแบบสุ่มเป็นค่าที่แตกต่างกัน
หากฉันใช้ LOOCV เพื่อกำหนดว่าเมล็ดพันธุ์ใดทำงานได้ดีที่สุดนี่เป็นวิธีที่ถูกต้องหรือไม่
ฉันมีการถดถอยแบบป่าที่สร้างขึ้นโดยใช้ skl และฉันทราบว่าฉันให้ผลลัพธ์ที่แตกต่างกันตามการตั้งค่าเมล็ดแบบสุ่มเป็นค่าที่แตกต่างกัน
หากฉันใช้ LOOCV เพื่อกำหนดว่าเมล็ดพันธุ์ใดทำงานได้ดีที่สุดนี่เป็นวิธีที่ถูกต้องหรือไม่
คำตอบ:
คำตอบคือไม่มี
แบบจำลองของคุณให้ผลลัพธ์ที่แตกต่างกันสำหรับแต่ละเมล็ดที่คุณใช้ นี่เป็นผลมาจากลักษณะที่ไม่ได้กำหนดของแบบจำลอง ด้วยการเลือกเมล็ดพันธุ์เฉพาะที่เพิ่มประสิทธิภาพสูงสุดในชุดการตรวจสอบหมายความว่าคุณเลือก "การจัดเรียง" ที่เหมาะกับชุดนี้ที่สุด แต่นี้ไม่ได้รับประกันว่ารุ่นที่มีเมล็ดนี้จะทำงานได้ดีขึ้นอยู่กับชุดทดสอบที่แยกต่างหาก นี่หมายความว่าคุณมีโมเดลที่เหมาะสมกับชุดการตรวจสอบมากเกินไป
ผลกระทบนี้เป็นเหตุผลที่คุณเห็นคนจำนวนมากที่มีอันดับสูงในการแข่งขัน (เช่นตัวต่อ) ในชุดการทดสอบสาธารณะล้มลงในชุดการทดสอบที่ซ่อน วิธีการนี้ไม่ได้รับการพิจารณาด้วยวิธีการที่ถูกต้อง