ฉันสงสัยว่ารูปแบบการตรวจสอบความถูกต้องไขว้แบบใดเพื่อเลือกสำหรับปัญหาการจำแนกประเภท: K-fold หรือการสุ่มย่อยแบบสุ่ม (การสุ่มตัวอย่างบูตสแตรป)?
การคาดเดาที่ดีที่สุดของฉันคือใช้ 2/3 ของชุดข้อมูล (ซึ่งคือ ~ 1,000 รายการ) สำหรับการฝึกอบรมและ 1/3 สำหรับการตรวจสอบ
ในกรณีนี้ K-fold ให้การทำซ้ำเพียงสามครั้ง (เท่า) ซึ่งไม่เพียงพอที่จะเห็นข้อผิดพลาดเฉลี่ยที่เสถียร
ในทางตรงกันข้ามฉันไม่ชอบคุณสมบัติการสุ่มตัวอย่างย่อย: บางรายการจะไม่ถูกเลือกสำหรับการฝึกอบรม / การตรวจสอบความถูกต้องและบางรายการจะถูกใช้มากกว่าหนึ่งครั้ง
อัลกอริทึมการจำแนกประเภทที่ใช้: ฟอเรสต์แบบสุ่มและการถดถอยโลจิสติก