ฉันสับสนเกี่ยวกับวิธีแบ่งพาร์ติชันข้อมูลสำหรับการตรวจสอบความถูกต้องของวง k-fold
สมมติว่าฉันมีกรอบการเรียนรู้ทั้งมวลสำหรับการจำแนก เลเยอร์แรกของฉันมีโมเดลการจัดหมวดหมู่เช่น svm แผนภูมิการตัดสินใจ
เลเยอร์ที่สองของฉันมีโมเดลการลงคะแนนซึ่งรวมการทำนายจากเลเยอร์แรกและให้การทำนายขั้นสุดท้าย
หากเราใช้การตรวจสอบความถูกต้อง 5 เท่าของ cross-cross ฉันคิดว่าจะใช้ 5 folds ดังนี้:
- 3 เท่าสำหรับการฝึกชั้นแรก
- 1 เท่าสำหรับฝึกซ้อมเลเยอร์ที่สอง
- 1 เท่าสำหรับการทดสอบ
นี้เป็นวิธีที่ถูกต้องหรือไม่? ข้อมูลการฝึกอบรมสำหรับชั้นหนึ่งและชั้นสองควรเป็นอิสระหรือไม่? ฉันคิดว่าพวกเขาควรจะมีความเป็นอิสระเพื่อให้กรอบการเรียนรู้ทั้งมวลจะแข็งแกร่ง
เพื่อนของฉันแนะนำข้อมูลการฝึกอบรมสำหรับเลเยอร์แรกและเลเยอร์ที่สองควรเหมือนกันเช่น
- 4 เท่าสำหรับการฝึกชั้นหนึ่งและชั้นสอง
- 1 เท่าสำหรับการทดสอบ
ด้วยวิธีนี้เราจะมีข้อผิดพลาดที่แม่นยำยิ่งขึ้นของกรอบการเรียนรู้ทั้งมวลและการปรับกรอบซ้ำ ๆ จะมีความแม่นยำมากขึ้นเนื่องจากมีพื้นฐานจากข้อมูลการฝึกอบรมเพียงครั้งเดียว นอกจากนี้เลเยอร์ที่สองอาจมีอคติต่อข้อมูลการฝึกอบรมที่เป็นอิสระ
คำแนะนำใด ๆ ที่ชื่นชมอย่างมาก