หมายเหตุ: เคสคือ n >> p
ฉันกำลังอ่านองค์ประกอบของการเรียนรู้ทางสถิติและมีหลายสิ่งที่กล่าวถึงวิธี "ถูกต้อง" ในการตรวจสอบข้าม (เช่นหน้า 60, หน้า 245) โดยเฉพาะคำถามของฉันคือวิธีการประเมินรุ่นสุดท้าย (ไม่มีชุดทดสอบแยก) โดยใช้ k-fold CV หรือ bootstrapping เมื่อมีการค้นหารูปแบบ? ดูเหมือนว่าในกรณีส่วนใหญ่ (อัลกอริทึม ML ที่ไม่มีการเลือกคุณสมบัติแบบฝัง) จะมี
- ขั้นตอนการเลือกคุณสมบัติ
- ขั้นตอนการเลือกพารามิเตอร์ meta (เช่นพารามิเตอร์ต้นทุนใน SVM)
คำถามของฉัน:
- ฉันได้เห็นแล้วว่าขั้นตอนการเลือกคุณสมบัติสามารถทำได้เมื่อการเลือกคุณสมบัติเสร็จสิ้นในชุดฝึกอบรมทั้งหมด จากนั้นใช้ k-fold CV อัลกอริทึมการเลือกคุณลักษณะจะใช้ในแต่ละเท่า (รับคุณลักษณะที่แตกต่างกันซึ่งอาจเลือกได้ในแต่ละครั้ง) และข้อผิดพลาดเฉลี่ย จากนั้นคุณจะใช้คุณสมบัติที่เลือกโดยใช้ข้อมูลทั้งหมด (ที่ถูกตั้งค่าไว้) เพื่อฝึกโหมดสุดท้าย แต่ใช้ข้อผิดพลาดจากการตรวจสอบความถูกต้องของข้อมูลเพื่อประเมินประสิทธิภาพในอนาคตของโมเดล ถูกต้องหรือไม่
- เมื่อคุณใช้การตรวจสอบความถูกต้องไขว้กันเพื่อเลือกพารามิเตอร์โมเดลแล้วจะประเมินประสิทธิภาพของโมเดลได้อย่างไร? มันเป็นกระบวนการที่เหมือนกันกับ # 1 ข้างต้นหรือคุณควรใช้ CV CV ที่มีลักษณะเหมือนการแสดงบนหน้า 54 ( pdf ) หรืออื่น ๆ
- เมื่อคุณทำทั้งสองขั้นตอน (การตั้งค่าคุณสมบัติและพารามิเตอร์) ..... แล้วคุณจะทำอย่างไร? ซับซ้อนซ้อนกันลูป?
- หากคุณมีตัวอย่างการระงับแยกต่างหากข้อกังวลหายไปและคุณสามารถใช้การตรวจสอบความถูกต้องแบบไขว้เพื่อเลือกคุณสมบัติและพารามิเตอร์ (ไม่ต้องกังวลเนื่องจากการประเมินประสิทธิภาพของคุณจะมาจากชุดการระงับ)