4
คุณจะใช้ชุดข้อมูล 'ทดสอบ' หลังจากการตรวจสอบข้ามได้อย่างไร
ในการบรรยายและแบบฝึกหัดที่ฉันเห็นพวกเขาแนะนำให้แบ่งข้อมูลของคุณออกเป็นสามส่วน: การฝึกอบรมการตรวจสอบและการทดสอบ แต่ยังไม่ชัดเจนว่าควรใช้ชุดข้อมูลการทดสอบอย่างไรและวิธีการนี้ดีกว่าการตรวจสอบข้ามชุดข้อมูลทั้งหมด สมมติว่าเราได้บันทึก 20% ของข้อมูลของเราเป็นชุดทดสอบ จากนั้นเราจะแบ่งส่วนที่เหลือแบ่งออกเป็น k เท่าและโดยใช้การตรวจสอบความถูกต้องเราพบว่าแบบจำลองที่สร้างการทำนายที่ดีที่สุดสำหรับข้อมูลที่ไม่รู้จักจากชุดข้อมูลนี้ สมมติว่าแบบจำลองที่ดีที่สุดที่เราพบมีความแม่นยำ75% แบบฝึกหัดและคำถามมากมายในเว็บไซต์ถามตอบต่างๆบอกว่าตอนนี้เราสามารถตรวจสอบโมเดลของเราในชุดข้อมูล (ทดสอบ) ที่บันทึกไว้ แต่ฉันก็ยังไม่สามารถเข้าใจได้ว่ามันถูกต้องหรือไม่ สมมติว่าเรามีความแม่นยำ70%ในชุดข้อมูลการทดสอบ แล้วเราจะทำอย่างไรต่อไป เราลองแบบอื่นแล้วลองอีกแบบจนกว่าเราจะได้คะแนนสูงในชุดทดสอบของเราหรือไม่ แต่ในกรณีนี้จริงๆมันดูเหมือนว่าเราก็จะได้พบกับรูปแบบที่เหมาะกับการ จำกัด (เพียง 20%) ชุดทดสอบของเรา ไม่ได้หมายความว่าเราจะพบกับโมเดลที่ดีที่สุดโดยทั่วไป ยิ่งกว่านั้นเราจะพิจารณาคะแนนนี้เป็นการประเมินแบบทั่วไปได้อย่างไรหากคำนวณเฉพาะในชุดข้อมูลที่ จำกัด เท่านั้น หากคะแนนนี้ต่ำเราอาจโชคไม่ดีและเลือกข้อมูลการทดสอบ "ไม่ดี" ในทางกลับกันถ้าเราใช้ข้อมูลทั้งหมดที่เรามีแล้วเลือกแบบจำลองโดยใช้การตรวจสอบความถูกต้องข้ามของ K-fold เราจะพบรูปแบบที่ทำให้การทำนายที่ดีที่สุดสำหรับข้อมูลที่ไม่รู้จักจากชุดข้อมูลทั้งหมดที่เรามี