ตัวเลือกที่ 1 คือสิ่งที่ถูกต้อง คุณสามารถเพิ่มชุดข้อมูลการตรวจสอบความถูกต้องเพื่ออัพเดทพารามิเตอร์ของแบบจำลองของคุณ
นั่นคือคำตอบ ตอนนี้ให้เราคุยกัน ความจริงที่ว่าสิ่งที่คุณทำคือตัวเลือกที่ 1 ของคุณนั้นชัดเจนกว่าถ้าคุณทำการตรวจสอบความถูกต้องแบบข้ามส่วนของ k-fold (และคุณควรทำอย่างนั้น - มันไม่ชัดเจนจากคำถามของคุณ)
ในการตรวจสอบไขว้ 5 เท่าคุณแบ่งข้อมูลที่คุณมีเป็นชุดสุ่มขนาดเท่ากัน 5 ชุด ให้เราเรียกพวกเขาว่า A, B, C, D และ E จากนั้นคุณเรียนรู้พารามิเตอร์ของแบบจำลองของคุณ (ของแบบจำลองตัวเอง) ใน 4 ชุดพูด A, B, C และ D และทดสอบหรือตรวจสอบมันใน รุ่นที่ห้า E (สิ่งนี้คุณทำ) แต่จากนั้นคุณเลือกชุดอื่นเป็นการทดสอบ / การตรวจสอบความถูกต้อง (พูด D) และเรียนรู้การใช้อีก 4 (A, B, C และ E) ทดสอบบน D ทำซ้ำ
ข้อผิดพลาดที่คุณคาดการณ์โมเดลของคุณคือข้อผิดพลาดโดยเฉลี่ยของการทดสอบ 5 ข้อ - และคุณมีความเข้าใจว่าข้อผิดพลาดการทำนายขึ้นอยู่กับชุดการเรียนและการทดสอบอย่างไร ในสถานการณ์กรณีที่ดีที่สุดข้อผิดพลาดทั้ง 5 ข้อมีความคล้ายคลึงกันและคุณสามารถมั่นใจได้ว่าโมเดลของคุณจะทำงานในระดับนั้นในอนาคต
แต่รุ่นอะไร ?? สำหรับชุดการเรียนรู้แต่ละชุดคุณจะมีพารามิเตอร์ที่แตกต่างกันสำหรับโมเดล การเรียนรู้ด้วย A, B, C, D สร้างชุดพารามิเตอร์ P1, การเรียนรู้ด้วย A, B, C, E, ชุดพารามิเตอร์ P2, สูงถึง P5 ไม่มีพวกเขาเป็นแบบจำลองของคุณ
สิ่งที่คุณทดสอบคือข้อผิดพลาดที่คาดหวังของโพรซีเดอร์ในการสร้างแบบจำลองโพรซีเดอร์ที่คุณติดตามเมื่อชุดการเรียนรู้คือ A, B, C, D และเมื่อมันคือ A, B, C, E และอื่น ๆ เป็นขั้นตอนนี้ที่สร้างแบบจำลองที่มีข้อผิดพลาดที่คาดไว้
ดังนั้นรุ่นสุดท้ายคืออะไร? มันเป็นแอพพลิเคชั่นของขั้นตอนในข้อมูลทั้งหมดที่คุณมี (A, B, C, D และ E) โมเดลใหม่ที่มีชุดพารามิเตอร์ P0 ซึ่งคุณไม่เคยสร้างมาก่อนคุณไม่มีข้อมูลที่จะทดสอบ (เนื่องจากคุณ "ใช้" ข้อมูลทั้งหมดในการกำหนดพารามิเตอร์ P0) และคุณมีความคาดหวังที่สมเหตุสมผลว่าจะดำเนินการในอนาคต ข้อมูลเหมือนกับรุ่นอื่น ๆ (P1, P2 ... ) ที่สร้างขึ้นโดยใช้ขั้นตอนเดียวกันได้
ถ้าคุณไม่ได้ทำการตรวจสอบความถูกต้องแบบ cross-boot หรือ bootstrap (bootstrap นั้นค่อนข้างซับซ้อนกว่าที่จะอธิบาย - ฉันปล่อยมันไปจากการสนทนานี้)? จะเกิดอะไรขึ้นถ้าคุณดำเนินการเรียนรู้ / ตรวจสอบแยกเดียวและวัดข้อผิดพลาดได้หนึ่งชุด จากนั้นข้อโต้แย้งที่ 2 อาจจะค่อนข้างถูกต้อง แต่คุณมีปัญหาที่ใหญ่กว่า - คุณมีข้อผิดพลาดเพียงรูปแบบเดียวเท่านั้นและคุณไม่ทราบว่าข้อผิดพลาดนั้นขึ้นอยู่กับข้อมูลที่ใช้ในการตรวจสอบความถูกต้องหรือไม่ อาจโชคดีที่ชุดการตรวจสอบความถูกต้อง 20% ของคุณนั้นง่ายต่อการคาดเดาเป็นพิเศษ ไม่ได้ทำการวัดข้อผิดพลาดหลายครั้งจะมีความเสี่ยงมากที่จะคิดว่าอัตราความผิดพลาดที่คาดหวังของแบบจำลองการทำนายของคุณจะยังคงเหมือนเดิมสำหรับข้อมูลในอนาคต
"ความเสี่ยงที่ใหญ่กว่า" ข้อใด สมมติว่าข้อผิดพลาดนั้นจะยังคงเหมือนเดิมสำหรับข้อมูลในอนาคตหรือสมมติว่าการเพิ่มข้อมูลเพิ่มเติมเพื่อเรียนรู้แบบจำลองของคุณจะทำให้ "ผิดพลาด" แบบจำลองและเพิ่มอัตราข้อผิดพลาดในอนาคตหรือไม่ ฉันไม่รู้วิธีตอบคำถามนี้จริง ๆ แต่ฉันจะสงสัยรุ่นที่แย่กว่าเดิมด้วยข้อมูลเพิ่มเติม ....