เมื่อสร้างแบบจำลองการถดถอยโดยใช้ชุดการสร้างแบบจำลอง / การตรวจสอบความถูกต้องแยกเป็นสัดส่วนแล้วมันเหมาะสมหรือไม่ที่จะ "หมุนเวียน" ข้อมูลการตรวจสอบความถูกต้อง?

สมมติว่าฉันมีการแบ่ง 80/20 ระหว่างการสร้างแบบจำลอง / การตรวจสอบความถูกต้อง ฉันพอดีกับแบบจำลองกับชุดข้อมูลการสร้างแบบจำลองและฉันพอใจกับข้อผิดพลาดที่ฉันเห็นในชุดข้อมูลการตรวจสอบความถูกต้อง ก่อนที่ฉันจะนำเสนอโมเดลของฉันสำหรับการทำคะแนนการสังเกตการณ์ในอนาคตมีความเหมาะสมหรือไม่ที่จะรวมการตรวจสอบกลับกับข้อมูลการสร้างแบบจำลองเพื่อรับการประมาณค่าพารามิเตอร์ที่อัปเดตกับข้อมูล 100% ฉันได้ยินสองมุมมองเกี่ยวกับเรื่องนี้:

การตรวจสอบความถูกต้องที่ฉันดำเนินการคือการตรวจสอบความถูกต้องของโครงสร้างแบบจำลองนั่นคือชุดของตัวทำนายและการแปลงที่ฉันใช้ มันไม่สมเหตุสมผลเลยที่จะทิ้งข้อมูล 20% ของฉันไว้ในตารางเมื่อฉันสามารถใช้เพื่อปรับปรุงการประมาณของฉัน
การตรวจสอบความถูกต้องที่ฉันดำเนินการส่วนหนึ่งเป็นการตรวจสอบความถูกต้องของพารามิเตอร์ประมาณการที่ฉันคำนวณในชุดข้อมูลการสร้างแบบจำลองของฉัน หากฉันอัปเดตโมเดลพอดีฉันได้เปลี่ยนค่าประมาณและฉันไม่มีวิธีที่มีวัตถุประสงค์เพื่อทดสอบประสิทธิภาพของโมเดลที่อัปเดตแล้ว

ฉันเคยตามอาร์กิวเมนต์ # 1 เสมอ แต่ไม่นานมานี้ฉันได้ยินคนหลายคนโต้แย้ง # 2 ฉันต้องการที่จะเห็นสิ่งที่คนอื่นคิดเกี่ยวกับเรื่องนี้ คุณเคยเห็นการสนทนาที่ดีในวรรณคดีหรือที่อื่น ๆ ในหัวข้อนี้หรือไม่?

regression predictive-models validation

— DavidLiebeHart
แหล่งที่มา

ตัวเลือกที่ 1 คือสิ่งที่ถูกต้อง คุณสามารถเพิ่มชุดข้อมูลการตรวจสอบความถูกต้องเพื่ออัพเดทพารามิเตอร์ของแบบจำลองของคุณ

นั่นคือคำตอบ ตอนนี้ให้เราคุยกัน ความจริงที่ว่าสิ่งที่คุณทำคือตัวเลือกที่ 1 ของคุณนั้นชัดเจนกว่าถ้าคุณทำการตรวจสอบความถูกต้องแบบข้ามส่วนของ k-fold (และคุณควรทำอย่างนั้น - มันไม่ชัดเจนจากคำถามของคุณ)

ในการตรวจสอบไขว้ 5 เท่าคุณแบ่งข้อมูลที่คุณมีเป็นชุดสุ่มขนาดเท่ากัน 5 ชุด ให้เราเรียกพวกเขาว่า A, B, C, D และ E จากนั้นคุณเรียนรู้พารามิเตอร์ของแบบจำลองของคุณ (ของแบบจำลองตัวเอง) ใน 4 ชุดพูด A, B, C และ D และทดสอบหรือตรวจสอบมันใน รุ่นที่ห้า E (สิ่งนี้คุณทำ) แต่จากนั้นคุณเลือกชุดอื่นเป็นการทดสอบ / การตรวจสอบความถูกต้อง (พูด D) และเรียนรู้การใช้อีก 4 (A, B, C และ E) ทดสอบบน D ทำซ้ำ

ข้อผิดพลาดที่คุณคาดการณ์โมเดลของคุณคือข้อผิดพลาดโดยเฉลี่ยของการทดสอบ 5 ข้อ - และคุณมีความเข้าใจว่าข้อผิดพลาดการทำนายขึ้นอยู่กับชุดการเรียนและการทดสอบอย่างไร ในสถานการณ์กรณีที่ดีที่สุดข้อผิดพลาดทั้ง 5 ข้อมีความคล้ายคลึงกันและคุณสามารถมั่นใจได้ว่าโมเดลของคุณจะทำงานในระดับนั้นในอนาคต

แต่รุ่นอะไร ?? สำหรับชุดการเรียนรู้แต่ละชุดคุณจะมีพารามิเตอร์ที่แตกต่างกันสำหรับโมเดล การเรียนรู้ด้วย A, B, C, D สร้างชุดพารามิเตอร์ P1, การเรียนรู้ด้วย A, B, C, E, ชุดพารามิเตอร์ P2, สูงถึง P5 ไม่มีพวกเขาเป็นแบบจำลองของคุณ

สิ่งที่คุณทดสอบคือข้อผิดพลาดที่คาดหวังของโพรซีเดอร์ในการสร้างแบบจำลองโพรซีเดอร์ที่คุณติดตามเมื่อชุดการเรียนรู้คือ A, B, C, D และเมื่อมันคือ A, B, C, E และอื่น ๆ เป็นขั้นตอนนี้ที่สร้างแบบจำลองที่มีข้อผิดพลาดที่คาดไว้

ดังนั้นรุ่นสุดท้ายคืออะไร? มันเป็นแอพพลิเคชั่นของขั้นตอนในข้อมูลทั้งหมดที่คุณมี (A, B, C, D และ E) โมเดลใหม่ที่มีชุดพารามิเตอร์ P0 ซึ่งคุณไม่เคยสร้างมาก่อนคุณไม่มีข้อมูลที่จะทดสอบ (เนื่องจากคุณ "ใช้" ข้อมูลทั้งหมดในการกำหนดพารามิเตอร์ P0) และคุณมีความคาดหวังที่สมเหตุสมผลว่าจะดำเนินการในอนาคต ข้อมูลเหมือนกับรุ่นอื่น ๆ (P1, P2 ... ) ที่สร้างขึ้นโดยใช้ขั้นตอนเดียวกันได้

ถ้าคุณไม่ได้ทำการตรวจสอบความถูกต้องแบบ cross-boot หรือ bootstrap (bootstrap นั้นค่อนข้างซับซ้อนกว่าที่จะอธิบาย - ฉันปล่อยมันไปจากการสนทนานี้)? จะเกิดอะไรขึ้นถ้าคุณดำเนินการเรียนรู้ / ตรวจสอบแยกเดียวและวัดข้อผิดพลาดได้หนึ่งชุด จากนั้นข้อโต้แย้งที่ 2 อาจจะค่อนข้างถูกต้อง แต่คุณมีปัญหาที่ใหญ่กว่า - คุณมีข้อผิดพลาดเพียงรูปแบบเดียวเท่านั้นและคุณไม่ทราบว่าข้อผิดพลาดนั้นขึ้นอยู่กับข้อมูลที่ใช้ในการตรวจสอบความถูกต้องหรือไม่ อาจโชคดีที่ชุดการตรวจสอบความถูกต้อง 20% ของคุณนั้นง่ายต่อการคาดเดาเป็นพิเศษ ไม่ได้ทำการวัดข้อผิดพลาดหลายครั้งจะมีความเสี่ยงมากที่จะคิดว่าอัตราความผิดพลาดที่คาดหวังของแบบจำลองการทำนายของคุณจะยังคงเหมือนเดิมสำหรับข้อมูลในอนาคต

"ความเสี่ยงที่ใหญ่กว่า" ข้อใด สมมติว่าข้อผิดพลาดนั้นจะยังคงเหมือนเดิมสำหรับข้อมูลในอนาคตหรือสมมติว่าการเพิ่มข้อมูลเพิ่มเติมเพื่อเรียนรู้แบบจำลองของคุณจะทำให้ "ผิดพลาด" แบบจำลองและเพิ่มอัตราข้อผิดพลาดในอนาคตหรือไม่ ฉันไม่รู้วิธีตอบคำถามนี้จริง ๆ แต่ฉันจะสงสัยรุ่นที่แย่กว่าเดิมด้วยข้อมูลเพิ่มเติม ....

— Jacques Wainer
แหล่งที่มา