8
ฉันจะช่วยให้มั่นใจได้อย่างไรว่าข้อมูลการทดสอบไม่รั่วไหลไปสู่ข้อมูลการฝึกอบรม?
สมมติว่าเรามีใครบางคนกำลังสร้างแบบจำลองการทำนาย แต่บางคนไม่จำเป็นต้องมีความรอบรู้ในหลักการทางสถิติหรือการเรียนรู้ของเครื่องที่เหมาะสม บางทีเราอาจช่วยคน ๆ นั้นขณะที่พวกเขากำลังเรียนรู้หรือบางทีคนนั้นก็กำลังใช้แพคเกจซอฟต์แวร์บางประเภทที่ต้องการความรู้น้อยที่สุดในการใช้งาน ตอนนี้บุคคลนี้อาจจำได้ดีว่าการทดสอบจริงมาจากความถูกต้อง (หรืออะไรก็ตามที่วัดอื่น ๆ ) จากข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง อย่างไรก็ตามความกังวลของฉันคือมีจำนวนมากรายละเอียดย่อยที่ต้องกังวลเกี่ยวกับ ในกรณีที่ง่ายพวกเขาสร้างแบบจำลองของพวกเขาและประเมินบนข้อมูลการฝึกอบรมและประเมินบนข้อมูลการทดสอบที่จัดขึ้น น่าเสียดายที่บางครั้งมันง่ายเกินไปที่จะย้อนกลับไปและปรับแต่งพารามิเตอร์การสร้างแบบจำลองและตรวจสอบผลลัพธ์ในข้อมูล "การทดสอบ" เดียวกันนั้น ณ จุดนี้ข้อมูลไม่ได้เป็นข้อมูลนอกตัวอย่างที่แท้จริงอีกต่อไปและการมีน้ำหนักเกินอาจกลายเป็นปัญหาได้ วิธีหนึ่งที่เป็นไปได้ในการแก้ไขปัญหานี้คือการแนะนำให้สร้างชุดข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างจำนวนมากซึ่งชุดทดสอบแต่ละชุดสามารถถูกทิ้งหลังการใช้งานและไม่ได้นำมาใช้ซ้ำเลย วิธีนี้ต้องใช้การจัดการข้อมูลจำนวนมากโดยเฉพาะอย่างยิ่งการแยกที่ต้องทำก่อนการวิเคราะห์ (ดังนั้นคุณจะต้องรู้จำนวนการแยกก่อนล่วงหน้า) บางทีวิธีการทั่วไปที่มากขึ้นก็คือการตรวจสอบความถูกต้องด้วย k-fold อย่างไรก็ตามในบางแง่ที่สูญเสียความแตกต่างระหว่างชุดข้อมูล "การฝึกอบรม" และ "การทดสอบ" ที่ฉันคิดว่าจะมีประโยชน์โดยเฉพาะอย่างยิ่งกับผู้ที่ยังคงเรียนรู้ นอกจากนี้ฉันไม่มั่นใจว่าสิ่งนี้เหมาะสมสำหรับแบบจำลองการทำนายทุกประเภท มีวิธีที่ฉันมองข้ามเพื่อช่วยเอาชนะปัญหาการ overfitting และการทดสอบการรั่วไหลในขณะที่ยังคงค่อนข้างชัดเจนกับผู้ใช้ที่ไม่มีประสบการณ์?