ผมอยากแนะนำให้มีลักษณะที่ "7.10.2 ผิดและวิธีที่จะทำข้ามการตรวจสอบ" ในhttp://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf
ผู้เขียนให้ตัวอย่างที่มีคนทำต่อไปนี้:
- คัดกรองตัวทำนาย: ค้นหาชุดย่อยของตัวทำนาย "ดี" ที่แสดงความสัมพันธ์ที่ค่อนข้างแข็งแกร่ง (univariate) ที่มีความสัมพันธ์กับเลเบลของคลาส
- ใช้ตัวทำนายย่อยเพียงชุดเดียวเท่านั้นสร้างตัวแยกประเภทหลายตัวแปร
- ใช้การตรวจสอบความถูกต้องข้ามเพื่อประมาณค่าพารามิเตอร์การปรับค่าที่ไม่รู้จักและเพื่อประเมินข้อผิดพลาดการทำนายของรุ่นสุดท้าย
สิ่งนี้ฟังดูคล้ายกับการทำ EDA ทั้งหมด (เช่นการฝึกอบรมและการทดสอบ) ของข้อมูลของคุณและการใช้ EDA เพื่อเลือกตัวทำนาย "ดี"
ผู้เขียนอธิบายว่าทำไมสิ่งนี้จึงเป็นปัญหา: อัตราความผิดพลาดข้ามการตรวจสอบจะต่ำมากซึ่งอาจทำให้คุณเข้าใจผิดคิดว่าคุณได้พบแบบจำลองที่ดี