IMHO หนึ่งในคุณสมบัติที่เลวร้ายที่สุดของการตรวจสอบความถูกต้องของการค้างชำระคือด้านจิตวิทยามากกว่าทางสถิติ: ฉันเห็นจำนวนมากของการระงับซึ่งแปลว่าราวกับว่าเป็นการทดสอบการตรวจสอบความเป็นอิสระ (ด้วยความเป็นอิสระในระดับการทดลอง) ปัญหาสำคัญที่ฉันเห็นเมื่อมีการตรวจสอบความถูกต้องของ resampling อีกครั้งและจะเกิดขึ้นเช่นเดียวกันกับการระงับ (เช่นปัญหาใด ๆ ที่เกิดจากการแยกที่ไม่เหมาะสม)
นอกเหนือจากนั้น IMHO ก็เกือบจะเหมือนกับ resampling (อย่างน้อยก็เหมือนที่ฉันเคยเห็นในทางปฏิบัติแล้ว) ความแตกต่างคือ
- จำนวนรวมของกรณีทดสอบที่แตกต่างกันจริง ๆ ต่ำกว่า (และดังนั้นการประเมินจึงมีความแน่นอนน้อยกว่า)
- ด้วยการระงับการใช้งานประสิทธิภาพจะถูกอ้างสิทธิ์สำหรับแบบจำลองที่ทดสอบจริงไม่ใช่แบบจำลองที่ยังไม่ผ่านการทดสอบจริงซึ่งสร้างขึ้นจาก traing แบบดึงออกรวมกับข้อมูลการทดสอบแบบดึงออก การ Resampling ใหม่อ้างว่าประสิทธิภาพที่วัดได้นั้นเป็นค่าประมาณที่ดีสำหรับประสิทธิภาพของรุ่นหลัง แต่ฉันก็ได้เห็นวิธีการระงับใช้วิธีนี้ ("การตรวจสอบความถูกต้อง")
Esbensen และ Geladi: หลักการของการตรวจสอบความถูกต้อง: การใช้และการใช้ซ้ำตัวอย่างสำหรับการตรวจสอบความถูกต้อง, วารสารเคมี, 24 (3-4), 168-187ระบุว่าในทางปฏิบัติทั้งสองไม่ดีประมาณสำหรับชุดข้อมูล (การตรวจสอบ การทดลอง) ที่อนุญาตให้วัดคุณลักษณะประสิทธิภาพที่น่าสนใจจริงๆ
คุณสามารถสรุปข้อมูลการทดสอบได้ในลักษณะเดียวกับที่คุณสามารถประเมินข้อมูลการฝึกอบรมได้มากเกินไป
เช่นเดียวกับการตรวจสอบความถูกต้องอื่น ๆ : หากคุณทำการเลือกโมเดล / โมเดลที่ขับเคลื่อนด้วยข้อมูลจำเป็นต้องมีการตรวจสอบระดับอิสระอีกระดับหนึ่ง ฉันไม่เห็นความแตกต่างใด ๆ ระหว่างการพักและการเปลี่ยนรูปแบบใหม่
ครั้งแรกที่ใช้การตรวจสอบความถูกต้องของการค้างเพื่อสร้างและทดสอบแบบจำลองจากนั้นเป็นขั้นตอนการตรวจสอบความถูกต้องอีกครั้งการวาดการตั้งค่าที่ค้างไว้หลายครั้งเพื่อแสดงให้เห็นว่าการประเมินข้อผิดพลาดการคาดคะเนของฉัน ชุด นี่เป็นความคิดที่ดีไม่ว่าด้วยเหตุผลใด ๆ
ฉันคิดว่าใช่: IMHO ควรใช้การตั้งค่าแบบซ้อน
(เว้นแต่คุณต้องการแนะนำว่าการตรวจสอบความถูกต้องของการระงับสามารถทำได้และควรทำซ้ำเช่นกัน - นั่นเป็นวิธีการที่ถูกต้องซึ่งแตกต่างจากการตรวจสอบความถูกต้องซ้ำ : คำแถลงเกี่ยวกับประสิทธิภาพนั้นเกี่ยวกับแบบจำลองที่ได้รับการทดสอบจริง ๆ หลายตัวหรือไม่และคาดการณ์ว่าเป็นโมเดลหนึ่งที่สร้างขึ้นจากข้อมูลทั้งหมดหรือไม่