โฮลด์เอาท์มักจะใช้คำพ้องกับการตรวจสอบกับชุดทดสอบอิสระแม้ว่าจะมีความแตกต่างที่สำคัญระหว่างการแยกข้อมูลแบบสุ่มและการออกแบบการทดสอบการตรวจสอบสำหรับการทดสอบอิสระ
ชุดทดสอบอิสระสามารถใช้ในการวัดประสิทธิภาพของการวางนัยทั่วไปที่ไม่สามารถวัดได้โดยการตรวจสอบความถูกต้องซ้ำหรือการระงับซ้ำเช่นประสิทธิภาพสำหรับกรณีที่ไม่รู้จักในอนาคต (= รายที่วัดภายหลังภายหลังการฝึกอบรมเสร็จสิ้น) สิ่งนี้มีความสำคัญเพื่อที่จะทราบว่าแบบจำลองที่มีอยู่สามารถใช้กับข้อมูลใหม่ได้นานแค่ไหน โดยทั่วไปสิ่งนี้อาจอธิบายได้ว่าเป็นการวัดประสิทธิภาพของการอนุมานเพื่อกำหนดขอบเขตของการบังคับใช้
อีกสถานการณ์หนึ่งที่การค้างเอาไว้มีประโยชน์จริง ๆ คือ: มันง่ายมากที่จะให้แน่ใจว่าข้อมูลการฝึกอบรมและการทดสอบนั้นถูกแยกออกจากกันอย่างเหมาะสม
- ตัดสินใจแยก (เช่นทำการสุ่มกรณี)
- วัด
- ข้อมูลการวัดและการอ้างอิงของกรณีการฝึกอบรม => การสร้างแบบจำลอง \ การวัดและการอ้างอิงของกรณีทดสอบจะไม่ถูกส่งมอบให้กับบุคคลที่เป็นแบบจำลอง
- รุ่นสุดท้าย + การวัดของคดีที่ถูกระงับ => การทำนาย
- เปรียบเทียบการคาดการณ์กับการอ้างอิงสำหรับกรณีที่ถูกระงับ
ขึ้นอยู่กับระดับของการแยกที่คุณต้องการแต่ละขั้นตอนอาจทำโดยคนอื่น ในระดับแรกการไม่ส่งข้อมูลใด ๆ (ไม่ใช่แม้แต่การวัด) ของกรณีทดสอบแก่ผู้สร้างแบบจำลองช่วยให้มั่นใจได้อย่างมากว่าไม่มีการทดสอบข้อมูลรั่วไหลในกระบวนการสร้างแบบจำลอง ในระดับที่สองรูปแบบสุดท้ายและการวัดกรณีทดสอบสามารถส่งมอบให้กับคนอื่นและอื่น ๆ
ใช่คุณจ่ายโดยการลดประสิทธิภาพการประมาณการที่ถือออกเมื่อเทียบกับการตรวจสอบการสุ่มตัวอย่างอีกครั้ง แต่ฉันเคยเห็นเอกสารหลายฉบับที่ฉันสงสัยว่าการตรวจสอบความถูกต้องของการสุ่มตัวอย่างไม่ได้แยกกรณีอย่างเหมาะสม (ในสาขาของฉันเรามีข้อมูลจำนวนมากแบบกลุ่ม / ลำดับชั้น / จัดกลุ่ม)
ฉันได้เรียนรู้บทเรียนเกี่ยวกับการรั่วไหลของข้อมูลสำหรับการสุ่มใหม่โดยการถอนต้นฉบับหนึ่งสัปดาห์หลังจากส่งเมื่อฉันพบว่าฉันมีการตรวจสอบการรั่วไหล (โดยใช้การทดสอบการเปลี่ยนแปลงด้านข้าง) ก่อนหน้านี้ในขั้นตอนการแยก
บางครั้งการระงับอาจมีประสิทธิภาพมากกว่าการค้นหาคนที่เต็มใจใส่เวลาเพื่อตรวจสอบรหัสการสุ่มตัวอย่างใหม่ (เช่นสำหรับข้อมูลกลุ่ม) เพื่อให้ได้ความมั่นใจในระดับเดียวกันกับผลลัพธ์ อย่างไรก็ตาม IMHO โดยปกติแล้วจะไม่มีประสิทธิภาพในการทำสิ่งนี้ก่อนที่คุณจะอยู่ในขั้นตอนที่คุณต้องการวัดเช่นประสิทธิภาพในอนาคต (จุดแรก) - กล่าวอีกนัยหนึ่งเมื่อคุณจำเป็นต้องตั้งค่าการทดสอบการตรวจสอบสำหรับแบบจำลองที่มีอยู่
OTOH ในสถานการณ์ขนาดตัวอย่างขนาดเล็กไม่มีทางเลือก: คุณจำเป็นต้องมีกรณีทดสอบเพียงพอเพื่อให้ผลการทดสอบมีความแม่นยำเพียงพอที่จะให้ข้อสรุปที่จำเป็น (จำ: 3 กรณีทดสอบที่ถูกต้องจาก 3 ประเภทสำหรับการจำแนกประเภทหมายถึง Binomial ช่วงความเชื่อมั่น 95% ที่อยู่ต่ำกว่าการคาดเดา 50:50!) Frank Harrell จะชี้ไปที่กฎง่ายๆที่อย่างน้อยแคลิฟอร์เนีย กรณีทดสอบ 100 รายการจำเป็นต้องมีการวัดสัดส่วนอย่างเหมาะสม [เช่นส่วนของกรณีที่คาดการณ์ถูกต้อง] ด้วยความแม่นยำที่มีประโยชน์
อัปเดต: มีสถานการณ์ที่การแยกที่เหมาะสมนั้นทำได้ยากโดยเฉพาะและการตรวจสอบข้ามไม่สามารถทำได้ พิจารณาปัญหาที่เกิดขึ้นกับคู่สนทนาจำนวนหนึ่ง การแยกเป็นเรื่องง่ายถ้า Confounders เหล่านี้ซ้อนกันอย่างเข้มงวด (เช่นการศึกษากับผู้ป่วยจำนวนมากมีตัวอย่างหลายรายของผู้ป่วยแต่ละรายและวิเคราะห์จำนวนเซลล์ของแต่ละตัวอย่าง): คุณแยกระดับสูงสุดของลำดับการสุ่มตัวอย่าง (ผู้ป่วยที่ฉลาด) . แต่คุณอาจมี confounders อิสระที่ไม่ซ้อนกันเช่นรูปแบบวันต่อวันหรือความแปรปรวนที่เกิดจากการทดสอบที่แตกต่างกันทำงาน จากนั้นคุณต้องตรวจสอบให้แน่ใจว่าการแยกเป็นอิสระสำหรับทุกคนConfounders ในระดับสูงสุด (Confounders ที่ซ้อนกันจะเป็นอิสระโดยอัตโนมัติ) การดูแลเรื่องนี้เป็นเรื่องยากมากหากมีคนระบุว่ามีคนสับสนระหว่างการศึกษาและการออกแบบและดำเนินการทดสอบการตรวจสอบอาจมีประสิทธิภาพมากกว่าการจัดการกับรอยแยกที่แทบไม่มีข้อมูลใด ๆ เลยสำหรับการฝึกอบรมหรือการทดสอบแบบจำลองตัวแทน