การตรวจสอบแบบโฮลด์เอ้าท์เป็นการประมาณที่ดีกว่าสำหรับการรับข้อมูลใหม่กว่า k-fold CV หรือไม่?

ฉันคิดทบทวนคำตอบอีกครั้งเมื่อสองสามสัปดาห์ที่แล้ว

การตรวจสอบความถูกต้องไขว้ของ Hold-out สร้างชุดการทดสอบเดี่ยวที่สามารถใช้ซ้ำ ๆ เพื่อสาธิตได้ เราทุกคนต่างก็เห็นด้วยว่านี่เป็นคุณลักษณะเชิงลบหลายประการเนื่องจากชุดที่ถูกชูไว้อาจกลายเป็นตัวแทนที่ไม่ใช่แบบสุ่มได้ ยิ่งไปกว่านั้นคุณสามารถสรุปข้อมูลการทดสอบในแบบเดียวกับที่คุณสามารถประเมินข้อมูลการฝึกอบรมได้

อย่างไรก็ตามสำหรับฉันแล้วดูเหมือนว่าลักษณะคงที่ของตัวอย่างที่ถูกจัดเก็บออกมานั้นเป็นการประมาณที่ดีกว่าในการ "รับข้อมูลเพิ่มเติม" กว่า k-fold CV และหลีกเลี่ยงปัญหาการเฉลี่ยข้ามครึ่ง อย่างไรก็ตามฉันไม่สามารถคิดสถิติพื้นฐานสำหรับความรู้สึกนี้ได้ มีเหตุผลอะไรบ้างในสัญชาตญาณของฉัน

ตัวอย่างเช่นสิ่งที่ฉันมีอยู่ในใจสำหรับโครงการที่จะเกิดขึ้นเป็นครั้งแรกโดยใช้การตรวจสอบความถูกต้องในการสร้างและทดสอบแบบจำลองจากนั้นเป็นขั้นตอนการตรวจสอบความถูกต้องอีกครั้งการวาดภาพที่ค้างไว้ตั้งหลายครั้ง ในชุดทดสอบ) มีความทนทานต่อการสุ่มตัวอย่างข้อผิดพลาดในชุดทดสอบ นี่เป็นความคิดที่ดีไม่ว่าด้วยเหตุผลใด ๆ คำถามนี้ถูกถามมาก่อนแต่ไม่เคยได้รับคำตอบ

cross-validation

— shadowtalker
แหล่งที่มา

IMHO หนึ่งในคุณสมบัติที่เลวร้ายที่สุดของการตรวจสอบความถูกต้องของการค้างชำระคือด้านจิตวิทยามากกว่าทางสถิติ: ฉันเห็นจำนวนมากของการระงับซึ่งแปลว่าราวกับว่าเป็นการทดสอบการตรวจสอบความเป็นอิสระ (ด้วยความเป็นอิสระในระดับการทดลอง) ปัญหาสำคัญที่ฉันเห็นเมื่อมีการตรวจสอบความถูกต้องของ resampling อีกครั้งและจะเกิดขึ้นเช่นเดียวกันกับการระงับ (เช่นปัญหาใด ๆ ที่เกิดจากการแยกที่ไม่เหมาะสม)

นอกเหนือจากนั้น IMHO ก็เกือบจะเหมือนกับ resampling (อย่างน้อยก็เหมือนที่ฉันเคยเห็นในทางปฏิบัติแล้ว) ความแตกต่างคือ

จำนวนรวมของกรณีทดสอบที่แตกต่างกันจริง ๆ ต่ำกว่า (และดังนั้นการประเมินจึงมีความแน่นอนน้อยกว่า)
ด้วยการระงับการใช้งานประสิทธิภาพจะถูกอ้างสิทธิ์สำหรับแบบจำลองที่ทดสอบจริงไม่ใช่แบบจำลองที่ยังไม่ผ่านการทดสอบจริงซึ่งสร้างขึ้นจาก traing แบบดึงออกรวมกับข้อมูลการทดสอบแบบดึงออก การ Resampling ใหม่อ้างว่าประสิทธิภาพที่วัดได้นั้นเป็นค่าประมาณที่ดีสำหรับประสิทธิภาพของรุ่นหลัง แต่ฉันก็ได้เห็นวิธีการระงับใช้วิธีนี้ ("การตรวจสอบความถูกต้อง")

Esbensen และ Geladi: หลักการของการตรวจสอบความถูกต้อง: การใช้และการใช้ซ้ำตัวอย่างสำหรับการตรวจสอบความถูกต้อง, วารสารเคมี, 24 (3-4), 168-187ระบุว่าในทางปฏิบัติทั้งสองไม่ดีประมาณสำหรับชุดข้อมูล (การตรวจสอบ การทดลอง) ที่อนุญาตให้วัดคุณลักษณะประสิทธิภาพที่น่าสนใจจริงๆ

คุณสามารถสรุปข้อมูลการทดสอบได้ในลักษณะเดียวกับที่คุณสามารถประเมินข้อมูลการฝึกอบรมได้มากเกินไป

เช่นเดียวกับการตรวจสอบความถูกต้องอื่น ๆ : หากคุณทำการเลือกโมเดล / โมเดลที่ขับเคลื่อนด้วยข้อมูลจำเป็นต้องมีการตรวจสอบระดับอิสระอีกระดับหนึ่ง ฉันไม่เห็นความแตกต่างใด ๆ ระหว่างการพักและการเปลี่ยนรูปแบบใหม่

ครั้งแรกที่ใช้การตรวจสอบความถูกต้องของการค้างเพื่อสร้างและทดสอบแบบจำลองจากนั้นเป็นขั้นตอนการตรวจสอบความถูกต้องอีกครั้งการวาดการตั้งค่าที่ค้างไว้หลายครั้งเพื่อแสดงให้เห็นว่าการประเมินข้อผิดพลาดการคาดคะเนของฉัน ชุด นี่เป็นความคิดที่ดีไม่ว่าด้วยเหตุผลใด ๆ

ฉันคิดว่าใช่: IMHO ควรใช้การตั้งค่าแบบซ้อน
(เว้นแต่คุณต้องการแนะนำว่าการตรวจสอบความถูกต้องของการระงับสามารถทำได้และควรทำซ้ำเช่นกัน - นั่นเป็นวิธีการที่ถูกต้องซึ่งแตกต่างจากการตรวจสอบความถูกต้องซ้ำ : คำแถลงเกี่ยวกับประสิทธิภาพนั้นเกี่ยวกับแบบจำลองที่ได้รับการทดสอบจริง ๆ หลายตัวหรือไม่และคาดการณ์ว่าเป็นโมเดลหนึ่งที่สร้างขึ้นจากข้อมูลทั้งหมดหรือไม่

— cbeleites ไม่มีความสุขกับ SX
แหล่งที่มา