การตรวจสอบความถูกต้องด้วย k-fold มีความเหมาะสมกับบริบทของชุดฝึกอบรม / ตรวจสอบ / ตรวจสอบได้อย่างไร


14

คำถามหลักของฉันคือการพยายามเข้าใจว่าการตรวจสอบข้าม k-fold เหมาะสมกับบริบทของการมีชุดฝึกอบรม / ตรวจสอบ / ทดสอบได้อย่างไร (ถ้าเหมาะสมในบริบทดังกล่าว)

โดยทั่วไปแล้วผู้คนพูดถึงการแยกข้อมูลออกเป็นชุดฝึกอบรมการตรวจสอบความถูกต้องและการทดสอบ - พูดในอัตราส่วน 60/20/20 ต่อหลักสูตรของ Andrew Ng โดยชุดการตรวจสอบจะใช้เพื่อระบุพารามิเตอร์ที่เหมาะสมสำหรับการฝึกอบรมแบบจำลอง

อย่างไรก็ตามหากต้องการใช้การตรวจสอบความถูกต้องข้ามแบบพับของ k-fold โดยหวังว่าจะได้รับการวัดความแม่นยำของตัวแทนมากขึ้นเมื่อปริมาณข้อมูลมีขนาดค่อนข้างเล็กสิ่งที่การตรวจสอบความถูกต้องไขว้แบบ k-fold นั้น สถานการณ์?

ตัวอย่างเช่นนั่นหมายความว่าเราจะรวมชุดการฝึกอบรมและการทดสอบจริง ๆ (80% ของข้อมูล) และทำการตรวจสอบความถูกต้องด้วย k-fold เพื่อให้ได้การวัดความถูกต้องของเรา (ทิ้งอย่างมีประสิทธิภาพด้วยชุดทดสอบ ถ้าเป็นเช่นนั้นเราใช้โมเดล a) ในการผลิตและ b) เพื่อใช้กับชุดการตรวจสอบความถูกต้องและระบุพารามิเตอร์การฝึกอบรมที่เหมาะสมที่สุด? ตัวอย่างเช่นคำตอบหนึ่งที่เป็นไปได้สำหรับ a และ b อาจใช้โมเดลที่ดีที่สุด

คำตอบ:


12

การตรวจสอบข้ามมักจะช่วยหลีกเลี่ยงความต้องการของชุดการตรวจสอบ

แนวคิดพื้นฐานที่มีชุดข้อมูลการฝึกอบรม / ตรวจสอบ / ทดสอบมีดังนี้:

  1. การฝึกอบรม: คุณลองใช้แบบจำลองต่างๆที่มีตัวเลือกไฮเปอร์พารามิเตอร์ต่าง ๆบนข้อมูลการฝึกอบรม (เช่นตัวแบบเชิงเส้นที่มีคุณสมบัติที่แตกต่างกันโครงข่ายประสาทที่มีตัวเลือกต่าง ๆ เลเยอร์ป่าสุ่มที่มีค่าต่างกัน)

  2. การตรวจสอบความถูกต้อง: คุณเปรียบเทียบประสิทธิภาพของรุ่นต่างๆในขั้นตอนที่ 1 ตามชุดการตรวจสอบความถูกต้องและเลือกผู้ชนะ สิ่งนี้ช่วยในการหลีกเลี่ยงการตัดสินใจผิดพลาดโดยการกำหนดชุดข้อมูลการฝึกอบรมมากเกินไป

  3. การทดสอบ: คุณลองรุ่นผู้ชนะในข้อมูลการทดสอบเพียงเพื่อให้ได้ความรู้สึกว่ามันมีประสิทธิภาพดีเพียงใดในความเป็นจริง วิธีการแก้ปัญหาการ overfitting ที่แนะนำในขั้นตอนที่ 2 ที่นี่คุณจะไม่ทำการตัดสินใจใด ๆ เพิ่มเติม มันเป็นเพียงข้อมูลธรรมดา

ตอนนี้ในกรณีที่คุณแทนที่ขั้นตอนการตรวจสอบโดยการตรวจสอบข้ามการโจมตีของข้อมูลเกือบจะเหมือนกัน แต่คุณมีการฝึกอบรมและชุดข้อมูลทดสอบเท่านั้น ไม่จำเป็นต้องมีชุดข้อมูลการตรวจสอบความถูกต้อง

  1. การฝึกอบรม: ดูด้านบน

  2. การตรวจสอบความถูกต้อง: คุณทำการตรวจสอบความถูกต้องของข้อมูลการฝึกอบรมเพื่อเลือกรูปแบบที่ดีที่สุดของขั้นตอนที่ 1 เกี่ยวกับประสิทธิภาพการตรวจสอบข้ามความถูกต้อง (ที่นี่ข้อมูลการฝึกอบรมเดิมจะแบ่งเป็นชุดการฝึกอบรมชั่วคราว แบบจำลองที่คำนวณจากการตรวจสอบข้ามจะใช้สำหรับการเลือกแบบจำลองที่ดีที่สุดของขั้นตอนที่ 1 ซึ่งคำนวณทั้งหมดในชุดฝึกอบรมเต็มรูปแบบ

  3. ทดสอบ: ดูด้านบน


1
ขอบคุณ! เพื่อยืนยันในบริบทของ CV หนึ่งอาจมีการแบ่งการทดสอบ 80% เทียบกับการทดสอบ 20% จากนั้นหนึ่งอาจสร้างแบบจำลองที่ 80% ของข้อมูลและทดสอบกับ 20% เพื่อให้ได้ความถูกต้อง หากต้องการลองใช้รูปแบบที่แตกต่างกันเราสามารถทำ CV 10 เท่าบนชุดข้อมูลการฝึกอบรม (80% ของข้อมูล) - ฝึกอบรมได้อย่างมีประสิทธิภาพ 8% ของข้อมูลทั้งหมดและทดสอบกับ 72% ของข้อมูลทั้งหมดในแต่ละครั้ง จากผลลัพธ์ของ CV ผู้ใช้สามารถระบุค่าพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ดีที่สุดและใช้เพื่อสร้างแบบจำลองใหม่ที่ได้รับการฝึกอบรมในข้อมูลการฝึกอบรมทั้งหมด (80% ของชุดข้อมูลทั้งหมด) และทดสอบกับชุดทดสอบ 20% ที่เหลือ แก้ไข?
blu

3
ใช่ยกเว้นว่าในการทำงาน CV แต่ละครั้งคุณจะใช้ 72% สำหรับการฝึกอบรมและ 8% สำหรับการตรวจสอบ ;-)
Michael M

การตอบสนองที่ยอดเยี่ยม @MichaelM ฉันกำลังอ่านข้อมูลเกี่ยวกับการตรวจสอบความถูกต้องแบบซ้อน (NCV) ที่ซ้อนกันอยู่และฉันตัดสินใจยากว่าจะใช้หรือไม่หรือทำสิ่งที่คุณระบุไว้สำหรับประวัติย่อ และเพื่อให้ฉันเข้าใจมัน NCV จะถูกนำไปใช้กับขั้นตอนที่ 3 แทนที่จะได้คะแนนผู้ชนะ 1 คะแนนคุณจะได้รับคะแนนผู้ชนะ K (คูณจำนวนการวิ่งทั้งหมดด้วย K ขั้นตอนที่ 1-2 ซ้ำแล้วซ้ำอีกครั้งคูณด้วยข้อมูลรถไฟ 80%) ซึ่งคุณสามารถเฉลี่ยได้ ดังนั้นคำถาม: 1) ความเข้าใจของฉันถูกต้องหรือไม่ 2) แนะนำให้ใช้ NCV หรือไม่?
Aziz Javed

คุณพูดถูก CV ที่ซ้อนกันจะช่วยให้ได้รับการประมาณการที่เชื่อถือได้มากกว่าวิธี "แบบง่าย" ที่ระบุไว้ด้านบน หากอนุญาตให้เวลามันเป็นตัวเลือกที่แน่นอน คุณรู้หรือไม่ว่าชุดข้อมูลใดที่โมเดลสุดท้ายถูกคำนวณใน CV ที่ซ้อนกัน? เต็มรูปแบบหรือไม่
Michael M

3

K

การแยกการฝึกอบรม / การตรวจสอบ / การทดสอบเป็นกลยุทธ์การสุ่มตัวอย่าง

K

K-1

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.