การเลือกจำนวน K เท่าโดยพิจารณาจากกราฟการเรียนรู้
ผมอยากจะยืนยันว่าการเลือกจำนวนที่เหมาะสมของพับขึ้นอยู่มากในรูปร่างและตำแหน่งของเส้นโค้งการเรียนรู้ส่วนใหญ่เกิดจากผลกระทบต่ออคติ อาร์กิวเมนต์นี้ซึ่งรวมไปถึงประวัติย่อแบบลาออกส่วนใหญ่มาจากหนังสือ "องค์ประกอบของการเรียนรู้เชิงสถิติ" บทที่ 7.10 หน้า 243K
สำหรับการอภิปรายเกี่ยวกับผลกระทบของต่อความแปรปรวนดูที่นี่K
เพื่อสรุปหากเส้นโค้งการเรียนรู้มีความลาดชันมากตามขนาดชุดฝึกอบรมที่กำหนดการตรวจสอบข้ามแบบห้าหรือสิบเท่าจะประเมินค่าสูงกว่าข้อผิดพลาดการทำนายที่แท้จริง ความลำเอียงนี้เป็นข้อเสียเปรียบในทางปฏิบัติหรือไม่ขึ้นอยู่กับวัตถุประสงค์ ในทางกลับกันการตรวจสอบความถูกต้องแบบลาก่อนออกครั้งเดียวมีอคติต่ำ แต่มีความแปรปรวนสูง
การสร้างภาพข้อมูลที่ใช้งานง่ายโดยใช้ตัวอย่างของเล่น
เพื่อทำความเข้าใจเรื่องนี้ด้วยสายตาพิจารณาตัวอย่างของเล่นต่อไปนี้เมื่อเราปรับพหุนามดีกรี 4 เป็นเส้นโค้งไซน์ที่มีเสียงดัง:
เราคาดหวังว่าโมเดลนี้จะมีค่าใช้จ่ายไม่ดีสำหรับชุดข้อมูลขนาดเล็กเนื่องจากใช้งานเกินจริงและมองเห็นได้ พฤติกรรมนี้สะท้อนให้เห็นในกราฟการเรียนรู้ที่เราวางแผน Mean Square Error กับขนาดการฝึกอบรมพร้อมกับส่วนเบี่ยงเบนมาตรฐาน 1 โปรดทราบว่าฉันเลือกที่จะลงจุด 1 - MSE ที่นี่เพื่อทำซ้ำภาพประกอบที่ใช้ใน ESL หน้า 243±1−±
ถกเถียงเรื่องนี้
ประสิทธิภาพของตัวแบบปรับปรุงอย่างมีนัยสำคัญเมื่อขนาดการฝึกอบรมเพิ่มขึ้นถึง 50 ข้อสังเกต ยกตัวอย่างเช่นการเพิ่มจำนวนมากขึ้นเป็น 200 จะให้ประโยชน์เพียงเล็กน้อย พิจารณาสองกรณีต่อไปนี้:
หากชุดฝึกอบรมของเรามี 200 ข้อสังเกตการตรวจสอบข้ามพับจะประเมินผลการดำเนินงานในช่วงที่มีขนาดการฝึกอบรม 160 ซึ่งเป็นความจริงเช่นเดียวกับผลการดำเนินงานสำหรับการฝึกอบรมชุดขนาด 200 ดังนั้นการตรวจสอบข้ามจะไม่ต้องทนทุกข์ทรมานจากอคติมากและเพิ่มไป ค่าที่มากกว่าจะไม่ก่อให้เกิดประโยชน์มากนัก ( พล็อตซ้าย )เค5K
อย่างไรก็ตามหากชุดการฝึกอบรมมีการสังเกตครั้งการตรวจสอบข้ามแบบเท่าจะประเมินประสิทธิภาพของแบบจำลองผ่านชุดการฝึกอบรมขนาด 40 และจากช่วงการเรียนรู้สิ่งนี้จะนำไปสู่ผลลัพธ์ที่มีอคติ ดังนั้นการเพิ่มในกรณีนี้จะทำให้อคติลดลง ( พล็อตขวา )5 K505K
[อัพเดท] - ความคิดเห็นเกี่ยวกับวิธีการ
คุณสามารถค้นหารหัสสำหรับการจำลองนี้ที่นี่ วิธีการดังต่อไปนี้:
- สร้าง 50,000 จุดจากการกระจายที่แปรปรวนที่แท้จริงของเป็นที่รู้จักกันϵsin(x)+ϵϵ
- ทำซ้ำครั้ง (เช่น 100 หรือ 200 ครั้ง) ในการวนซ้ำแต่ละครั้งให้เปลี่ยนชุดข้อมูลโดยการสุ่มจุดจากการแจกแจงดั้งเดิมยังไม่มีข้อความiN
- สำหรับชุดข้อมูลแต่ละชุด :
i
- ดำเนินการตรวจสอบความถูกต้องข้าม K-fold สำหรับหนึ่งค่าK
- เก็บค่าเฉลี่ย Mean Square Error (MSE) ข้าม K-fold
- เมื่อวนรอบเสร็จสมบูรณ์ให้คำนวณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของ MSE ในชุดข้อมูลสำหรับค่าฉันเคiiK
- ทำซ้ำขั้นตอนข้างต้นสำหรับทั้งหมดในช่วงไปจนถึง LOOCV{ 5 , . . , N }K{5,...,N}
วิธีการอื่นคือไม่ต้องสุ่มชุดข้อมูลใหม่ในแต่ละการวนซ้ำและสับชุดข้อมูลเดียวกันซ้ำในแต่ละครั้งแทน ดูเหมือนว่าจะให้ผลลัพธ์ที่คล้ายกัน