ก่อนอื่นให้ฉันล้างเงื่อนไขที่ใช้ในคำถามตามที่ฉันเข้าใจ โดยปกติเราเริ่มต้นด้วยชุดข้อมูลการฝึกอบรมหนึ่งชุดใช้การตรวจสอบความถูกต้องของ k-fold เพื่อทดสอบแบบจำลองต่างๆ ดังนั้น 'การตรวจสอบข้ามข้อผิดพลาดในการทดสอบ' หมายถึงการใช้ข้อผิดพลาด CV ต่ำสุดเป็นข้อผิดพลาดในการทดสอบไม่ใช่แค่ข้อผิดพลาด CV ของโมเดลแบบสุ่ม (ซึ่งกรณีที่กล่าวถึงโดย cbeleites แต่ไม่ใช่สิ่งที่เราทำตามปกติ) 'ข้อผิดพลาดการทดสอบจริง' ในคำถามคือข้อผิดพลาดที่เราได้รับเมื่อใช้โมเดล CV ที่ดีที่สุดกับชุดข้อมูลการทดสอบที่ไม่มีที่สิ้นสุดโดยสมมติว่าเราสามารถรับได้ ข้อผิดพลาด CV ขึ้นอยู่กับชุดข้อมูลเฉพาะที่เรามีและข้อผิดพลาดในการทดสอบจริงนั้นขึ้นอยู่กับรูปแบบ CV ที่ดีที่สุดที่เลือกซึ่งยังขึ้นอยู่กับชุดข้อมูลการฝึกอบรม ดังนั้นความแตกต่างระหว่างข้อผิดพลาด CV และข้อผิดพลาดในการทดสอบจึงขึ้นอยู่กับชุดข้อมูลการฝึกอบรมที่แตกต่างกัน จากนั้นคำถามก็คือถ้าเราทำซ้ำขั้นตอนข้างต้นหลายครั้งด้วยชุดข้อมูลการฝึกอบรมที่แตกต่างกันและค่าเฉลี่ยของข้อผิดพลาดทั้งสองตามลำดับสาเหตุที่ข้อผิดพลาด CV เฉลี่ยต่ำกว่าข้อผิดพลาดการทดสอบโดยเฉลี่ยคือข้อผิดพลาด CV แต่ก่อนหน้านี้สิ่งนี้จะเกิดขึ้นเสมอหรือไม่
โดยปกติแล้วเป็นไปไม่ได้ที่จะได้รับชุดข้อมูลการฝึกอบรมจำนวนมากและชุดข้อมูลการทดสอบที่มีแถวที่ไม่มีที่สิ้นสุด แต่เป็นไปได้ที่จะใช้ข้อมูลที่สร้างขึ้นโดยการจำลอง ใน "บทที่ 7 การประเมินรูปแบบและการคัดเลือก" ของหนังสือ "องค์ประกอบของการเรียนรู้ทางสถิติ" โดย Trevor Hastie, et al. มันรวมถึงการทดลองจำลอง
บทสรุปคือการใช้ CV หรือ bootstrap "... การประเมินข้อผิดพลาดการทดสอบสำหรับชุดการฝึกอบรมเฉพาะนั้นไม่ใช่เรื่องง่ายโดยทั่วไปเพียงแค่ได้รับข้อมูลจากชุดฝึกอบรมเดียวกันนั้น" โดย 'ไม่ใช่เรื่องง่าย' พวกเขาหมายถึงข้อผิดพลาด CV อาจดูเบาหรือประเมินค่าสูงเกินไปข้อผิดพลาดการทดสอบจริงขึ้นอยู่กับชุดข้อมูลการฝึกอบรมที่แตกต่างกันเช่นความแปรปรวนที่เกิดจากชุดข้อมูลการฝึกอบรมที่แตกต่างกันค่อนข้างใหญ่ แล้วความลำเอียงล่ะ kNN และโมเดลเชิงเส้นที่ทดสอบเกือบจะไม่ลำเอียง: ข้อผิดพลาด CV ประเมินค่าสูงกว่าข้อผิดพลาดการทดสอบจริงโดย 0-4% แต่บางรุ่น "เช่นต้นไม้การตรวจสอบความถูกต้องข้าม การค้นหาต้นไม้ที่ดีที่สุดได้รับผลกระทบอย่างมากจากชุดการตรวจสอบความถูกต้อง "
ในการสรุปสำหรับชุดข้อมูลการฝึกอบรมเฉพาะข้อผิดพลาด CV อาจสูงกว่าหรือต่ำกว่าข้อผิดพลาดการทดสอบจริง สำหรับอคติค่าเฉลี่ยของข้อผิดพลาด CV อาจมีตั้งแต่เล็กน้อยไปจนถึงต่ำกว่าค่าเฉลี่ยของข้อผิดพลาดการทดสอบที่แท้จริงขึ้นอยู่กับวิธีการสร้างแบบจำลอง
เหตุผลสำหรับการประเมินต่ำสุดดังกล่าวข้างต้นคือการเลือกพารามิเตอร์สำหรับรูปแบบที่ดีที่สุดนั้นขึ้นอยู่กับชุดการฝึกอบรมที่เราได้รับในท้ายที่สุด รายละเอียดเล็กน้อยปล่อยให้พารามิเตอร์ที่ดีที่สุดเป็น M1 ในชุดการฝึกอบรมนี้โดยเฉพาะ แต่ M1 อาจไม่ใช่พารามิเตอร์ที่ดีที่สุดในชุดข้อมูลการฝึกอบรมอื่น ๆ ซึ่งหมายความว่าข้อผิดพลาด CV ขั้นต่ำน้อยกว่าข้อผิดพลาด CV จาก M1 ดังนั้นข้อผิดพลาด CV ที่คาดหวังที่เราได้รับจากกระบวนการฝึกอบรมมีโอกาสน้อยกว่าข้อผิดพลาด CV ที่คาดหวังของ M1 ครั้งเดียวที่ข้อผิดพลาด CV ขั้นต่ำจากชุดข้อมูลการฝึกอบรมเฉพาะนั้นไม่ได้ลำเอียงคือเมื่อตัวแบบที่ดีที่สุดมักจะเป็นชุดข้อมูลการฝึกอบรมที่ดีที่สุดเสมอ ในทางกลับกันข้อผิดพลาด CV อาจประเมินค่าความผิดพลาดการทดสอบจริงเล็กน้อยได้ดังที่ cbeleites พูดถึง นี่เป็นเพราะข้อผิดพลาด k fold CV นั้นได้มาจากการใช้ข้อมูลการฝึกอบรมน้อยลงเล็กน้อยในการฝึกอบรมแบบจำลอง (สำหรับ 10 เท่า cv ใช้ข้อมูล 90%) มันมีอคติต่อข้อผิดพลาดจริง แต่ไม่มาก ดังนั้นจึงมีอคติสองทิศทางที่แตกต่างกัน สำหรับวิธีการสร้างแบบจำลองมีแนวโน้มที่จะเกิด overfit โดยใช้ CV แบบโฟลตน้อยเช่น 5-fold เทียบกับ 10-fold อาจส่งผลให้มีอคติน้อยลง
ทั้งหมดถูกกล่าวว่ามันไม่ได้ช่วยอะไรมากเกินไปในทางปฏิบัติเรามักจะได้รับชุดข้อมูล 'ที่เฉพาะเจาะจง' หนึ่งชุดเท่านั้น ถ้าเราถือ 15% ถึง 30% เป็นข้อมูลทดสอบและเลือกรุ่นที่ดีที่สุดโดย CV ในส่วนที่เหลือเป็นข้อมูลการฝึกอบรมโอกาสที่ข้อผิดพลาด CV จะแตกต่างจากข้อผิดพลาดในการทดสอบเนื่องจากทั้งคู่ต่างจากข้อผิดพลาดการทดสอบที่คาดไว้ เราอาจสงสัยว่าข้อผิดพลาด CV ต่ำกว่าข้อผิดพลาดในการทดสอบมาก แต่เราจะไม่ทราบว่าข้อผิดพลาดการทดสอบใดใกล้กว่าข้อผิดพลาดการทดสอบจริง แนวทางปฏิบัติที่ดีที่สุดอาจเป็นเพียงการนำเสนอทั้งสองเมตริก