การใช้การตรวจสอบข้ามอย่างไม่ถูกต้อง (ประสิทธิภาพการรายงานสำหรับค่าพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ดีที่สุด)

เมื่อเร็ว ๆ นี้ฉันเจอกระดาษที่เสนอให้ใช้ตัวจําแนกk-NNบนชุดข้อมูลเฉพาะ ผู้เขียนใช้ตัวอย่างข้อมูลทั้งหมดที่มีเพื่อดำเนินการตรวจสอบความถูกต้องข้าม k-fold สำหรับค่าk ที่แตกต่างกันและรายงานผลการตรวจสอบความถูกต้องข้ามของการกำหนดค่าพารามิเตอร์พารามิเตอร์ที่ดีที่สุด

สำหรับความรู้ของฉันผลลัพธ์นี้มีความลำเอียงและพวกเขาควรจะมีชุดการทดสอบแยกต่างหากเพื่อให้ได้การประเมินความถูกต้องของตัวอย่างที่ไม่ได้ใช้ในการเพิ่มประสิทธิภาพพารามิเตอร์มากเกินไป

ฉันถูกไหม? คุณสามารถให้ข้อมูลอ้างอิงบางส่วน (ควรเป็นบทความวิจัย) ที่อธิบายการใช้การตรวจสอบไขว้ในทางที่ผิดหรือไม่?

— Daniel López
แหล่งที่มา

โปรดทราบว่าแทนที่จะใช้ชุดการทดสอบที่แยกต่างหากชุดหนึ่งสามารถใช้การตรวจสอบความถูกต้องข้ามแบบซ้อนได้ หากคุณค้นหาคำนี้ในเว็บไซต์นี้คุณจะพบกับการสนทนามากมาย มองหาคำตอบของ @DikranMarsupial โดยเฉพาะซึ่งเป็นหนึ่งในผู้เขียนบทความที่สองที่อ้างถึงในคำตอบที่ยอมรับแล้ว

— อะมีบาพูดว่า Reinstate Monica

ใช่มีปัญหากับการรายงานเฉพาะผลลัพธ์ CV k-fold คุณสามารถใช้เช่นสามสิ่งพิมพ์ต่อไปนี้เพื่อจุดประสงค์ของคุณ (แม้ว่าจะมีมากขึ้นมีแน่นอน) เพื่อชี้คนไปในทิศทางที่ถูกต้อง:

ฉันชอบสิ่งเหล่านี้เพราะพวกเขาพยายามระบุปัญหาในภาษาอังกฤษแบบธรรมดามากกว่าในวิชาคณิตศาสตร์

— geekoverdose
แหล่งที่มา

แม่นยำยิ่งขึ้นปัญหานี้ไม่ได้รายงานผลการตรวจสอบข้าม แต่รายงานการประเมินประสิทธิภาพที่เป็นส่วนหนึ่งของกระบวนการคัดเลือก / การเพิ่มประสิทธิภาพ

— cbeleites รองรับโมนิก้า

นอกจากนี้โปรดทราบว่ากระดาษของ Bengio & Grandvalet นั้นค่อนข้างมีความเกี่ยวข้องน้อยกว่าหากปัญหาในที่นี้คือประสิทธิภาพของแบบจำลองเฉพาะที่ได้รับการฝึกอบรมในชุดข้อมูลเฉพาะ - พวกเขาหารือเกี่ยวกับประสิทธิภาพสำหรับอัลกอริทึม trainig เดียวกันที่ใช้กับชุดข้อมูลใหม่จากประชากรเดียวกัน เพื่อรวมความแปรปรวนระหว่างชุดข้อมูลที่แตกต่างกันซึ่งมีขนาดเท่ากันตัวอย่างจากแหล่งเดียวกันซึ่งไม่ใช่ปัญหาหากเรากำลังพูดถึงประสิทธิภาพการทำนายของแบบจำลองที่ผ่านการฝึกอบรมในชุดข้อมูลเฉพาะ)

— cbeleites รองรับโมนิก้า

@cbeleites ด่างอย่างถูกต้อง: ในร่างแรกของคำตอบฉันตั้งใจเลือกการอ้างอิงที่สามแทนการอ้างอิงที่สอง แต่ภายหลังไม่ต้องการลบข้อมูลใด ๆ จากคำตอบที่ยอมรับแล้วอีกต่อไป - ซึ่งเป็นเหตุผลที่ฉันเพิ่มที่สองใน ระหว่าง (ดูรุ่นของคำตอบ) อย่างไรก็ตามฉันคิดว่าคำถามส่วนใหญ่เกี่ยวกับข้อผิดพลาดที่รายงานและเอกสารเหล่านั้นชี้ให้เห็นบางสิ่งที่เราสามารถทำผิดกับ CV ในเรื่องนี้ได้เป็นอย่างดี IMHO

— geekoverdose