ลีดเดอร์บอร์ดส่วนตัวของ Kaggle เป็นเครื่องทำนายผลการทำงานที่ดีของรุ่นที่ชนะหรือไม่?

ในขณะที่ผลลัพธ์ของชุดทดสอบส่วนตัวไม่สามารถใช้ในการปรับแต่งโมเดลเพิ่มเติมได้ แต่การเลือกรุ่นจากโมเดลจำนวนมากที่ดำเนินการตามผลลัพธ์ของชุดทดสอบส่วนตัวไม่ใช่หรือไม่ คุณจะไม่ผ่านกระบวนการนั้นเพียงอย่างเดียวจบลงด้วยการ overfitting ชุดทดสอบส่วนตัวหรือไม่?

ตามที่"Pseudo-Mathematics และ Charlatanism การเงิน: ผลกระทบของการ Overtitting Backtest ต่อประสิทธิภาพออกตัวอย่าง" โดย Bailey et.al มันค่อนข้างง่ายที่จะ "overfit" เมื่อเลือกสิ่งที่ดีที่สุดจากโมเดลจำนวนมากที่ประเมินในชุดข้อมูลเดียวกัน นั่นไม่ได้เกิดขึ้นกับลีดเดอร์บอร์ดส่วนตัวของ Kaggle ใช่ไหม

อะไรคือเหตุผลทางสถิติสำหรับโมเดลที่มีประสิทธิภาพดีที่สุดบนลีดเดอร์บอร์ดส่วนตัวซึ่งเป็นโมเดลที่สรุปข้อมูลที่ดีที่สุดออกมาจากตัวอย่าง?
จริง ๆ แล้ว บริษัท ต่างๆใช้แบบจำลองที่ชนะหรือมีกระดานผู้นำส่วนตัวเพียงเพื่อให้ "กฎของเกม" และ บริษัท ต่าง ๆ ให้ความสนใจในข้อมูลเชิงลึกที่เกิดขึ้นจากการอภิปรายของปัญหาจริง ๆ หรือไม่

model-selection overfitting out-of-sample

— rinspy
แหล่งที่มา

ค่อนข้างเกี่ยวข้อง: stats.stackexchange.com/q/235591

— ประสาทวิทยา

คุณสามารถดูความแตกต่างระหว่างคะแนนส่วนตัวและสาธารณะ หนึ่งสามารถยืนยันว่ารูปแบบที่ไม่ได้ติดตั้งควรจะบรรลุประสิทธิภาพที่คล้ายกันในชุดข้อมูลทั้งสอง

— shadowtalker

@shadowtalker แน่นอนว่าจะเป็นวิธีที่ดีในการตรวจจับการล้น แต่สิ่งที่เราสนใจจริง ๆ คือพลังการทำนายแบบนอกตัวอย่างของแบบจำลองไม่ใช่ระดับการ overfitting รูปแบบ overfit - นั่นคือตัวอย่างที่ทำงานได้ดีกว่าในตัวอย่างมากกว่า out-of-sample - อาจมีประสิทธิภาพที่ดีกว่าตัวอย่างกว่ารุ่นที่ไม่เหมาะสม ฉันไม่ได้มีการอ้างอิงในมือ แต่ฉันเชื่อว่ามักจะเป็นกรณีในโดเมนที่ซับซ้อนเช่นการมองเห็นคอมพิวเตอร์เมื่อใช้แบบจำลองที่ซับซ้อนเช่น CNN

— ล้าง r

ดีจุดที่คุณนำเสนอเป็นธรรม แต่ผมคิดว่ามีปัญหาที่ไกลมากขึ้นจริงกับคนoverfitting บนลีดเดอร์บอร์ดสาธารณะ

ซึ่งอาจเกิดขึ้นเมื่อคุณทำเช่น 100 หรือเพื่อการส่งชุดทดสอบประชาชนก็จะมีเลือดออกออกไปเลือก hyperparameter ของคุณจึง overfit ฉันคิดว่าลีดเดอร์บอร์ดส่วนตัวนั้นมีความจำเป็นในแง่นั้น

— M Sef
แหล่งที่มา