ฉันเคยได้ยินนิพจน์ต่อไปนี้มาก่อน:
"การเพิ่มประสิทธิภาพเป็นรากฐานของความชั่วร้ายทั้งหมดในสถิติ"
ตัวอย่างเช่นคำตอบที่ดีที่สุดในหัวข้อนี้ทำให้คำสั่งนั้นอ้างอิงถึงอันตรายของการปรับให้เหมาะสมเกินไปในระหว่างการเลือกแบบจำลอง
คำถามแรกของฉันคือต่อไปนี้: คำพูดนี้เป็นของใครโดยเฉพาะ? (เช่นในเอกสารสถิติ)
จากสิ่งที่ฉันเข้าใจข้อความดังกล่าวหมายถึงความเสี่ยงของการมีน้ำหนักเกิน ภูมิปัญญาดั้งเดิมจะบอกว่าการตรวจสอบข้ามที่เหมาะสมได้ต่อสู้กับปัญหานี้อยู่แล้ว แต่ดูเหมือนว่าปัญหานี้จะมีมากกว่านั้น
นักสถิติและผู้ปฏิบัติงาน ML ควรระมัดระวังในการเพิ่มประสิทธิภาพโมเดลของพวกเขาแม้ในขณะที่ปฏิบัติตามโปรโตคอลการตรวจสอบข้ามที่เข้มงวด (เช่น 100 ซ้อน CV 10 เท่า) ถ้าเป็นเช่นนั้นเราจะรู้ได้อย่างไรว่าเมื่อไรที่จะหยุดการค้นหานางแบบ "ดีที่สุด"?