ความเข้าใจของฉันคือว่าแม้เมื่อไปข้ามการตรวจสอบและการเลือกรูปแบบวิธีการที่เหมาะสม, overfitting จะเกิดขึ้นถ้าค้นหาหนึ่งสำหรับรูปแบบที่ยากพอว่าถ้าผู้ใดมีข้อ จำกัด เรียกเก็บกับความซับซ้อนของโมเดลระยะเวลา นอกจากนี้บ่อยครั้งที่ผู้คนพยายามเรียนรู้บทลงโทษเกี่ยวกับความซับซ้อนของแบบจำลองจากข้อมูลที่ทำลายการป้องกันที่พวกเขาสามารถให้ได้
คำถามของฉันคือ: ความจริงเท่าไหร่ที่มีต่องบข้างต้น?
ผมมักจะได้ยิน practicioners ML กล่าวว่า " ใน บริษัท ของฉัน / ห้องปฏิบัติการเราพยายามทุกรูปแบบที่มีอยู่ (เช่นจากห้องสมุดเช่นเครื่องหมายหรือscikit เรียนรู้ ) เพื่อดูที่หนึ่งงานที่ดีที่สุด " ฉันมักจะเถียงว่าวิธีการนี้สามารถทำให้ได้อย่างง่ายดายแม้ว่าพวกเขาจะจริงจังเกี่ยวกับการตรวจสอบข้ามและเก็บชุดที่ค้างไว้ในทางที่พวกเขาต้องการ ยิ่งพวกเขาค้นหายากเท่าไหร่ก็จะยิ่งมีโอกาสมากขึ้นเท่านั้น ในคำอื่น ๆมากกว่าการเพิ่มประสิทธิภาพเป็นปัญหาที่แท้จริงและมีการวิเคราะห์พฤติกรรมที่ไม่สามารถช่วยให้คุณต่อสู้กับมันอย่างเป็นระบบ ฉันผิดที่คิดแบบนี้?