คำถามอยู่ภายใต้สมมติฐานที่ผิด หลายคนทำในสิ่งที่คุณพูดว่า "ทำไม่ได้"
ในความเป็นจริงการใช้งานการค้นหากริดในแพ็คเกจ sklearn ที่มีการใช้งานอย่างกว้างขวางนั้นทำได้ เว้นแต่refit=False
จะสั่งสอนขึ้นใหม่รุ่นสุดท้ายโดยใช้ข้อมูลทั้งหมด
ฉันคิดว่าพารามิเตอร์บางตัวอาจไม่เป็นที่ต้องการมากนักเนื่องจากมันสัมพันธ์กับปริมาณข้อมูล ยกตัวอย่างเช่นพิจารณาmin_samples_leaf
ชั้นเชิงก่อนการตัดแต่งกิ่งสำหรับต้นไม้ตัดสินใจ หากคุณมีข้อมูลเพิ่มเติมการตัดล่วงหน้าอาจไม่ทำงานตามที่คุณต้องการ
แต่ในความเป็นจริงคนส่วนใหญ่ทำการฝึกอบรมใหม่โดยใช้ข้อมูลทั้งหมดหลังจากการตรวจสอบความถูกต้องข้ามเพื่อให้พวกเขาได้รับแบบจำลองที่ดีที่สุด
ภาคผนวก: @NeilSlater พูดด้านล่างว่าบางคนดำเนินการระงับไว้ด้านบนของประวัติย่อ กล่าวอีกนัยหนึ่งพวกเขามีการทดสอบรถไฟแล้วทำการเลือกแบบจำลองในการฝึกอบรม ตามที่พวกเขาพวกเขาฝึกอบรมโดยใช้ชุดการฝึกอบรมเดิมแยก แต่ไม่ใช่ชุดการทดสอบ จากนั้นชุดทดสอบจะถูกใช้เพื่อทำการประเมินแบบจำลองขั้นสุดท้าย โดยส่วนตัวแล้วฉันเห็นข้อบกพร่องสามข้อในเรื่องนี้: (ก) ไม่ได้แก้ปัญหาที่ฉันกล่าวถึงด้วยพารามิเตอร์หลายมิติที่ขึ้นอยู่กับปริมาณการฝึกอบรมเนื่องจากคุณได้รับการฝึกอบรมใหม่อีกครั้ง (ข) เมื่อทำการทดสอบหลายรุ่น วิธีการต่าง ๆ เช่นการตรวจสอบความถูกต้องไขว้กันแบบซ้อนเพื่อให้ไม่มีข้อมูลไปเสียและ (c) การระงับเป็นวิธีการที่แย่มากในการอนุมานว่าแบบจำลองจะสรุปเมื่อคุณมีข้อมูลน้อยหรือไม่