5
คุณสามารถ overfit โดยการฝึกอบรมอัลกอริทึมการเรียนรู้โดยใช้ CV / Bootstrap ได้หรือไม่?
คำถามนี้อาจเปิดกว้างเกินไปที่จะได้รับคำตอบที่ชัดเจน แต่หวังว่าจะไม่ อัลกอริทึมการเรียนรู้ของเครื่องเช่น SVM, GBM, Random Forest เป็นต้นโดยทั่วไปจะมีพารามิเตอร์อิสระบางอย่างที่นอกเหนือจากกฎของคำแนะนำนิ้วหัวแม่มือจำเป็นต้องปรับจูนให้กับแต่ละชุดข้อมูล โดยทั่วไปจะทำด้วยเทคนิคการสุ่มตัวอย่างใหม่ (bootstrap, CV ฯลฯ ) เพื่อให้พอดีกับชุดของพารามิเตอร์ที่ให้ข้อผิดพลาดในการวางนัยทั่วไปที่ดีที่สุด คำถามของฉันคือคุณไปไกลเกินไปไหม ผู้คนพูดคุยเกี่ยวกับการค้นหากริดตามที่กล่าวมา แต่ทำไมไม่เพียงแค่คิดว่านี่เป็นปัญหาการปรับให้เหมาะสมแล้วเจาะลึกไปที่ชุดของพารามิเตอร์ที่ดีที่สุด ฉันถามเกี่ยวกับกลไกบางอย่างของคำถามนี้แต่ก็ไม่ได้รับความสนใจมากนัก อาจเป็นคำถามที่ถามไม่ดี แต่บางทีคำถามนั้นแสดงถึงแนวทางที่ไม่ดีที่คนทั่วไปไม่ทำ สิ่งที่รบกวนจิตใจฉันคือขาดระเบียบ ฉันอาจค้นหาด้วยการสุ่มตัวอย่างอีกครั้งว่าจำนวนต้นไม้ที่ดีที่สุดที่จะเติบโตใน GBM สำหรับชุดข้อมูลนี้คือ 647 กับความลึกของการโต้ตอบที่ 4 แต่ฉันแน่ใจได้อย่างไรว่านี่จะเป็นจริงของข้อมูลใหม่ (สมมติว่าประชากรใหม่ เหมือนกับชุดฝึกอบรม) หรือไม่ ไม่มีค่าที่สมเหตุสมผลในการ 'ลดขนาด' เป็น (หรือถ้าคุณต้องการไม่มีข้อมูลก่อนหน้านี้) การสุ่มตัวอย่างใหม่ดูเหมือนว่าดีที่สุดที่เราสามารถทำได้ ฉันแค่ไม่ได้ยินคำพูดใด ๆ เกี่ยวกับเรื่องนี้ดังนั้นมันทำให้ฉันสงสัยว่ามีบางสิ่งที่ฉันขาดหายไป เห็นได้ชัดว่ามีค่าใช้จ่ายในการคำนวณจำนวนมากที่เกี่ยวข้องกับการทำซ้ำหลาย ๆ ครั้งเพื่อบีบพลังการคาดเดาสุดท้ายออกจากแบบจำลองดังนั้นชัดเจนว่านี่คือสิ่งที่คุณจะทำถ้าคุณมีเวลา / ไม่เต็มใจที่จะทำการปรับให้เหมาะสม ของการปรับปรุงประสิทธิภาพนั้นมีค่า