ฉันสงสัยว่าการใช้การตรวจสอบข้ามเพื่อค้นหาพารามิเตอร์การปรับที่ดีที่สุดสำหรับเทคนิคการเรียนรู้ของเครื่องที่แตกต่างจากการสอดแนมข้อมูลหรือไม่
ความกังวลของคุณอยู่ในจุดที่ถูกต้องและมีวรรณกรรมมากมายในหัวข้อนี้เช่น
- Cawley, GC & Talbot, NLC: ในการเลือกรุ่นและการเลือกที่มีอคติในการประเมินประสิทธิภาพ, วารสารการวิจัยการเรียนรู้ของเครื่อง, 11, 2079-2107 (2010)
- Boulesteix, A. -L: การมองโลกในแง่ดีเกินความคาดหมายในการวิจัยด้านชีวสารสนเทศ, Bioinformatics, 26, 437-439 (2010) DOI: 10.1093 / ชีวสารสนเทศศาสตร์ / btp648
- Jelizarow, M. ; Guillemot, V.; Tenenhaus, A .; Strimmer, K. & Boulesteix, A. -L.: การมองโลกในแง่ดีเกินในด้านชีวสารสนเทศ: ภาพประกอบ, Bioinformatics, 26, 1990-1998 (2010) DOI: 10.1093 / bioinformatics / btq323
ปัญหาคือการปรับแต่งพารามิเตอร์แบบไฮเปอร์พารามิเตอร์พร้อมการตรวจสอบความถูกต้องข้ามเป็นกระบวนการปรับให้เหมาะสมที่ขับเคลื่อนด้วยข้อมูลและยังคงมีแนวโน้มที่จะเกินกว่าชุดข้อมูลที่น้อยลง (น้อยกว่าการปรับแต่งโดยข้อผิดพลาดการประกาศใหม่ การพยายามใช้ผลลัพธ์การตรวจสอบความถูกต้องของการปรับแต่งไขว้เนื่องจากการวัดประสิทธิภาพแบบ "อิสระ" นั้นเหมือนกับการกินพาย (= การปรับแต่ง) และการรักษา (= วัดประสิทธิภาพของรุ่นสุดท้าย)
นี่ไม่ได้หมายความว่าคุณไม่ควรใช้การตรวจสอบความถูกต้องข้ามเพื่อปรับจูนพารามิเตอร์ หมายความว่าคุณสามารถใช้เพื่อจุดประสงค์เดียวเท่านั้น ปรับให้เหมาะสมหรือวัดประสิทธิภาพของแบบจำลองเพื่อวัตถุประสงค์ในการตรวจสอบความถูกต้อง
วิธีแก้ปัญหาคือคุณต้องทำการตรวจสอบความถูกต้องโดยอิสระสำหรับการวัดคุณภาพของโมเดลที่ได้รับพร้อมพารามิเตอร์ไฮเปอร์ สิ่งนี้เรียกว่าการตรวจสอบซ้อนหรือสองครั้ง คุณจะพบคำถามและคำตอบมากมายที่นี่ในหัวข้อเหล่านี้
ในเชิงแนวคิดฉันชอบที่จะกล่าวว่าการฝึกอบรมรวมถึงขั้นตอนแฟนซีทุกประเภทเพื่อให้พอดีกับพารามิเตอร์โมเดล "ปกติ" แต่ยังเพื่อให้พอดีกับพารามิเตอร์ไฮเปอร์พารามิเตอร์ (ปรับอัตโนมัติ) ดังนั้นการเพิ่มประสิทธิภาพโดยใช้ข้อมูลของλจึงเป็นส่วนหนึ่งของการฝึกอบรมแบบจำลองอย่างชัดเจน
ตามกฎง่ายๆคุณสามารถพูดได้ว่าการฝึกอบรมแบบจำลองนั้นเป็นทุกสิ่งที่จำเป็นต้องทำก่อนที่คุณจะมีฟังก์ชั่นกล่องดำสุดท้ายพร้อมใช้งานที่สามารถคาดการณ์กรณีใหม่ได้
PS: ฉันพบว่าคำศัพท์การทดสอบและการตรวจสอบมีความสับสนอย่างมากเพราะใน "การตรวจสอบความถูกต้อง" หมายถึงการพิสูจน์ว่าแบบจำลองสุดท้ายนั้นเหมาะสำหรับวัตถุประสงค์และเป็นสิ่งที่คนอื่นเรียกการทดสอบแทนการตรวจสอบ ฉันชอบเรียกชุดทดสอบภายใน "ชุดทดสอบการปรับแต่ง" และชุดทดสอบการตรวจสอบความถูกต้องสุดท้าย "ด้านนอก" หรือที่คล้ายกัน
ปรับปรุง:
ดังนั้นหากโมเดลของฉัน (เช่นพารามิเตอร์การปรับของฉันในกรณีนี้) ไม่ผ่านการตรวจสอบภายนอกฉันควรทำอย่างไร
โดยทั่วไปแล้วจะไม่มีอะไรเกิดขึ้น: มีสถานการณ์ทั่วไปที่อาจทำให้เกิดความล้มเหลว และทุกสถานการณ์เช่นนี้ที่ฉันรู้ก็คือสถานการณ์ที่เกินกำลัง คุณจำเป็นต้องทราบว่าในขณะที่การทำให้เป็นมาตรฐานช่วยลดจำนวนกรณีการฝึกอบรมที่จำเป็น แต่การปรับให้เหมาะสมด้วยข้อมูลนั้นต้องการข้อมูลจำนวนมาก
คำแนะนำของฉัน:
โดยทั่วไปแล้วคุณ (ควร) มีความคาดหวังอย่างคร่าวๆแล้วเช่นประสิทธิภาพการทำงานที่ควรได้รับผลการปฏิบัติงานที่คุณพิจารณาว่าดูดีอย่างน่าสงสัย หรือมีสเปคประสิทธิภาพการทำงานที่คุณต้องการเพื่อให้บรรลุและประสิทธิภาพพื้นฐาน จากกรณีดังกล่าวและจำนวนกรณีการฝึกอบรมที่ไม่มีประโยชน์(สำหรับโครงร่างการแยกที่คุณตัดสินใจ) ให้คำนวณความไม่แน่นอนที่คาดไว้สำหรับการทดสอบภายใน (การปรับแต่ง) หากความไม่แน่นอนนั้นบ่งชี้ว่าคุณจะไม่สามารถรับการเปรียบเทียบที่มีความหมายได้อย่าทำการปรับให้เหมาะสมที่ขับเคลื่อนด้วยข้อมูล
คุณควรตรวจสอบความเสถียรของการทำนายที่ได้รับด้วย chosen ที่เลือกและ optimal ที่เหมาะสมที่สุดที่พบโดยขั้นตอนการปรับจูนอัตโนมัติ หากλไม่เสถียรพอสมควรตามส่วนของข้อมูลที่แตกต่างกันการเพิ่มประสิทธิภาพไม่ทำงาน
หากคุณพบว่าคุณจะไม่สามารถเพิ่มประสิทธิภาพข้อมูลได้หรือไม่ได้ผลคุณสามารถเลือกλโดยความรู้จากผู้เชี่ยวชาญของคุณเช่นจากประสบการณ์กับข้อมูลที่คล้ายกัน หรือจากความรู้ที่ว่าหากคุณพบว่าการปรับให้เหมาะสมล้มเหลวคุณจะต้องมีระเบียบปฏิบัติที่เข้มงวดยิ่งขึ้น