มีหลายเธรดใน CrossValidated ในหัวข้อการเลือกรุ่นและการตรวจสอบความถูกต้อง นี่คือบางส่วน:
- การตรวจสอบความถูกต้องไขว้ภายนอกและการเลือกรุ่น
- คำตอบยอดนิยมของ @ @ DikranMarsupial สำหรับการเลือกคุณสมบัติและการตรวจสอบความถูกต้องข้าม
อย่างไรก็ตามคำตอบของเธรดเหล่านั้นค่อนข้างทั่วไปและเน้นประเด็นด้วยวิธีการเฉพาะเพื่อการตรวจสอบข้ามและการเลือกแบบจำลอง
ในการทำสิ่งต่าง ๆ ให้เป็นรูปธรรมมากที่สุดให้พูดเช่นว่าเรากำลังทำงานกับ SVM ด้วยเคอร์เนล RBF: และนั่น ฉันมีชุดข้อมูลของคุณสมบัติXและป้ายกำกับyและฉันต้องการ
- ค้นหาค่าที่ดีที่สุดเท่าที่จะเป็นไปได้ในโมเดลของฉัน (และ )
- ฝึกอบรม SVM ด้วยชุดข้อมูลของฉัน (สำหรับการปรับใช้ขั้นสุดท้าย)
- ประเมินข้อผิดพลาดทั่วไปและความไม่แน่นอน (ความแปรปรวน) รอบข้อผิดพลาดนี้
ในการทำเช่นนั้นฉันจะค้นหากริดเป็นการส่วนตัวเช่นฉันลองชุดค่าผสม และไปได้ทั้งหมด เพื่อความง่ายเราสามารถสมมติช่วงต่อไปนี้:
โดยเฉพาะอย่างยิ่งการใช้ชุดข้อมูลแบบเต็มของฉันฉันทำต่อไปนี้:
- สำหรับทุกคู่ ( , ) ฉันทำซ้ำซ้ำ (เช่น 100 การสุ่มซ้ำ) ของการตรวจสอบความถูกต้องข้าม -fold (เช่น ) ในชุดข้อมูลของฉันคือฉันฝึก SVM ของฉันบนเท่าและประเมิน เกิดข้อผิดพลาดบนฝาพับด้านซ้ายวนซ้ำผ่านเท่าทั้งหมด โดยรวมแล้วฉันรวบรวมข้อผิดพลาดการทดสอบ 100 x 10 = 1,000
- สำหรับแต่ละเช่น ( , ) คู่ผมคำนวณค่าเฉลี่ยและความแปรปรวนของบรรดา 1000 การทดสอบข้อผิดพลาด\
ตอนนี้ฉันต้องการเลือกรุ่นที่ดีที่สุด (พารามิเตอร์เคอร์เนลที่ดีที่สุด) ที่ฉันจะใช้ในการฝึกอบรม SVM สุดท้ายของฉันในชุดข้อมูลแบบเต็ม ความเข้าใจของฉันคือการเลือกแบบจำลองที่มีค่าเฉลี่ยข้อผิดพลาดต่ำที่สุดและความแปรปรวน และจะเป็นตัวเลือกที่ถูกต้องและรุ่นนี้คือเป็นค่าประมาณที่ดีที่สุดของแบบจำลองความลำเอียงและความแปรปรวน ชุดข้อมูลแบบเต็ม
แต่หลังจากอ่านคำตอบในกระทู้ด้านบนฉันได้รับความประทับใจว่าวิธีนี้สำหรับการเลือก SVM ที่ดีที่สุดสำหรับการปรับใช้และ / หรือสำหรับการประเมินข้อผิดพลาด (ประสิทธิภาพการวางนัยทั่วไป) มีข้อบกพร่องและมีวิธีที่ดีกว่าในการเลือก SVM ที่ดีที่สุดและรายงานข้อผิดพลาด ถ้าเป็นเช่นนั้นพวกเขาคืออะไร? ฉันกำลังมองหาคำตอบที่เป็นรูปธรรมโปรด
ติดกับปัญหานี้ฉันจะเลือกรูปแบบที่ดีที่สุดโดยเฉพาะและประเมินข้อผิดพลาดทั่วไปได้อย่างไร