ถ้าฉันมีข้อมูลและฉันเรียกใช้การจำแนกประเภท (สมมติว่าฟอเรสต์แบบสุ่มบนข้อมูลนี้) ด้วยการตรวจสอบความถูกต้องข้าม (สมมติ 5 เท่า) ฉันจะสรุปได้ไหมว่าไม่มีวิธีที่เหมาะสมกว่าในวิธีการของฉัน
ถ้าฉันมีข้อมูลและฉันเรียกใช้การจำแนกประเภท (สมมติว่าฟอเรสต์แบบสุ่มบนข้อมูลนี้) ด้วยการตรวจสอบความถูกต้องข้าม (สมมติ 5 เท่า) ฉันจะสรุปได้ไหมว่าไม่มีวิธีที่เหมาะสมกว่าในวิธีการของฉัน
คำตอบ:
ไม่ใช่เลย. อย่างไรก็ตามการตรวจสอบข้ามช่วยให้คุณประเมินโดยวิธีการของคุณ overfits
ตัวอย่างเช่นหากข้อมูลการฝึกอบรมของคุณ R-squared ของการถดถอยเท่ากับ 0.50 และ R-squared ที่ได้จากการข้ามค่า 0.48 เท่ากับคุณแสดงว่าคุณมีความอ้วนมากเกินไปและคุณรู้สึกดี ในทางตรงกันข้ามถ้า R-squared crossvalidated เป็นเพียง 0.3 ที่นี่แล้วส่วนหนึ่งของประสิทธิภาพของแบบจำลองของคุณมาจากการ overfitting และไม่ได้มาจากความสัมพันธ์ที่แท้จริง ในกรณีเช่นนี้คุณสามารถยอมรับประสิทธิภาพที่ต่ำลงหรือลองใช้กลยุทธ์การสร้างแบบจำลองที่แตกต่างกันโดยให้ค่า overfitting น้อยลง
การตรวจสอบความถูกต้องไขว้เป็นเทคนิคที่ดี แต่ไม่สมบูรณ์แบบเพื่อลดความกระชับ
การตรวจสอบข้ามจะทำงานได้ไม่ดีกับข้อมูลภายนอกหากข้อมูลที่คุณมีไม่ได้เป็นตัวแทนของข้อมูลที่คุณจะพยายามทำนาย!
นี่คือสถานการณ์ที่เป็นรูปธรรมสองสถานการณ์เมื่อการตรวจสอบความถูกต้องข้ามมีข้อบกพร่อง:
นอกจากนี้ฉันสามารถแนะนำวิดีโอเหล่านี้จากหลักสูตร Stanford ในการเรียนรู้ทางสถิติ วิดีโอเหล่านี้มีรายละเอียดค่อนข้างลึกเกี่ยวกับวิธีการใช้การประเมินข้ามอย่างมีประสิทธิภาพ
การตรวจสอบข้ามและ Bootstrap (14:01)