ในบทความการเลือกโมเดลเชิงเส้นโดย Jun-Shao แสดงให้เห็นว่าสำหรับปัญหาของการเลือกตัวแปรในการถดถอยเชิงเส้นหลายตัวแปรวิธีของการตรวจสอบความถูกต้องแบบลาออกครั้งเดียว (LOOCV) คือ 'ไม่สอดคล้องเชิงเส้นกำกับ' ในภาษาอังกฤษธรรมดามีแนวโน้มที่จะเลือกรุ่นที่มีตัวแปรมากเกินไป ในการศึกษาแบบจำลอง Shao แสดงให้เห็นว่าแม้การสำรวจเพียง 40 ครั้งเท่านั้น LOOCV สามารถใช้เทคนิคการตรวจสอบข้ามแบบอื่นได้ต่ำกว่า
บทความนี้ค่อนข้างขัดแย้งและไม่สนใจ (10 ปีหลังจากการตีพิมพ์เคมีของเพื่อนร่วมงานของฉันไม่เคยได้ยินเรื่องนี้มาก่อนและมีความสุขที่ใช้ LOOCV สำหรับการเลือกตัวแปร ... ) นอกจากนี้ยังมีความเชื่อ (ฉันมีความผิดในเรื่องนี้) ว่าผลลัพธ์ของมันขยายออกไปค่อนข้าง จำกัด ขอบเขตดั้งเดิม
จากนั้นคำถาม: ผลลัพธ์เหล่านี้จะขยายไปไกลแค่ไหน? พวกเขาจะใช้กับปัญหาต่อไปนี้?
- การเลือกตัวแปรสำหรับการถดถอยโลจิสติก / GLM?
- การเลือกตัวแปรสำหรับการจำแนกประเภท Fisher LDA?
- การเลือกตัวแปรใช้ SVM พร้อมพื้นที่เคอร์เนล จำกัด (หรือไม่ จำกัด )?
- เปรียบเทียบรุ่นในการจำแนกประเภทพูดว่า SVM ใช้เมล็ดที่แตกต่างกันหรือไม่
- เปรียบเทียบแบบจำลองในการถดถอยเชิงเส้นพูดเปรียบเทียบ MLR กับ Ridge Regression หรือไม่
- เป็นต้น