ฉันเพิ่งอ่านจำนวนมากบนไซต์นี้ (@Aniko, @Dikran Marsupial, @Erik) และที่อื่น ๆ เกี่ยวกับปัญหาการ overfitting ที่เกิดขึ้นกับการตรวจสอบข้าม - (Smialowski et al 2010 ชีวสารสนเทศศาสตร์, Hastie, องค์ประกอบของการเรียนรู้ทางสถิติ) ข้อเสนอแนะคือการที่ใด ๆการเลือกคุณลักษณะภายใต้การดูแล (โดยใช้ความสัมพันธ์ที่มีป้ายชื่อ class) ดำเนินการด้านนอกของประมาณการผลการดำเนินงานรูปแบบการใช้การตรวจสอบข้าม (หรือรูปแบบวิธีการอื่นเช่นการประเมินความร่วมมือ) อาจส่งผลให้อิง
สิ่งนี้ดูเหมือนจะไม่ง่ายสำหรับฉัน - แน่นอนถ้าคุณเลือกชุดคุณลักษณะและประเมินโมเดลของคุณโดยใช้เฉพาะคุณสมบัติที่เลือกโดยใช้การตรวจสอบความถูกต้องไขว้กันคุณจะได้รับการประเมินแบบไม่เอนเอียง ของประชากร)
ด้วยขั้นตอนนี้เราไม่สามารถอ้างสิทธิ์ชุดคุณลักษณะที่ดีที่สุด แต่สามารถรายงานประสิทธิภาพของคุณลักษณะที่เลือกซึ่งตั้งค่าไว้บนข้อมูลที่มองไม่เห็นว่าถูกต้องได้หรือไม่
ฉันยอมรับว่าการเลือกคุณสมบัติตามชุดข้อมูลทั้งหมดอาจมีการรั่วไหลของข้อมูลระหว่างชุดทดสอบและชุดรถไฟ แต่ถ้าชุดคุณลักษณะเป็นแบบคงที่หลังจากการเลือกเริ่มต้นและไม่มีการปรับแต่งอื่น ๆ แน่นอนว่ามันถูกต้องที่จะรายงานตัวชี้วัดประสิทธิภาพข้ามการตรวจสอบแล้ว?
ในกรณีของฉันฉันมี 56 คุณสมบัติและ 259 เคสดังนั้น #case> #features คุณสมบัติที่ได้รับมาจากข้อมูลเซ็นเซอร์
ขออภัยถ้าคำถามของฉันดูเหมือนอนุพันธ์ แต่นี่เป็นจุดสำคัญที่จะชี้แจง
แก้ไข: ในการดำเนินการเลือกคุณลักษณะภายในการตรวจสอบข้ามในชุดข้อมูลรายละเอียดข้างต้น (ขอบคุณคำตอบดังต่อไปนี้) ผมสามารถยืนยันได้ว่าคุณสมบัติการเลือกก่อนที่จะข้ามการตรวจสอบในชุดข้อมูลนี้แนะนำอย่างมีนัยสำคัญอคติ ความลำเอียง / การ overfitting นี้ยิ่งใหญ่ที่สุดเมื่อทำเช่นนั้นสำหรับสูตร 3 ระดับเมื่อเทียบกับสูตร 2 ระดับ ฉันคิดว่าความจริงที่ว่าฉันใช้การถดถอยแบบขั้นตอนสำหรับการเลือกคุณสมบัติเพิ่มขึ้น overfitting นี้; เพื่อวัตถุประสงค์ในการเปรียบเทียบในชุดข้อมูลที่แตกต่างกัน แต่มีความเกี่ยวข้องฉันได้เปรียบเทียบชุดคำสั่งการส่งต่อคุณสมบัติตามลำดับก่อนที่จะทำการตรวจสอบความถูกต้องข้ามกับผลลัพธ์ที่ฉันได้รับก่อนหน้านี้ด้วยการเลือกคุณสมบัติภายใน CV ผลลัพธ์ระหว่างวิธีการทั้งสองไม่แตกต่างกันอย่างมาก นี่อาจหมายความว่าการถดถอยแบบขั้นตอนมีแนวโน้มที่จะมีค่าเกินกว่า FS ตามลำดับหรืออาจเป็นเรื่องแปลกของชุดข้อมูลนี้