การเลือกคุณสมบัติและการตรวจสอบความถูกต้องข้าม
ฉันเพิ่งอ่านจำนวนมากบนไซต์นี้ (@Aniko, @Dikran Marsupial, @Erik) และที่อื่น ๆ เกี่ยวกับปัญหาการ overfitting ที่เกิดขึ้นกับการตรวจสอบข้าม - (Smialowski et al 2010 ชีวสารสนเทศศาสตร์, Hastie, องค์ประกอบของการเรียนรู้ทางสถิติ) ข้อเสนอแนะคือการที่ใด ๆการเลือกคุณลักษณะภายใต้การดูแล (โดยใช้ความสัมพันธ์ที่มีป้ายชื่อ class) ดำเนินการด้านนอกของประมาณการผลการดำเนินงานรูปแบบการใช้การตรวจสอบข้าม (หรือรูปแบบวิธีการอื่นเช่นการประเมินความร่วมมือ) อาจส่งผลให้อิง สิ่งนี้ดูเหมือนจะไม่ง่ายสำหรับฉัน - แน่นอนถ้าคุณเลือกชุดคุณลักษณะและประเมินโมเดลของคุณโดยใช้เฉพาะคุณสมบัติที่เลือกโดยใช้การตรวจสอบความถูกต้องไขว้กันคุณจะได้รับการประเมินแบบไม่เอนเอียง ของประชากร) ด้วยขั้นตอนนี้เราไม่สามารถอ้างสิทธิ์ชุดคุณลักษณะที่ดีที่สุด แต่สามารถรายงานประสิทธิภาพของคุณลักษณะที่เลือกซึ่งตั้งค่าไว้บนข้อมูลที่มองไม่เห็นว่าถูกต้องได้หรือไม่ ฉันยอมรับว่าการเลือกคุณสมบัติตามชุดข้อมูลทั้งหมดอาจมีการรั่วไหลของข้อมูลระหว่างชุดทดสอบและชุดรถไฟ แต่ถ้าชุดคุณลักษณะเป็นแบบคงที่หลังจากการเลือกเริ่มต้นและไม่มีการปรับแต่งอื่น ๆ แน่นอนว่ามันถูกต้องที่จะรายงานตัวชี้วัดประสิทธิภาพข้ามการตรวจสอบแล้ว? ในกรณีของฉันฉันมี 56 คุณสมบัติและ 259 เคสดังนั้น #case> #features คุณสมบัติที่ได้รับมาจากข้อมูลเซ็นเซอร์ ขออภัยถ้าคำถามของฉันดูเหมือนอนุพันธ์ แต่นี่เป็นจุดสำคัญที่จะชี้แจง แก้ไข: ในการดำเนินการเลือกคุณลักษณะภายในการตรวจสอบข้ามในชุดข้อมูลรายละเอียดข้างต้น (ขอบคุณคำตอบดังต่อไปนี้) ผมสามารถยืนยันได้ว่าคุณสมบัติการเลือกก่อนที่จะข้ามการตรวจสอบในชุดข้อมูลนี้แนะนำอย่างมีนัยสำคัญอคติ ความลำเอียง …