ในหลักการ:
ทำการคาดการณ์ของคุณโดยใช้แบบจำลองเดียวที่ผ่านการฝึกอบรมจากชุดข้อมูลทั้งหมด (ดังนั้นจึงมีชุดของคุณสมบัติเพียงชุดเดียว) การตรวจสอบความถูกต้องไขว้ใช้เพื่อประเมินประสิทธิภาพการทำนายของรุ่นเดียวที่ผ่านการฝึกอบรมในชุดข้อมูลทั้งหมด มันมีความสำคัญในการใช้การตรวจสอบข้ามซึ่งในแต่ละครั้งที่คุณทำซ้ำขั้นตอนทั้งหมดที่ใช้เพื่อให้พอดีกับโมเดลหลักมิฉะนั้นคุณสามารถจบด้วยอคติในแง่ดีอย่างมากในการปฏิบัติงาน
หากต้องการดูสาเหตุที่เกิดขึ้นให้พิจารณาปัญหาการจำแนกเลขฐานสองที่มีคุณลักษณะไบนารี 1000 รายการ แต่มีเพียง 100 กรณีที่กรณีและคุณลักษณะทั้งหมดเป็นแบบสุ่มล้วน ๆ ดังนั้นจึงไม่มีความสัมพันธ์ทางสถิติระหว่างคุณลักษณะและกรณีใด ๆ หากเราฝึกอบรมโมเดลหลักในชุดข้อมูลแบบเต็มเราสามารถบรรลุข้อผิดพลาดเป็นศูนย์ในชุดการฝึกอบรมเนื่องจากมีคุณสมบัติมากกว่ากรณี เรายังสามารถค้นหาชุดย่อยของคุณสมบัติ "ข้อมูล" (ที่เกิดขึ้นโดยมีความสัมพันธ์โดยบังเอิญ) หากเราทำการตรวจสอบข้ามโดยใช้คุณสมบัติเหล่านั้นเท่านั้นเราจะได้รับการประเมินประสิทธิภาพที่ดีกว่าการคาดเดาแบบสุ่ม เหตุผลก็คือในแต่ละขั้นตอนของการข้ามการตรวจสอบความถูกต้องมีข้อมูลบางอย่างเกี่ยวกับคดีที่ถูกระงับไว้ที่ใช้สำหรับการทดสอบเนื่องจากคุณสมบัติดังกล่าวได้รับเลือกเพราะดีสำหรับการทำนายทั้งหมดของพวกเขา รวมถึงสิ่งที่ยื่นออกมา แน่นอนว่าอัตราความผิดพลาดที่แท้จริงจะเท่ากับ 0.5
หากเรานำขั้นตอนที่เหมาะสมมาใช้และทำการเลือกคุณสมบัติในแต่ละช่วงเวลาจะไม่มีข้อมูลใด ๆ เกี่ยวกับเคสที่ถูกจัดอันดับในการเลือกคุณลักษณะที่ใช้ในช่วงเวลานั้น หากคุณใช้ขั้นตอนที่เหมาะสมในกรณีนี้คุณจะได้รับอัตราข้อผิดพลาดประมาณ 0.5 (แม้ว่าจะแตกต่างกันเล็กน้อยสำหรับการรับรู้ชุดข้อมูลที่แตกต่างกัน)
เอกสารที่ดีในการอ่านคือ:
Christophe Ambroise, Geoffrey J. McLachlan, "การตั้งค่าการคัดเลือกในการสกัดยีนบนพื้นฐานของข้อมูลการแสดงออกของยีน microarray", PNAS http://www.pnas.org/content/99/10/6562.abstract
ซึ่งเกี่ยวข้องอย่างมากกับ OP และ
Gavin C. Cawley, Nicola LC Talbot, "ในการเลือกรุ่นที่มากเกินไปและการเลือกแบบอคติในการประเมินประสิทธิภาพ", JMLR 11 (ก.ค. ): 2079 )2107, 2010 http://jmlr.csail.mit.edu/papers /v11/cawley10a.html
ซึ่งแสดงให้เห็นว่าสิ่งเดียวกันนั้นสามารถเกิดขึ้นได้อย่างง่ายดายในการเลือกแบบจำลอง (เช่นการปรับพารามิเตอร์ไฮเปอร์ของ SVM ซึ่งจำเป็นต้องทำซ้ำในแต่ละขั้นตอนของ CV ขั้นตอนซ้ำ)
ในทางปฏิบัติ:
ฉันอยากจะแนะนำให้ใช้การห่อถุงและใช้ข้อผิดพลาดนอกกระเป๋าเพื่อประเมินประสิทธิภาพ คุณจะได้รับรูปแบบคณะกรรมการที่ใช้คุณสมบัติมากมาย แต่นั่นเป็นสิ่งที่ดีจริงๆ หากคุณใช้รุ่นเดียวอาจเป็นไปได้ว่าคุณจะพอดีกับเกณฑ์การเลือกคุณสมบัติและจบลงด้วยรูปแบบที่ให้การคาดการณ์ที่ต่ำกว่ารุ่นที่ใช้คุณสมบัติจำนวนมาก
หนังสือ Alan Millers เกี่ยวกับการเลือกชุดย่อยในการถดถอย (เอกสารประกอบของแชปแมนและฮอลล์เกี่ยวกับสถิติและความน่าจะเป็นที่ประยุกต์ใช้เล่ม 95) ให้คำแนะนำที่ดี (หน้า 221) ว่าหากประสิทธิภาพการทำนายเป็นสิ่งที่สำคัญที่สุด เพียงใช้การถดถอยแบบสันแทน และที่อยู่ในหนังสือเกี่ยวกับการเลือกชุดย่อย !!! ; o)