หากคุณรับแม่แรงไม่เพียง แต่จะรวมการลาออกหนึ่งครั้ง แต่การเปลี่ยนรูปแบบใหม่โดยไม่มีการเปลี่ยนเช่นขั้นตอน fold ฉันคิดว่ามันเป็นตัวเลือกที่ใช้การได้และใช้เป็นประจำเช่นใน
Beleites et al : การให้เกรดรามันสเปกโทรสโกปีของเนื้อเยื่อ astrocytoma: การใช้ข้อมูลอ้างอิงอ่อน Anal Bioanal Chem, 2011, 400, 2801-2816k
ดูเพิ่มเติมที่: ช่วงความมั่นใจสำหรับความแม่นยำในการจำแนกประเภทที่ผ่านการตรวจสอบความถูกต้องแล้ว
ฉันหลีกเลี่ยง LOO ด้วยเหตุผลหลายประการและแทนที่จะใช้รูปแบบ -fold ซ้ำ / ซ้ำ ในสาขาของฉัน (เคมี / สเปกโทรสโกปี / เคมี) การตรวจสอบไขว้เป็นสิ่งที่พบได้บ่อยกว่าการตรวจสอบนอกระบบ สำหรับข้อมูล / แอปพลิเคชันทั่วไปของเราเราพบว่าคูณiterated -fold cross validation และ iterations ของการประเมินประสิทธิภาพ out-of-bootstrap นั้นมีข้อผิดพลาดทั้งหมดคล้ายกันมาก[Beleites et al : การลดความแปรปรวนในการประเมินข้อผิดพลาดการจำแนกโดยใช้ชุดข้อมูลกระจัดกระจาย Chem.Intell.Lab.Syst 2005, 79, 91 -. 100]kiki⋅k
ข้อได้เปรียบโดยเฉพาะที่ฉันเห็นสำหรับการตรวจสอบความถูกต้องแบบข้ามซ้ำในการทำ bootstrapping คือฉันสามารถหาเสถียรภาพ / แบบจำลองความไม่แน่นอนของมาตรการที่สามารถอธิบายได้อย่างสังหรณ์ใจได้อย่างง่ายดายและแยกสองสาเหตุที่แตกต่างกันของ การวัด out-of-bootstrap
บรรทัดหนึ่งของการให้เหตุผลที่ทำให้ฉันข้ามการตรวจสอบ / jackknifing กำลังดูความทนทานของโมเดล: การตรวจสอบไขว้สอดคล้องกับคำถามโดยตรงของประเภท"เกิดอะไรขึ้นกับแบบจำลองของฉันถ้าฉันแลกเปลี่ยนคดีสำหรับคดีใหม่ ?" xxหรือ"โมเดลของฉันมีความทนทานขนาดไหนเมื่อเทียบกับข้อมูลการฝึกอบรมโดยการแลกเปลี่ยนกรณี "x วิธีนี้ใช้ได้กับการบูตสแตรปด้วย แต่น้อยกว่าโดยตรง
โปรดทราบว่าฉันไม่ได้พยายามหาช่วงความเชื่อมั่นเพราะข้อมูลของฉันมีการจัดกลุ่มอย่าง ( spectra ของผู้ป่วย ) ดังนั้นฉันจึงชอบรายงานnsnp≪ns
ช่วงความเชื่อมั่นทวินาม (อนุรักษ์นิยม) โดยใช้ประสิทธิภาพที่สังเกตได้โดยเฉลี่ยและเป็นขนาดตัวอย่างและnp
ความแปรปรวนที่ฉันสังเกตระหว่างการวนซ้ำของการตรวจสอบความถูกต้องไขว้ หลังจากการพับแต่ละกรณีจะถูกทดสอบอย่างแน่นอนหนึ่งครั้งโดยตัวแทนจำลองที่แตกต่างกัน ดังนั้นรูปแบบใด ๆ ที่สังเกตได้ระหว่างการรันต้องเกิดจากความไม่แน่นอนของโมเดลiki
โดยทั่วไปคือถ้าแบบจำลองถูกตั้งค่าไว้อย่างดี 2. จำเป็นเพียงเพื่อแสดงว่ามันมีขนาดเล็กกว่าความแปรปรวนใน 1 มากและโมเดลนั้นมีความเสถียรพอสมควร หาก 2. กลายเป็นสิ่งที่ไม่สำคัญก็ถึงเวลาที่จะต้องพิจารณาแบบจำลองรวม: การรวมตัวแบบช่วยสำหรับความแปรปรวนที่เกิดจากความไม่เสถียรของแบบจำลองเท่านั้นมันไม่สามารถลดความไม่แน่นอนของความแปรปรวนในการวัดประสิทธิภาพที่เกิดขึ้น .
หมายเหตุว่าเพื่อให้ช่วงความเชื่อมั่นผลการดำเนินงานสร้างสำหรับข้อมูลดังกล่าวผมอย่างน้อยพิจารณาว่าความแปรปรวนที่สังเกตระหว่างวิ่งของการตรวจสอบข้ามเป็นของที่มีค่าเฉลี่ยของรุ่นของความไม่แน่นอนว่าคือผมว่าความแปรปรวนแบบจำลองความไม่แน่นอน เป็นสังเกตความแปรปรวนระหว่างการตรวจสอบข้ามวิ่ง; บวกความแปรปรวนเนื่องจากหมายเลขเคส จำกัด - สำหรับการวัดประสิทธิภาพการจำแนกประเภท (Hit / Error) นี่คือทวินาม สำหรับการวัดแบบต่อเนื่องฉันจะพยายามหาค่าความแปรปรวนจากการแปรปรวนการตรวจสอบความถูกต้องแบบข้าม, , และการประมาณค่าความแปรปรวนแบบไม่มีเสถียรภาพสำหรับแบบจำลองได้จากikk⋅kk
ประโยชน์จาก crossvalidationนี่เป็นที่ที่คุณจะได้รับการแยกชัดเจนระหว่างความไม่แน่นอนที่เกิดจากความไม่แน่นอนของรูปแบบและความไม่แน่นอนที่เกิดจากการ จำกัด จำนวนของกรณีทดสอบ ข้อเสียที่สอดคล้องกันแน่นอนว่าหากคุณลืมนำจำนวนคดีจริงมาพิจารณาคุณจะประมาทความไม่แน่นอนที่แท้จริงอย่างรุนแรง อย่างไรก็ตามสิ่งนี้จะเกิดขึ้นสำหรับการทำ bootstrapping เช่นกัน (แม้ว่าจะมีขอบเขตน้อยกว่า)
เพื่อให้ห่างไกลมุ่งเน้นการให้เหตุผลในการวัดประสิทธิภาพการทำงานสำหรับรูปแบบที่คุณได้รับมาหาได้รับชุดข้อมูล หากคุณพิจารณาชุดข้อมูลสำหรับการใช้งานที่กำหนดและขนาดตัวอย่างที่กำหนดมีผลงานที่สามที่จะแปรปรวนที่ลึกซึ้งไม่สามารถวัดได้โดย resampling ตรวจสอบดูเช่นBengio & Grandvalet: ไม่เป็นกลางประมาณการของความแปรปรวนของ K-พับข้าม - การตรวจสอบความถูกต้อง, วารสารการวิจัยการเรียนรู้ของเครื่อง, 5, 1089-1105 (2004) เรายังมีตัวเลขแสดงการมีส่วนร่วมทั้งสามนี้ในBeleites และคณะ : การวางแผนขนาดตัวอย่างสำหรับแบบจำลองการจัดหมวดหมู่, Anal Chim Acta, 760, 25-33 (2013) DOI: 10.1016 / j.aca.2012.11.007 )
ฉันคิดว่าสิ่งที่เกิดขึ้นที่นี่เป็นผลมาจากสมมติฐานที่ว่า resampling คล้ายกับการวาดตัวอย่างใหม่ที่สมบูรณ์แบบ
นี่เป็นสิ่งสำคัญหากอัลกอรึทึมการสร้างแบบจำลอง / กลยุทธ์ / การวิเคราะห์พฤติกรรมถูกนำมาเปรียบเทียบมากกว่าการสร้างแบบจำลองเฉพาะสำหรับแอปพลิเคชันและตรวจสอบความถูกต้องของแบบจำลองนี้