มีการใช้ jackknifing ร่วมสมัยหรือไม่?

คำถาม: การ บูตสแตรปจะดีกว่าการใช้แม่แรง อย่างไรก็ตามฉันสงสัยว่ามีบางกรณีที่ jackknifing เป็นตัวเลือกเดียวหรืออย่างน้อยที่เป็นไปได้สำหรับการจำแนกลักษณะความไม่แน่นอนจากการประมาณค่าพารามิเตอร์ นอกจากนี้ในสถานการณ์จริงที่ว่าวิธีการลำเอียง / คลาดเคลื่อนนั้นมีความสัมพันธ์กับการบีบรัดและความสามารถในการให้ความรู้เบื้องต้นก่อนการพัฒนา bootstrap ที่ซับซ้อนมากขึ้น?

บริบทบางอย่าง: เพื่อนกำลังใช้อัลกอริทึมการเรียนรู้เครื่องดำ ( MaxEnt ) เพื่อจำแนกข้อมูลทางภูมิศาสตร์ที่เป็น "การแสดงตนเท่านั้น" หรือ "การบวกเท่านั้น" การประเมินรูปแบบทั่วไปโดยทั่วไปจะใช้ cross-validation และ ROC curves อย่างไรก็ตามเธอใช้เอาต์พุตของโมเดลเพื่อรับรายละเอียดตัวเลขเดียวของเอาต์พุตโมเดลและต้องการช่วงความมั่นใจรอบหมายเลขนั้น Jackknifing ดูเหมือนจะเป็นวิธีที่เหมาะสมในการอธิบายลักษณะของความไม่แน่นอนเกี่ยวกับค่านี้ การเริ่มการบูตไม่เกี่ยวข้องเนื่องจากจุดข้อมูลแต่ละจุดเป็นตำแหน่งที่ไม่ซ้ำกันบนแผนที่ที่ไม่สามารถสุ่มตัวอย่างได้ด้วยการแทนที่ โปรแกรมการสร้างแบบจำลองของตัวเองอาจจะสามารถให้สิ่งที่เธอต้องการในที่สุด; อย่างไรก็ตามฉันสนใจโดยทั่วไปหาก / เมื่อ jackknifing มีประโยชน์

— ยังไม่มีข้อความ
แหล่งที่มา

แอปพลิเคชั่นการทำแผนที่ดังกล่าว - การประมาณการจากสถานที่ตัวอย่างที่แยกจากกัน - เป็นสิ่งที่ฉันได้สังเกตเห็นการใช้งานของ jackknifing อย่างกว้างขวางสำหรับเหตุผลที่คุณให้ มันเป็นขั้นตอนมาตรฐานที่ดำเนินการเบื้องต้นเพื่อการแสดงที่น่าสนใจเช่น

— whuber

ในการตั้งค่าตัวอย่างต่ำเนื่องจากตัวอย่างการบูตสแตรปพร้อมการแทนที่เมทริกซ์ข้อมูลทั้งหมดสามารถกลายเป็นเอกพจน์ดังนั้นโมเดลจำนวนมากจึงเป็นไปไม่ได้ที่จะพอดี

— rep_ho

หากคุณรับแม่แรงไม่เพียง แต่จะรวมการลาออกหนึ่งครั้ง แต่การเปลี่ยนรูปแบบใหม่โดยไม่มีการเปลี่ยนเช่นขั้นตอน fold ฉันคิดว่ามันเป็นตัวเลือกที่ใช้การได้และใช้เป็นประจำเช่นใน Beleites et al : การให้เกรดรามันสเปกโทรสโกปีของเนื้อเยื่อ astrocytoma: การใช้ข้อมูลอ้างอิงอ่อน Anal Bioanal Chem, 2011, 400, 2801-2816 $k$

ดูเพิ่มเติมที่: ช่วงความมั่นใจสำหรับความแม่นยำในการจำแนกประเภทที่ผ่านการตรวจสอบความถูกต้องแล้ว

ฉันหลีกเลี่ยง LOO ด้วยเหตุผลหลายประการและแทนที่จะใช้รูปแบบ -fold ซ้ำ / ซ้ำ ในสาขาของฉัน (เคมี / สเปกโทรสโกปี / เคมี) การตรวจสอบไขว้เป็นสิ่งที่พบได้บ่อยกว่าการตรวจสอบนอกระบบ สำหรับข้อมูล / แอปพลิเคชันทั่วไปของเราเราพบว่าคูณiterated -fold cross validation และ iterations ของการประเมินประสิทธิภาพ out-of-bootstrap นั้นมีข้อผิดพลาดทั้งหมดคล้ายกันมาก[Beleites et al : การลดความแปรปรวนในการประเมินข้อผิดพลาดการจำแนกโดยใช้ชุดข้อมูลกระจัดกระจาย Chem.Intell.Lab.Syst 2005, 79, 91 -. 100] $k$ $i$ $k$ $i \cdot k$

ข้อได้เปรียบโดยเฉพาะที่ฉันเห็นสำหรับการตรวจสอบความถูกต้องแบบข้ามซ้ำในการทำ bootstrapping คือฉันสามารถหาเสถียรภาพ / แบบจำลองความไม่แน่นอนของมาตรการที่สามารถอธิบายได้อย่างสังหรณ์ใจได้อย่างง่ายดายและแยกสองสาเหตุที่แตกต่างกันของ การวัด out-of-bootstrap
บรรทัดหนึ่งของการให้เหตุผลที่ทำให้ฉันข้ามการตรวจสอบ / jackknifing กำลังดูความทนทานของโมเดล: การตรวจสอบไขว้สอดคล้องกับคำถามโดยตรงของประเภท"เกิดอะไรขึ้นกับแบบจำลองของฉันถ้าฉันแลกเปลี่ยนคดีสำหรับคดีใหม่ ?" $x$ $x$ หรือ"โมเดลของฉันมีความทนทานขนาดไหนเมื่อเทียบกับข้อมูลการฝึกอบรมโดยการแลกเปลี่ยนกรณี " $x$ วิธีนี้ใช้ได้กับการบูตสแตรปด้วย แต่น้อยกว่าโดยตรง

โปรดทราบว่าฉันไม่ได้พยายามหาช่วงความเชื่อมั่นเพราะข้อมูลของฉันมีการจัดกลุ่มอย่าง ( spectra ของผู้ป่วย ) ดังนั้นฉันจึงชอบรายงาน $n_s$ $n_p \ll n_s$

ช่วงความเชื่อมั่นทวินาม (อนุรักษ์นิยม) โดยใช้ประสิทธิภาพที่สังเกตได้โดยเฉลี่ยและเป็นขนาดตัวอย่างและ $n_p$
ความแปรปรวนที่ฉันสังเกตระหว่างการวนซ้ำของการตรวจสอบความถูกต้องไขว้ หลังจากการพับแต่ละกรณีจะถูกทดสอบอย่างแน่นอนหนึ่งครั้งโดยตัวแทนจำลองที่แตกต่างกัน ดังนั้นรูปแบบใด ๆ ที่สังเกตได้ระหว่างการรันต้องเกิดจากความไม่แน่นอนของโมเดล $i$ $k$ $i$

โดยทั่วไปคือถ้าแบบจำลองถูกตั้งค่าไว้อย่างดี 2. จำเป็นเพียงเพื่อแสดงว่ามันมีขนาดเล็กกว่าความแปรปรวนใน 1 มากและโมเดลนั้นมีความเสถียรพอสมควร หาก 2. กลายเป็นสิ่งที่ไม่สำคัญก็ถึงเวลาที่จะต้องพิจารณาแบบจำลองรวม: การรวมตัวแบบช่วยสำหรับความแปรปรวนที่เกิดจากความไม่เสถียรของแบบจำลองเท่านั้นมันไม่สามารถลดความไม่แน่นอนของความแปรปรวนในการวัดประสิทธิภาพที่เกิดขึ้น .

หมายเหตุว่าเพื่อให้ช่วงความเชื่อมั่นผลการดำเนินงานสร้างสำหรับข้อมูลดังกล่าวผมอย่างน้อยพิจารณาว่าความแปรปรวนที่สังเกตระหว่างวิ่งของการตรวจสอบข้ามเป็นของที่มีค่าเฉลี่ยของรุ่นของความไม่แน่นอนว่าคือผมว่าความแปรปรวนแบบจำลองความไม่แน่นอน เป็นสังเกตความแปรปรวนระหว่างการตรวจสอบข้ามวิ่ง; บวกความแปรปรวนเนื่องจากหมายเลขเคส จำกัด - สำหรับการวัดประสิทธิภาพการจำแนกประเภท (Hit / Error) นี่คือทวินาม สำหรับการวัดแบบต่อเนื่องฉันจะพยายามหาค่าความแปรปรวนจากการแปรปรวนการตรวจสอบความถูกต้องแบบข้าม, , และการประมาณค่าความแปรปรวนแบบไม่มีเสถียรภาพสำหรับแบบจำลองได้จาก $i$ $k$ $k \cdot$ $k$ $k$

ประโยชน์จาก crossvalidationนี่เป็นที่ที่คุณจะได้รับการแยกชัดเจนระหว่างความไม่แน่นอนที่เกิดจากความไม่แน่นอนของรูปแบบและความไม่แน่นอนที่เกิดจากการ จำกัด จำนวนของกรณีทดสอบ ข้อเสียที่สอดคล้องกันแน่นอนว่าหากคุณลืมนำจำนวนคดีจริงมาพิจารณาคุณจะประมาทความไม่แน่นอนที่แท้จริงอย่างรุนแรง อย่างไรก็ตามสิ่งนี้จะเกิดขึ้นสำหรับการทำ bootstrapping เช่นกัน (แม้ว่าจะมีขอบเขตน้อยกว่า)

เพื่อให้ห่างไกลมุ่งเน้นการให้เหตุผลในการวัดประสิทธิภาพการทำงานสำหรับรูปแบบที่คุณได้รับมาหาได้รับชุดข้อมูล หากคุณพิจารณาชุดข้อมูลสำหรับการใช้งานที่กำหนดและขนาดตัวอย่างที่กำหนดมีผลงานที่สามที่จะแปรปรวนที่ลึกซึ้งไม่สามารถวัดได้โดย resampling ตรวจสอบดูเช่นBengio & Grandvalet: ไม่เป็นกลางประมาณการของความแปรปรวนของ K-พับข้าม - การตรวจสอบความถูกต้อง, วารสารการวิจัยการเรียนรู้ของเครื่อง, 5, 1089-1105 (2004) เรายังมีตัวเลขแสดงการมีส่วนร่วมทั้งสามนี้ในBeleites และคณะ : การวางแผนขนาดตัวอย่างสำหรับแบบจำลองการจัดหมวดหมู่, Anal Chim Acta, 760, 25-33 (2013) DOI: 10.1016 / j.aca.2012.11.007 )
ฉันคิดว่าสิ่งที่เกิดขึ้นที่นี่เป็นผลมาจากสมมติฐานที่ว่า resampling คล้ายกับการวาดตัวอย่างใหม่ที่สมบูรณ์แบบ

นี่เป็นสิ่งสำคัญหากอัลกอรึทึมการสร้างแบบจำลอง / กลยุทธ์ / การวิเคราะห์พฤติกรรมถูกนำมาเปรียบเทียบมากกว่าการสร้างแบบจำลองเฉพาะสำหรับแอปพลิเคชันและตรวจสอบความถูกต้องของแบบจำลองนี้

— cbeleites ไม่มีความสุขกับ SX
แหล่งที่มา