ฉันต้องการความคิดของคุณเกี่ยวกับความแตกต่างระหว่างการตรวจสอบความถูกต้องระหว่างกันและการบูตสแตรปเพื่อประเมินข้อผิดพลาดในการทำนาย
ทำงานได้ดีกว่าสำหรับชุดข้อมูลขนาดเล็กหรือชุดข้อมูลขนาดใหญ่หรือไม่
ฉันต้องการความคิดของคุณเกี่ยวกับความแตกต่างระหว่างการตรวจสอบความถูกต้องระหว่างกันและการบูตสแตรปเพื่อประเมินข้อผิดพลาดในการทำนาย
ทำงานได้ดีกว่าสำหรับชุดข้อมูลขนาดเล็กหรือชุดข้อมูลขนาดใหญ่หรือไม่
คำตอบ:
มันแปรปรวนและมีอคติ (ตามปกติ) CV มีแนวโน้มที่จะเอนเอียงน้อยลง แต่ K-fold CV มีความแปรปรวนค่อนข้างมาก ในทางกลับกัน bootstrapping มีแนวโน้มที่จะลดความแปรปรวนอย่างมาก แต่ให้ผลลัพธ์ที่มีอคติมากขึ้น วิธีการบูตสแตรปอื่น ๆ ได้รับการปรับให้จัดการกับ bootstrap bias (เช่นกฎ 632 และ 632+)
อีกสองวิธีคือ "มอนติคาร์โล CV" หรือที่เรียกว่า "ออกจากกลุ่ม CV" ซึ่งแยกข้อมูลแบบสุ่มจำนวนมาก (เช่นการฝึกอบรมย่อยและการทดสอบย่อย) ความแปรปรวนต่ำมากสำหรับวิธีนี้และอคติไม่เลวร้ายเกินไปหากเปอร์เซ็นต์ของข้อมูลในการรออนุมัติอยู่ในระดับต่ำ นอกจากนี้ CV ซ้ำแล้วซ้ำอีกทำให้ K-fold หลายครั้งและค่าเฉลี่ยผลลัพธ์คล้ายกับ K-fold ปกติ ฉันเป็นส่วนใหญ่ของเรื่องนี้เพราะมันรักษาอคติต่ำและลดความแปรปรวน
สำหรับกลุ่มตัวอย่างขนาดใหญ่ปัญหาความแปรปรวนมีความสำคัญน้อยกว่าและส่วนการคำนวณเป็นปัญหามากกว่า ฉันยังคงใช้ CV ซ้ำสำหรับตัวอย่างขนาดเล็กและใหญ่
งานวิจัยที่เกี่ยวข้องอยู่ด้านล่าง (โดยเฉพาะคิมและโมลินาโร)
Bengio, Y. , & Grandvalet, Y. (2005) อคติในการประเมินความแปรปรวนของการตรวจสอบความถูกต้องข้ามของ k-fold การสร้างแบบจำลองและวิเคราะห์ทางสถิติสำหรับปัญหาข้อมูลที่ซับซ้อนหน้า 75–95
Braga-Neto, UM (2004) การตรวจสอบความถูกต้องไขว้ใช้ได้สำหรับการจำแนกทางจุลชีววิทยาตัวอย่างเล็ก ๆ , 20 (3), 374–380 ดอย: 10.1093 / ชีวสารสนเทศ / btg419
Efron, B. (1983) การประมาณอัตราความผิดพลาดของกฎการทำนาย: การปรับปรุงการตรวจสอบข้าม วารสารสมาคมสถิติอเมริกัน, 316–331
Efron, B. , & Tibshirani, R. (1997) การปรับปรุงการตรวจสอบข้าม: 632+ วิธีบูตสแตรป วารสารสมาคมสถิติอเมริกัน, 548–560
Furlanello, C. , Merler, S. , Chemini, C. , & Rizzoli, A. (1997) แอปพลิเคชันของกฎ bootstrap 632+ กับข้อมูลระบบนิเวศ WIRN 97
Jiang, W. , & Simon, R. (2007) การเปรียบเทียบวิธีบูตสแตรปกับวิธีบูทสแตรปที่ปรับเพื่อประเมินข้อผิดพลาดการทำนายในการจำแนกประเภทไมโครเรย์ สถิติทางการแพทย์, 26 (29), 5320–5334
โจนาธาน, พี, Krzanowski, W. , & McCarthy, W. (2000) ในการใช้การตรวจสอบข้ามในการประเมินประสิทธิภาพในการทำนายหลายตัวแปร สถิติและคอมพิวเตอร์, 10 (3), 209–229
คิม, เจ - เอช (2009) การประมาณอัตราข้อผิดพลาดการจัดหมวดหมู่: การตรวจสอบความถูกต้องข้ามซ้ำการระงับซ้ำและการบูตซ้ำ สถิติการคำนวณและการวิเคราะห์ข้อมูล, 53 (11), 3735–3745 ดอย: 10.1016 / j.csda.2009.04.009
Kohavi, R. (1995) การศึกษาการตรวจสอบข้ามและการบูตเพื่อประเมินความถูกต้องและการเลือกแบบจำลอง การประชุมร่วมกันระหว่างประเทศเกี่ยวกับปัญญาประดิษฐ์, 14, 1137–1145
มาร์ติน, J. , & Hirschberg, D. (1996) สถิติตัวอย่างเล็กน้อยสำหรับการจำแนกอัตราความผิดพลาด I: การวัดอัตราความผิดพลาด
Molinaro, AM (2005) การประมาณค่าข้อผิดพลาดการทำนาย: การเปรียบเทียบวิธีการสุ่มตัวอย่างใหม่ ชีวสารสนเทศศาสตร์, 21 (15), 3301–3307 ดอย: 10.1093 / ชีวสารสนเทศ / bti499
Sauerbrei, W. , & Schumacher 1, M. (2000) Bootstrap และการตรวจสอบความถูกต้องข้ามเพื่อประเมินความซับซ้อนของตัวแบบการถดถอยแบบขับเคลื่อนด้วยข้อมูล การวิเคราะห์ข้อมูลทางการแพทย์, 26–28
Tibshirani, RJ, & Tibshirani, R. (2009) การแก้ไขค่าไบอัสสำหรับอัตราข้อผิดพลาดขั้นต่ำในการตรวจสอบข้าม Arxiv preprint arXiv: 0908.2904
@ Frank Harrell ทำงานหลายอย่างกับคำถามนี้ ฉันไม่รู้การอ้างอิงเฉพาะ
แต่ฉันค่อนข้างเห็นทั้งสองเทคนิคว่าเป็นเพื่อวัตถุประสงค์ที่แตกต่าง การตรวจสอบความถูกต้องไขว้เป็นเครื่องมือที่ดีเมื่อตัดสินใจเลือกโมเดล - ช่วยให้คุณหลีกเลี่ยงการหลอกตัวเองโดยคิดว่าคุณมีแบบจำลองที่ดีเมื่อในความเป็นจริงคุณกำลัง overfitting
เมื่อแบบจำลองของคุณได้รับการแก้ไขจากนั้นใช้ bootstrap ทำให้รู้สึกมากขึ้น (กับฉันอย่างน้อย)
มีการแนะนำแนวคิดเหล่านี้ (รวมถึงการทดสอบการเปลี่ยนรูป) โดยใช้ R ที่http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html
ความเข้าใจของฉันคือการ bootstrapping เป็นวิธีการหาปริมาณความไม่แน่นอนในแบบจำลองของคุณในขณะที่การตรวจสอบความถูกต้องของข้อมูลนั้นใช้สำหรับการเลือกแบบจำลองและการวัดความแม่นยำเชิงทำนาย
ข้อแตกต่างประการหนึ่งคือการตรวจสอบข้ามเช่น Jackknife ใช้จุดข้อมูลทั้งหมดของคุณในขณะที่การบูตสแตรปปิ้งซึ่งสุ่มข้อมูลของคุณแบบสุ่มอาจไม่ได้คะแนนทั้งหมด
คุณสามารถ bootstrap ได้ตราบใดที่คุณต้องการหมายถึง resample ที่มีขนาดใหญ่ขึ้นซึ่งจะช่วยให้มีตัวอย่างน้อยลง
cross-validation หรือ jackknife เฉลี่ยจะเหมือนกับค่าเฉลี่ยตัวอย่างในขณะที่ค่าเฉลี่ย bootstrap นั้นไม่น่าจะเหมือนกันกับค่าเฉลี่ยตัวอย่าง
เนื่องจากการตรวจสอบความถูกต้องไขว้และน้ำหนักของแม่แรงทั้งหมดจุดตัวอย่างเดียวกันพวกเขาควรมีช่วงความเชื่อมั่นที่น้อยกว่า (แม้ว่าอาจจะไม่ถูกต้อง) กว่า bootstrap
นี่เป็นเทคนิคสองวิธีในการ resampling:
ในการตรวจสอบข้ามเราแบ่งข้อมูลแบบสุ่มเป็น kfold และช่วยในการ overfitting แต่วิธีการนี้มีข้อเสียเปรียบ เนื่องจากมันใช้ตัวอย่างแบบสุ่มดังนั้นบางตัวอย่างจึงเกิดข้อผิดพลาดที่สำคัญ เพื่อที่จะย่อขนาด CV ให้มีเทคนิค แต่มันก็ไม่ได้ทรงพลังอะไรกับปัญหาการจำแนก Bootstrap ช่วยในเรื่องนี้มันช่วยปรับปรุงข้อผิดพลาดจากการตรวจสอบตัวอย่างของตัวเอง .. สำหรับรายละเอียดโปรดดู ..
https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf