คำถามที่น่าสนใจมากฉันจะต้องอ่านเอกสารที่คุณให้ ... แต่บางทีนี่อาจจะทำให้เราได้รับคำตอบ:
ฉันมักจะจัดการกับปัญหานี้ในทางปฏิบัติ: ฉันวนซ้ำการตรวจสอบข้าม k-fold ด้วยการแยกแบบสุ่มใหม่และคำนวณประสิทธิภาพเช่นเดียวกับการทำซ้ำแต่ละครั้ง ตัวอย่างการทดสอบโดยรวมนั้นจะเหมือนกันสำหรับการวนซ้ำแต่ละครั้งและความแตกต่างนั้นมาจากการแยกข้อมูลที่แตกต่างกัน
ฉันรายงานสิ่งนี้เช่นเป็นเปอร์เซ็นต์ไทล์อันดับที่ 5 ถึง 95 ของประสิทธิภาพการทำงานที่สังเกตได้ แลกเปลี่ยนได้สูงสุดถึงตัวอย่างสำหรับตัวอย่างใหม่และอภิปรายว่าเป็นการวัดความไม่แน่นอนของแบบจำลองnk- 1
หมายเหตุด้านข้าง: ฉันไม่สามารถใช้สูตรที่ต้องการขนาดตัวอย่างได้ เนื่องจากข้อมูลของฉันมีการจัดกลุ่มหรือลำดับชั้นในโครงสร้าง (การวัดที่คล้ายกัน แต่ไม่ซ้ำกันในกรณีเดียวกันหลายแห่งโดยปกติแล้ว [ร้อย] สถานที่ต่างกันของตัวอย่างเดียวกัน) ฉันไม่รู้ขนาดตัวอย่างที่มีประสิทธิภาพ
เปรียบเทียบกับ bootstrapping:
การวนซ้ำใช้การแยกแบบสุ่มใหม่
ความแตกต่างหลักคือการสุ่มใหม่ด้วย (bootstrap) หรือไม่มี (cv) แทน
ค่าใช้จ่ายในการคำนวณมีค่าเท่ากันเนื่องจากฉันเลือก no iterations ของ cvของ bootstrap iterations / k, นั่นคือการคำนวณจำนวนรวมทั้งหมดของแบบจำลองเดียวกัน≈
bootstrap มีข้อได้เปรียบเหนือ cv ในแง่ของคุณสมบัติทางสถิติบางอย่าง (ถูกต้องแบบ asymptotically, คุณอาจต้องทำซ้ำน้อยกว่าเพื่อให้ได้ค่าประมาณที่ดี)
อย่างไรก็ตามด้วย CV คุณมีข้อได้เปรียบที่คุณรับประกันได้
- จำนวนตัวอย่างการฝึกอบรมที่แตกต่างกันจะเหมือนกันสำหรับทุกรุ่น (สำคัญหากคุณต้องการคำนวณเส้นโค้งการเรียนรู้)
- ตัวอย่างแต่ละตัวอย่างจะถูกทดสอบเพียงครั้งเดียวในแต่ละรอบซ้ำ
วิธีการจำแนกบางประเภทจะยกเลิกตัวอย่างซ้ำดังนั้นการบูตเครื่องจึงไม่เหมาะสม
ความแปรปรวนของประสิทธิภาพ
คำตอบสั้น ๆ : ใช่มันสมเหตุสมผลที่จะพูดถึงความแปรปรวนในสถานการณ์ที่มีเพียง {0,1} ผลลัพธ์เท่านั้น
ดูที่การแจกแจงทวินาม (k = ความสำเร็จ, n = การทดสอบ, p = ความน่าจะเป็นที่แท้จริงสำหรับความสำเร็จ = ค่าเฉลี่ย k / n):
σ2( k ) = n p ( 1 - p )
ความแปรปรวนของสัดส่วน (เช่นอัตราการเข้าชมอัตราข้อผิดพลาดความไว TPR, ... ฉันจะใช้นับจากนี้และสำหรับค่าที่สังเกตได้จากการทดสอบ) เป็นหัวข้อที่เติมหนังสือทั้งเล่ม .. .พีพีพี^
- Fleiss: วิธีการทางสถิติสำหรับอัตราและสัดส่วน
- Forthofer และ Lee: ชีวสถิติมีการแนะนำที่ดี
ตอนนี้และดังนั้น:พี^= kn
σ2( หน้า^) = p ( 1 - p )n
ซึ่งหมายความว่าความไม่แน่นอนสำหรับการวัดประสิทธิภาพของตัวจําแนกขึ้นอยู่กับประสิทธิภาพที่แท้จริง p ของแบบจำลองการทดสอบและจํานวนตัวอย่างทดสอบ
ในการตรวจสอบข้ามคุณถือว่า
ว่าโมเดล "ตัวแทน" มีประสิทธิภาพที่แท้จริงเช่นเดียวกับโมเดล "ของจริง" ที่คุณสร้างจากตัวอย่างทั้งหมด (รายละเอียดของข้อสันนิษฐานนี้เป็นอคติเชิงลบที่รู้จักกันดี)
ที่ k "ตัวแทน" มีประสิทธิภาพที่แท้จริงเหมือนกัน (เทียบเท่ามีการคาดการณ์ที่มั่นคง) ดังนั้นคุณจึงได้รับอนุญาตให้รวมผลลัพธ์ของการทดสอบ k
แน่นอนว่าไม่เพียงแค่โมเดล "ตัวแทน" ของการทำซ้ำ cv หนึ่งเดียวเท่านั้นที่สามารถรวมเข้าด้วยกันได้
ทำไมต้องทำซ้ำ?
สิ่งสำคัญที่การวนซ้ำบอกคุณคือความไม่แน่นอนของแบบจำลอง (การทำนาย) คือความแปรปรวนของการทำนายของตัวแบบที่แตกต่างกันสำหรับตัวอย่างเดียวกัน
คุณสามารถรายงานความไม่แน่นอนโดยตรงเช่นความแปรปรวนในการทำนายของกรณีทดสอบที่กำหนดโดยไม่คำนึงว่าการทำนายนั้นถูกต้องหรืออีกเล็กน้อยโดยอ้อมว่าการแปรปรวนของสำหรับการทำ cv ที่แตกต่างกันพี^
และนี่คือข้อมูลที่สำคัญ
ทีนี้ถ้าแบบจำลองของคุณมีเสถียรภาพอย่างสมบูรณ์หรือจะสร้างการทำนายที่เหมือนกันสำหรับตัวอย่างที่กำหนด กล่าวอีกนัยหนึ่งการวนซ้ำทั้งหมดจะมีผลลัพธ์เหมือนกัน ความแปรปรวนของการประมาณจะไม่ถูกลดลงโดยการวนซ้ำ (สมมติว่า ) ในกรณีดังกล่าวพบว่ามีการสันนิษฐาน 2 จากด้านบนและคุณอยู่ภายใต้โดยที่ n เป็นจำนวนตัวอย่างทั้งหมดที่ทดสอบทั้งหมด k พับของพันธุ์
ในกรณีนั้นไม่จำเป็นต้องทำซ้ำ (นอกเหนือจากเพื่อแสดงความเสถียร) k ⋅ n ฉันทีอีอาร์ ควี n - 1 ≈ n σ 2 ( P ) = P ( 1 - P )nขo o T s T R พีk ⋅ nฉันทีอีอาร์ ควี n - 1 ≈ nσ2( หน้า^) = p ( 1 - p )n
จากนั้นคุณสามารถสร้างความเชื่อมั่นในการดำเนินงานที่แท้จริงจากไม่พบความสำเร็จในการทดสอบ ดังนั้นอย่างเคร่งครัดจึงไม่จำเป็นต้องรายงานความไม่แน่นอนของความแปรปรวนหากมีการรายงานและอย่างไรก็ตามในสาขาของฉันมีคนไม่กี่คนที่รู้เรื่องนี้หรือแม้กระทั่งจับถนัดมือว่าความไม่แน่นอนนั้นมีขนาดใหญ่เพียงใด ดังนั้นฉันขอแนะนำให้รายงานต่อไปk n P nพีknพี^n
หากคุณสังเกตความไม่แน่นอนของโมเดลค่าเฉลี่ยที่รวมกันนั้นเป็นค่าประมาณที่ดีกว่าของประสิทธิภาพที่แท้จริง ความแปรปรวนระหว่างการวนซ้ำเป็นข้อมูลที่สำคัญและคุณสามารถเปรียบเทียบกับความแปรปรวนขั้นต่ำที่คาดหวังสำหรับชุดการทดสอบขนาด n ที่มีประสิทธิภาพเฉลี่ยที่แท้จริงเหนือกว่าการวนซ้ำทั้งหมด