การโต้เถียงที่กระดาษดูเหมือนว่าจะทำให้แปลกสำหรับฉัน
ตามกระดาษที่เป้าหมายของ CV คือการประเมินที่คาดว่าผลการดำเนินงานการทำนายของรูปแบบในข้อมูลใหม่ระบุว่ารูปแบบได้รับการฝึกฝนในชุดข้อมูลที่สังเกตS เมื่อเราดำเนินk CV เท่าเมื่อเราได้รับการประมาณการของจำนวนนี้ เนื่องจากการแบ่งพาร์ทิชันแบบสุ่มของSเข้าไปkเท่านี้เป็นตัวแปรสุ่ม~ ฉ( )มีค่าเฉลี่ยμ kและความแปรปรวนσ 2 k ในทางตรงกันข้ามn -times ซ้ำอัตราผลตอบแทน CV ประมาณการที่มีค่าเฉลี่ยเท่ากันα2SkA^SkA^∼f(A)μkσ2knแต่มีขนาดเล็กแปรปรวน σ 2 k / nμkσ2k/n
เห็นได้ชัดว่า k อคตินี้เป็นสิ่งที่เราต้องยอมรับα2≠μk
อย่างไรก็ตามข้อผิดพลาดที่คาดไว้จะมีขนาดใหญ่ขนาดเล็กสำหรับnและจะเป็นที่ใหญ่ที่สุดสำหรับn = 1อย่างน้อยภายใต้สมมติฐานที่เหมาะสมเกี่ยวกับF ( )เช่นเมื่อ˙ ~ N ( μ k , σ 2 k / n ) กล่าวอีกนัยหนึ่ง CV ซ้ำช่วยให้ได้ค่าประมาณμ k ที่แม่นยำยิ่งขึ้นE[|α2−A^|2]nn=1f(A)A^∼˙N(μk,σ2k/n)μkและมันก็เป็นสิ่งที่ดีเพราะจะช่วยให้การประมาณการที่แม่นยำมากขึ้นของ 2α2
ดังนั้น CV ที่ทำซ้ำจึงมีความแม่นยำมากกว่า CV ที่ไม่ได้ทำซ้ำ
ผู้เขียนไม่เถียงกับสิ่งนั้น! แต่พวกเขาอ้างว่าขึ้นอยู่กับสถานการณ์จำลองที่ว่า
การลดความแปรปรวน [โดยการทำ CV ซ้ำ] คือในหลาย ๆ กรณีไม่มีประโยชน์มากและเป็นการสูญเสียทรัพยากรการคำนวณ
นี่หมายความว่าในแบบจำลองของพวกเขานั้นค่อนข้างต่ำ และแน่นอนขนาดตัวอย่างต่ำสุดที่พวกเขาใช้เป็น200ซึ่งน่าจะเป็นขนาดใหญ่พอที่จะให้ผลผลิตขนาดเล็กσ 2 k (ความแตกต่างในการประมาณการที่ได้รับจาก CV ที่ไม่ได้ทำซ้ำและ CV ที่ทำซ้ำ 30 ครั้งนั้นมีขนาดเล็กเสมอ) ด้วยขนาดตัวอย่างที่เล็กกว่าเราสามารถคาดหวังความแปรปรวนระหว่างการซ้ำซ้อนที่มากขึ้นได้σ2k200σ2k
ถ้ำ: ช่วงความเชื่อมั่น!
อีกประเด็นที่ผู้เขียนกำลังทำอยู่ก็คือ
การรายงานช่วงความเชื่อมั่น [ในการตรวจสอบข้ามซ้ำ] กำลังทำให้เข้าใจผิด
ดูเหมือนว่าพวกเขาจะหมายถึงช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยในการทำซ้ำ CV ฉันเห็นด้วยอย่างยิ่งว่านี่เป็นสิ่งที่ไร้ความหมายในการรายงาน! ยิ่งมีการทำซ้ำ CV มากขึ้น CI นี้จะเล็กลง แต่ไม่มีใครสนใจ CI ในการประมาณค่าของเรา! เราดูแลเกี่ยวกับ CI รอบประมาณการของเราที่α 2μkα2
ผู้เขียนยังรายงาน CIs สำหรับ CV ที่ไม่ได้ทำซ้ำและมันก็ไม่ชัดเจนสำหรับฉันในการสร้าง CIs เหล่านี้ ฉันเดาว่านี่คือ CIs สำหรับค่าเฉลี่ยทั่วเท่า ฉันขอยืนยันว่า CIs เหล่านี้ก็ไร้ความหมายเช่นกัน!k
ลองดูหนึ่งในตัวอย่างของพวกเขา: ความถูกต้องของadult
ชุดข้อมูลด้วยอัลกอริทึม NB และขนาดตัวอย่าง 200 ตัวอย่าง พวกเขาได้รับ 78.0% ด้วย CV ที่ไม่ได้ทำซ้ำ, CI (72.26, 83.74), 79.0% (77.21, 80.79) ที่มี CV ซ้ำ 10 ครั้งและ 79.1% (78.07, 80.13) พร้อม CV ซ้ำ 30 ครั้ง CIs ทั้งหมดเหล่านี้ไร้ประโยชน์รวมถึงอันแรก ค่าประมาณที่ดีที่สุดของคือ 79.1% สิ่งนี้สอดคล้องกับ 158 ความสำเร็จจาก 200 สิ่งนี้ให้ช่วงความเชื่อมั่นทวินาม 95% ที่ (72.8, 84.5) - กว้างกว่าแม้จะเป็นครั้งแรกที่รายงาน หากฉันต้องการรายงานCI บางส่วนนี่คือสิ่งที่ฉันต้องการรายงานμk
ถ้ำทั่วไปเพิ่มเติม: ความแปรปรวนของ CV
คุณเขียน CV ซ้ำแล้วซ้ำอีก
ได้กลายเป็นเทคนิคยอดนิยมสำหรับการลดความแปรปรวนของการตรวจสอบข้าม
หนึ่งควรมีความชัดเจนมากว่า "แปรปรวน" ของ CV ซ้ำแล้วซ้ำอีก CV ช่วยลดความแปรปรวนของประมาณการของ k โปรดทราบว่าในกรณีของ CV แบบปล่อยทิ้งหนึ่งครั้ง (LOOCV) เมื่อk = Nความแปรปรวนนี้จะเท่ากับศูนย์ อย่างไรก็ตามมีการกล่าวกันบ่อย ๆ ว่า LOOCV นั้นมีความแปรปรวนสูงสุดของk- fold CVs ที่เป็นไปได้ทั้งหมด ดูเช่นที่นี่: ความแปรปรวนและความเอนเอียงในการตรวจสอบความถูกต้องข้าม: ทำไม CV แบบลาก่อนออกมาจึงมีความแปรปรวนสูงกว่าμkk=Nk
ทำไมถึงเป็นอย่างนั้น? เพราะนี่คือ LOOCV มีความแปรปรวนสูงที่สุดเป็นประมาณการของซึ่งเป็นที่คาดว่าผลการดำเนินงานการทำนายของรูปแบบกับข้อมูลใหม่เมื่อสร้างขึ้นบนชุดใหม่ของขนาดเดียวกับS นี่เป็นปัญหาที่แตกต่างอย่างสิ้นเชิงα1S