ควรใช้การตรวจสอบข้ามซ้ำซ้ำเพื่อประเมินแบบจำลองการทำนาย?


16

ฉันเจอบทความปี 2555 นี้โดย Gitte Vanwinckelen และ Hendrik Blockeel เรียกร้องให้มีการสอบถามการใช้งานข้ามการตรวจสอบซ้ำซึ่งกลายเป็นเทคนิคยอดนิยมสำหรับการลดความแปรปรวนของการตรวจสอบข้าม

ผู้เขียนแสดงให้เห็นว่าในขณะที่การตรวจสอบข้ามซ้ำหลายครั้งจะลดความแปรปรวนของการทำนายแบบจำลองเนื่องจากชุดข้อมูลตัวอย่างเดียวกันกำลังถูก resampled ค่าเฉลี่ยของการประมาณการตรวจสอบความถูกต้องแบบข้ามที่ถูกสุ่มใหม่

ควรใช้การตรวจสอบข้ามซ้ำซ้ำทั้งๆที่มีข้อ จำกัด เหล่านี้หรือไม่?


6
จากประสบการณ์ของฉันการตรวจสอบข้าม (ทำซ้ำหรือไม่) ไม่ได้ให้ความแม่นยำในการทำนายที่ดีมาก แต่มันมีประโยชน์มากสำหรับการเปรียบเทียบประสิทธิภาพการทำนายของรุ่นต่าง ๆ เป็นวิธีที่ดีในการเลือกระหว่างรุ่น แต่ไม่ใช่วิธีที่ดีในการประเมินประสิทธิภาพของรุ่นเดียว
Flounderer

@ Flounderer นั่นเป็นจุดที่ดี การตีความบทความของฉันคือเราไม่สามารถทำการเปรียบเทียบโมเดลที่มีความหมายได้โดยอิงจากการตรวจสอบความถูกต้องข้ามซ้ำระหว่างการตรวจสอบความถูกต้องแบบซ้ำซ้อน คุณกำลังพยายามบีบข้อมูลที่ไม่สมเหตุสมผลออกจากข้อมูล หรือว่าไม่ถูกต้อง?
RobertF

คำตอบ:


11

การโต้เถียงที่กระดาษดูเหมือนว่าจะทำให้แปลกสำหรับฉัน

ตามกระดาษที่เป้าหมายของ CV คือการประเมินที่คาดว่าผลการดำเนินงานการทำนายของรูปแบบในข้อมูลใหม่ระบุว่ารูปแบบได้รับการฝึกฝนในชุดข้อมูลที่สังเกตS เมื่อเราดำเนินk CV เท่าเมื่อเราได้รับการประมาณการของจำนวนนี้ เนื่องจากการแบ่งพาร์ทิชันแบบสุ่มของSเข้าไปkเท่านี้เป็นตัวแปรสุ่ม~ ( )มีค่าเฉลี่ยμ kและความแปรปรวนσ 2 k ในทางตรงกันข้ามn -times ซ้ำอัตราผลตอบแทน CV ประมาณการที่มีค่าเฉลี่ยเท่ากันα2SkA^SkA^f(A)μkσk2nแต่มีขนาดเล็กแปรปรวน σ 2 k / nμkσk2/n

เห็นได้ชัดว่า k อคตินี้เป็นสิ่งที่เราต้องยอมรับα2μk

อย่างไรก็ตามข้อผิดพลาดที่คาดไว้จะมีขนาดใหญ่ขนาดเล็กสำหรับnและจะเป็นที่ใหญ่ที่สุดสำหรับn = 1อย่างน้อยภายใต้สมมติฐานที่เหมาะสมเกี่ยวกับF ( )เช่นเมื่อ˙ ~ N ( μ k , σ 2 k / n ) กล่าวอีกนัยหนึ่ง CV ซ้ำช่วยให้ได้ค่าประมาณμ k ที่แม่นยำยิ่งขึ้นE[|α2A^|2]nn=1f(A)A^˙N(μk,σk2/n)μkและมันก็เป็นสิ่งที่ดีเพราะจะช่วยให้การประมาณการที่แม่นยำมากขึ้นของ 2α2

ดังนั้น CV ที่ทำซ้ำจึงมีความแม่นยำมากกว่า CV ที่ไม่ได้ทำซ้ำ

ผู้เขียนไม่เถียงกับสิ่งนั้น! แต่พวกเขาอ้างว่าขึ้นอยู่กับสถานการณ์จำลองที่ว่า

การลดความแปรปรวน [โดยการทำ CV ซ้ำ] คือในหลาย ๆ กรณีไม่มีประโยชน์มากและเป็นการสูญเสียทรัพยากรการคำนวณ

นี่หมายความว่าในแบบจำลองของพวกเขานั้นค่อนข้างต่ำ และแน่นอนขนาดตัวอย่างต่ำสุดที่พวกเขาใช้เป็น200ซึ่งน่าจะเป็นขนาดใหญ่พอที่จะให้ผลผลิตขนาดเล็กσ 2 k (ความแตกต่างในการประมาณการที่ได้รับจาก CV ที่ไม่ได้ทำซ้ำและ CV ที่ทำซ้ำ 30 ครั้งนั้นมีขนาดเล็กเสมอ) ด้วยขนาดตัวอย่างที่เล็กกว่าเราสามารถคาดหวังความแปรปรวนระหว่างการซ้ำซ้อนที่มากขึ้นได้σk2200σk2

ถ้ำ: ช่วงความเชื่อมั่น!

อีกประเด็นที่ผู้เขียนกำลังทำอยู่ก็คือ

การรายงานช่วงความเชื่อมั่น [ในการตรวจสอบข้ามซ้ำ] กำลังทำให้เข้าใจผิด

ดูเหมือนว่าพวกเขาจะหมายถึงช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยในการทำซ้ำ CV ฉันเห็นด้วยอย่างยิ่งว่านี่เป็นสิ่งที่ไร้ความหมายในการรายงาน! ยิ่งมีการทำซ้ำ CV มากขึ้น CI นี้จะเล็กลง แต่ไม่มีใครสนใจ CI ในการประมาณค่าของเรา! เราดูแลเกี่ยวกับ CI รอบประมาณการของเราที่α 2μkα2

ผู้เขียนยังรายงาน CIs สำหรับ CV ที่ไม่ได้ทำซ้ำและมันก็ไม่ชัดเจนสำหรับฉันในการสร้าง CIs เหล่านี้ ฉันเดาว่านี่คือ CIs สำหรับค่าเฉลี่ยทั่วเท่า ฉันขอยืนยันว่า CIs เหล่านี้ก็ไร้ความหมายเช่นกัน!k

ลองดูหนึ่งในตัวอย่างของพวกเขา: ความถูกต้องของadultชุดข้อมูลด้วยอัลกอริทึม NB และขนาดตัวอย่าง 200 ตัวอย่าง พวกเขาได้รับ 78.0% ด้วย CV ที่ไม่ได้ทำซ้ำ, CI (72.26, 83.74), 79.0% (77.21, 80.79) ที่มี CV ซ้ำ 10 ครั้งและ 79.1% (78.07, 80.13) พร้อม CV ซ้ำ 30 ครั้ง CIs ทั้งหมดเหล่านี้ไร้ประโยชน์รวมถึงอันแรก ค่าประมาณที่ดีที่สุดของคือ 79.1% สิ่งนี้สอดคล้องกับ 158 ความสำเร็จจาก 200 สิ่งนี้ให้ช่วงความเชื่อมั่นทวินาม 95% ที่ (72.8, 84.5) - กว้างกว่าแม้จะเป็นครั้งแรกที่รายงาน หากฉันต้องการรายงานCI บางส่วนนี่คือสิ่งที่ฉันต้องการรายงานμk

ถ้ำทั่วไปเพิ่มเติม: ความแปรปรวนของ CV

คุณเขียน CV ซ้ำแล้วซ้ำอีก

ได้กลายเป็นเทคนิคยอดนิยมสำหรับการลดความแปรปรวนของการตรวจสอบข้าม

หนึ่งควรมีความชัดเจนมากว่า "แปรปรวน" ของ CV ซ้ำแล้วซ้ำอีก CV ช่วยลดความแปรปรวนของประมาณการของ k โปรดทราบว่าในกรณีของ CV แบบปล่อยทิ้งหนึ่งครั้ง (LOOCV) เมื่อk = Nความแปรปรวนนี้จะเท่ากับศูนย์ อย่างไรก็ตามมีการกล่าวกันบ่อย ๆ ว่า LOOCV นั้นมีความแปรปรวนสูงสุดของk- fold CVs ที่เป็นไปได้ทั้งหมด ดูเช่นที่นี่: ความแปรปรวนและความเอนเอียงในการตรวจสอบความถูกต้องข้าม: ทำไม CV แบบลาก่อนออกมาจึงมีความแปรปรวนสูงกว่าμkk=Nk

ทำไมถึงเป็นอย่างนั้น? เพราะนี่คือ LOOCV มีความแปรปรวนสูงที่สุดเป็นประมาณการของซึ่งเป็นที่คาดว่าผลการดำเนินงานการทำนายของรูปแบบกับข้อมูลใหม่เมื่อสร้างขึ้นบนชุดใหม่ของขนาดเดียวกับS นี่เป็นปัญหาที่แตกต่างอย่างสิ้นเชิงα1S


1
ฉันหวังว่า @cbeleites จะสังเกตเห็นกระทู้นี้และแสดงความคิดเห็นที่นี่หรือทิ้งคำตอบของตัวเอง: ฉันรู้ว่าเธอเป็น (หรือเคย) ใช้ CV ซ้ำหลายครั้งและฉันคิดว่าสนับสนุนการคำนวณความแปรปรวนมากกว่าการทำซ้ำ แต่ฉันไม่คิดว่าเธอจะคำนวณ CI มากกว่าการทำซ้ำ
อะมีบาพูดว่า Reinstate Monica

1
ขอบคุณสำหรับคำอธิบายที่ชัดเจนของกระดาษ ดังนั้นเพื่อสรุปตำแหน่งของคุณเมื่อคุณระบุ "กล่าวอีกนัยหนึ่ง CV ซ้ำช่วยให้ได้การประมาณที่แม่นยำยิ่งขึ้นของและเป็นสิ่งที่ดีเพราะให้การประมาณที่แม่นยำมากขึ้นของα 2 " คุณสนับสนุนการใช้ CV ซ้ำ ๆ เพื่อเปรียบเทียบโมเดลที่มีการวัดที่แม่นยำมากกว่าของμ k (แม้ว่าจะไม่ใช่การวัดที่แม่นยำมากกว่าของα 2 ) ไม่สนใจ CV CIs และมุ่งเน้นไปที่การเปรียบเทียบค่าเฉลี่ยμ k s สำหรับรุ่นต่างๆ μkα2μkα2μk
RobertF

1
@RobertF: ฉันกำลังพูด (ติดตาม V&B paper) เกี่ยวกับการประเมินประสิทธิภาพของแบบจำลอง วิทยานิพนธ์ของฉันคือ CV ที่ทำซ้ำมีความแม่นยำมากกว่า CV ที่ไม่ได้ทำซ้ำและฉันคิดว่ามันไม่น่าสงสัยเลย (V&R โต้แย้งแม้ว่าความแตกต่างของความแม่นยำมีแนวโน้มที่จะไม่สำคัญในทางปฏิบัติ) การเปรียบเทียบทั้งสองรุ่นนั้นมีความยุ่งยากมากกว่าเพราะสมมติว่าคุณรัน CV และรับ 70% สำหรับรุ่นหนึ่งและ 71% สำหรับรุ่นอื่น มันเป็นความแตกต่าง "สำคัญ" หรือไม่? นั่นเป็นปัญหาที่ยุ่งยากหากไม่มีคำตอบที่ชัดเจน และเป็นอิสระจากปัญหาซ้ำ / ไม่ซ้ำ
อะมีบาพูดว่า Reinstate Monica

อาหารสำหรับความคิด: Appliedpredictivemodeling.com/blog/2014/11/27/…
shadowtalker

1
งานที่ดี. รางวัลที่ได้รับ ฉันเดาว่าฉันจะสรุปคุณธรรมของเรื่องราวได้ว่า: การตรวจสอบความถูกต้องไขว้ซ้ำแล้วซ้ำอีกสามารถคาดหวังว่าจะมีประโยชน์เมื่อมีขนาดเล็กซึ่งมีแนวโน้มมากขึ้นสำหรับตัวอย่างที่ค่อนข้างเล็ก ปัญหาของข้อผิดพลาดในการทดสอบการตรวจสอบความถูกต้องโดยประมาณของชุดข้อมูลการฝึกอบรมที่ได้รับเทียบกับข้อผิดพลาดการทดสอบที่คาดหวังโดยใช้ชุดข้อมูลการฝึกอบรมแบบสุ่มขนาดเดียวกันถูกกล่าวถึงในส่วน 7.12 Hastie และคณะ สรุปได้ว่ามันดีกว่าในตอนหลัง σk
Kodiologist
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.