การตรวจสอบความถูกต้องข้ามแบบซ้อน - แตกต่างจากการเลือกรุ่นผ่าน kfold CV ในชุดฝึกอบรมอย่างไร


10

ฉันมักจะเห็นคนพูดเกี่ยวกับการตรวจสอบ 5x2 ข้ามเป็นกรณีพิเศษของการตรวจสอบข้ามซ้อนกัน

ฉันถือว่าตัวเลขแรก (ที่นี่: 5) หมายถึงจำนวนเท่าในวงด้านในและหมายเลขที่สอง (ที่นี่: 2) หมายถึงจำนวนเท่าในวงด้านนอก? ดังนั้นวิธีนี้แตกต่างจากการเลือกรูปแบบและการประเมินผลแบบ "ดั้งเดิม" อย่างไร โดย "ดั้งเดิม" ฉันหมายถึง

  • แบ่งชุดข้อมูลออกเป็นการฝึกอบรมแยกต่างหาก (เช่น 80%) และชุดทดสอบ
  • ใช้การตรวจสอบความถูกต้องไขว้ของ k-fold (เช่น k = 10) สำหรับการปรับจูนพารามิเตอร์และการเลือกแบบจำลองในชุดฝึกอบรม
  • ประเมินประสิทธิภาพการวางนัยทั่วไปของรุ่นที่เลือกโดยใช้ชุดการทดสอบ

ไม่ใช่ 5x2 เหมือนกันทุกประการยกเว้นชุดทดสอบและชุดฝึกอบรมที่มีขนาดเท่ากันถ้า k = 2 หรือไม่


1
คุณถูกต้องในกรณีนี้มันเหมือนกันยกเว้นว่าจะใช้การแบ่ง 50/50 ในลูปด้านนอกแทนที่จะเป็น 80/20 โดยทั่วไปจะให้การประมาณที่ดีขึ้นของการวางนัยทั่วไปและควรเป็นที่ต้องการโดยเฉพาะกับขนาดตัวอย่างที่ค่อนข้างเล็ก จากประสบการณ์ของฉันแม้กระทั่ง CV ที่ซ้อนกันการประเมินประสิทธิภาพแตกต่างกันมาก บ่อยครั้งจะเป็นการดีกว่าที่จะทำ CV ซ้อนหลาย ๆ ครั้งเพื่อให้ได้ประสิทธิภาพการทำงานทั่วไปที่ดี
จอร์จ

ขอขอบคุณที่เข้าใจ! อย่างไรก็ตามสำหรับชุดฝึกขนาดเล็กฉันอาจเพิ่มจำนวนเท่าในห่วงด้านในและด้านนอก อาจลดความแปรปรวน แต่ยังเพิ่มความอคติแม้ว่า

โดยทั่วไปแทนที่จะทำ CV ซ้อนกัน 5x2 ฉันมักจะแสดง (k-1) xk โดยมี k = 5 หรือ 10 ในกรณีที่มีตัวอย่างไม่กี่ตัวอย่างแทนที่จะเพิ่มจำนวนการพับฉันจะใช้ค่า k ที่เล็กลง .
George

1
ฉันคิดว่าคุณมีมันย้อนกลับมากกว่าที่จะผิดอย่างสมบูรณ์ แต่คำตอบที่ได้รับการยอมรับอาจไม่เห็นด้วยกับแหล่งข้อมูลที่ฉันกำลังจะอ้างอิง ในการเรียนรู้ของ Python Machine Learning โดย Raschka เขาอ้างถึง "การตรวจสอบไขว้แบบซ้อนชนิดหนึ่งโดยเฉพาะหรือที่เรียกว่าการตรวจสอบความถูกต้องไขว้ 5x2" มีกราฟิครวมที่เขาแสดงให้เห็นว่า 2 หมายถึงลูปด้านในสำหรับการปรับพารามิเตอร์ไฮเปอร์และ 5 หมายถึงลูปด้านนอกสำหรับการประมาณประสิทธิภาพของโมเดลที่ไม่เอนเอียง สำเนาสีของกราฟิกที่สามารถพบได้ภายใต้สถานการณ์ที่ 3 ที่นี่: sebastianraschka.com/faq/docs/evaluate-a-model.html
ออสติน

คำตอบ:


13

เท่าที่ฉันเห็นในวรรณคดี 5x2cv อ้างอิงถึงการซ้ำซ้อน 5 เท่าของ 2 เท่า ไม่มีการทำรังเลย ทำ 2 เท่า (แยก 50/50 ระหว่างรถไฟและทดสอบ) ทำซ้ำ 4 ครั้ง กระดาษ 5x2cv ได้รับความนิยมโดยการทดสอบทางสถิติโดยประมาณสำหรับการเปรียบเทียบอัลกอริทึมการเรียนรู้การจำแนกประเภทภายใต้การดูแลโดย Dietterich เป็นวิธีการรับไม่เพียงประมาณการที่ดีของข้อผิดพลาดทั่วไป แต่ยังประเมินความแปรปรวนของข้อผิดพลาดที่ดี )


ขอบคุณ! คุณรู้ไหมว่าคนทั่วไปมักทำอะไรถ้าวงด้านในเลือกรูปแบบที่แตกต่างกันเช่นถ้าพารามิเตอร์การทำให้เป็นมาตรฐาน "ดีที่สุด" คือ lambda = 100 ระหว่างการเลือกรุ่นหนึ่งและ lambda = 1,000 สำหรับอีกรุ่นหนึ่ง? ในกรณีนี้การคำนวณประสิทธิภาพของแบบจำลองโดยเฉลี่ยน่าจะแปลกเล็กน้อยใช่มั้ย! คุณจะละทิ้งแบบจำลองว่า "ไม่เสถียร" หรือไม่?

3
การวนรอบด้านในน่าจะส่งผลในการเลือกพารามิเตอร์ คุณไม่ได้ใช้การตรวจสอบความถูกต้องข้ามแบบซ้อนเพื่อเลือกพารามิเตอร์หลายค่าเพื่อให้ได้ค่าประมาณที่ดีของข้อผิดพลาดการวางนัยทั่วไป (ด้วยพารามิเตอร์ที่ดีที่สุดที่เป็นไปได้) CV ที่ซ้อนกันถูกใช้เพื่อตัดสินใจระหว่างหนึ่งหรืออัลกอริทึมอื่น ดูstats.stackexchange.com/questions/136296/…หรือstats.stackexchange.com/questions/65128/… (ท่ามกลางคนอื่น ๆ )
Jacques Wainer

อ๋อฉันเข้าใจแล้วว่ามันสมเหตุสมผลแล้ว! ฉันคิดว่าคนใช้มันแตกต่างกัน ฉันคิดว่าเราสามารถปิดคำถามได้แล้ว

2

การทำซ้ำ 2 ครั้งในวงนอกหมายความว่าคุณทำซ้ำ CV 5 เท่าของคุณ 2 ครั้งในชุดรถไฟทั้งหมด แต่ละครั้งที่การแบ่งเป็นเท่าจะแตกต่างกัน

ส่วนใหญ่จะใช้สำหรับการประเมินประสิทธิภาพของแบบจำลองที่ดีกว่าเช่นการทดสอบทางสถิติว่าแบบจำลองหนึ่งมีประสิทธิภาพดีกว่าแบบอื่นหรือไม่

CV ที่ซ้อนกันไม่สำคัญอย่างยิ่งหากชุดข้อมูลของคุณมีขนาดใหญ่และไม่มีค่าผิดปกติ หากข้อมูลของคุณมีค่าผิดปกติกว่าประสิทธิภาพการตรวจสอบข้ามอาจแตกต่างกันอย่างมากขึ้นอยู่กับว่าค่าเหล่านี้มีค่าเท่าหรือเท่าดังนั้นคุณทำซ้ำ CV หลายครั้ง


จุดดี. ในวิธีการดั้งเดิม (แยกการทดสอบ / รถไฟแล้ว k-fold CV ในชุดการฝึกอบรม) คุณมีเพียง 1 เท่าสำหรับการประเมินแบบจำลองในขณะที่ 5x2 CV ประสิทธิภาพเฉลี่ยสามารถคำนวณได้จาก 2 เท่าที่แตกต่างกัน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.