การตรวจสอบความถูกต้องข้ามของ K-fold (CV) แบ่งข้อมูลของคุณเป็นพาร์ติชัน K แบบสุ่มและคุณจะถือหนึ่งในส่วน K เหล่านั้นไว้เป็นกรณีทดสอบและรวมส่วน K-1 อื่น ๆ เข้าด้วยกันเป็นข้อมูลการฝึกอบรมของคุณ ออกจาก One Out (LOO) เป็นกรณีพิเศษที่คุณใช้รายการข้อมูล N ของคุณและทำ N-fold CV ในบางกรณี Hold Out เป็นกรณีพิเศษอีกกรณีหนึ่งที่คุณเลือก K เท่าของคุณเป็นแบบทดสอบและไม่หมุนผ่าน K เท่าทั้งหมด
เท่าที่ฉันรู้ CV 10 เท่านั้นค่อนข้างเดอริกูร์เนื่องจากมันใช้ข้อมูลของคุณอย่างมีประสิทธิภาพและยังช่วยหลีกเลี่ยงตัวเลือกการแบ่งพาร์ติชันที่ไม่ดี Hold Out ไม่ได้ใช้ข้อมูลของคุณอย่างมีประสิทธิภาพและ LOO ไม่แข็งแกร่ง (หรืออะไรทำนองนั้น) แต่ 10-ish-fold นั้นถูกต้อง
หากคุณรู้ว่าข้อมูลของคุณมีมากกว่าหนึ่งหมวดหมู่และอย่างน้อยหนึ่งหมวดหมู่มีขนาดเล็กกว่าส่วนที่เหลือ K พาร์ติชันแบบสุ่มของคุณบางส่วนอาจไม่ได้มีหมวดหมู่ขนาดเล็กใด ๆ เลยซึ่งอาจไม่ดีเลย เพื่อให้แน่ใจว่าแต่ละพาร์ติชั่นเป็นตัวแทนที่สมเหตุสมผลคุณใช้การแบ่งชั้น: แบ่งข้อมูลของคุณออกเป็นหมวดหมู่แล้วสร้างพาร์ติชันแบบสุ่มโดยเลือกแบบสุ่มและตามสัดส่วนจากแต่ละหมวดหมู่
รูปแบบเหล่านี้ทั้งหมดใน K-fold CV เลือกจากข้อมูลของคุณโดยไม่ต้องเปลี่ยนใหม่ bootstrap เลือกข้อมูลที่มีการแทนที่ดังนั้น datum เดียวกันสามารถรวมได้หลายครั้งและข้อมูลบางอย่างอาจไม่รวมอยู่ด้วย (แต่ละพาร์ติชันจะมีไอเท็ม N รายการซึ่งแตกต่างจาก K-fold ซึ่งแต่ละพาร์ติชันจะมีรายการ N / K)
(ฉันต้องยอมรับว่าฉันไม่ทราบแน่ชัดว่าจะใช้ bootstrap ใน CV อย่างไรหลักการของการทดสอบและ CV คือการทำให้แน่ใจว่าคุณไม่ได้ทดสอบข้อมูลที่คุณได้รับการฝึกอบรม แนวคิดที่เป็นจริงมากขึ้นว่าเทคนิค + สัมประสิทธิ์ของคุณอาจทำงานอย่างไรในโลกแห่งความเป็นจริง)
แก้ไข: แทนที่ "การค้างออกไม่มีประสิทธิภาพ" ด้วย "การระงับไม่ได้ใช้ข้อมูลของคุณอย่างมีประสิทธิภาพ" เพื่อช่วยชี้แจงตามความคิดเห็น