เนื่องจาก OP ได้ให้ความสำคัญกับคำถามนี้จึงควรดึงดูดความสนใจและดังนั้นจึงเป็นสถานที่ที่เหมาะสมในการพูดคุยแนวคิดทั่วไปบางอย่างแม้ว่ามันจะไม่ตอบ OP โดยตรง
ชื่อจริง:
ก) การตรวจสอบความถูกต้องไขว้เป็นชื่อทั่วไปสำหรับเทคนิคการประมาณ / การวัดทั้งหมดที่ใช้ชุดทดสอบที่แตกต่างจากชุดรถไฟ คำพ้องความหมาย: การประมาณค่านอกตัวอย่างหรือการสุ่มตัวอย่างพิเศษ Antonym: การประมาณค่าในตัวอย่าง
การประมาณในตัวอย่างเป็นเทคนิคที่ใช้ข้อมูลบางอย่างในชุดฝึกอบรมเพื่อประเมินคุณภาพของแบบจำลอง (ไม่จำเป็นต้องมีข้อผิดพลาด) นี่เป็นเรื่องธรรมดามากถ้าโมเดลมีอคติสูง - นั่นคือ - ทำให้มีสมมติฐานที่แข็งแกร่งเกี่ยวกับข้อมูล ในโมเดลเชิงเส้น (โมเดลไบแอสสูง) ตามตัวอย่างของคำถามเราใช้ R-squared, AIC, BIC, deviance เป็นการวัดคุณภาพของแบบจำลองทั้งหมดนี้เป็นตัวประมาณในตัวอย่าง ใน SVM ตัวอย่างเช่นข้อมูลอัตราส่วนในเวกเตอร์สนับสนุนต่อจำนวนข้อมูลเป็นการประมาณค่าในข้อผิดพลาดของแบบจำลอง
มีเทคนิคการตรวจสอบข้ามหลายประการ:
b) การค้างเอาไว้เป็นวิธีที่ # 1 ข้างต้น แบ่งชุดการฝึกอบรมและการทดสอบหนึ่ง มีประวัติการถกเถียงและฝึกฝนอย่างยาวนานเกี่ยวกับขนาดสัมพัทธ์ของชุดการฝึกอบรมและการทดสอบ
c) k -fold - วิธีที่ # 2 ข้างต้น มาตรฐานสวย
d) การลาออกครั้งเดียว - วิธีที่ # 3 ด้านบน
e) bootstrap : หากชุดของคุณมีข้อมูลNให้สุ่มเลือกตัวอย่างN ที่มีการเปลี่ยนจากชุดและใช้เป็นการฝึกอบรม ข้อมูลจากชุดต้นฉบับที่ไม่ได้รับการเก็บตัวอย่างตลอดเวลาจะถูกใช้เป็นชุดทดสอบ มีวิธีที่แตกต่างกันในการคำนวณการประเมินความผิดพลาดขั้นสุดท้ายของแบบจำลองซึ่งใช้ทั้งข้อผิดพลาดสำหรับชุดทดสอบ (ตัวอย่างนอก) และข้อผิดพลาดสำหรับชุดรถไฟ (ในตัวอย่าง) ดูตัวอย่าง bootstrap .632 ฉันคิดว่ายังมีสูตร. 632+ ซึ่งเป็นสูตรที่ประเมินข้อผิดพลาดที่แท้จริงของโมเดลโดยใช้ข้อผิดพลาดทั้งจากตัวอย่างและในตัวอย่าง
ฉ) มุมฉากกับการเลือกวิธีการด้านบนเป็นปัญหาของการทำซ้ำ ยกเว้นการลาออกหนึ่งครั้งวิธีการทั้งหมดข้างต้นสามารถทำซ้ำได้หลายครั้ง ในความเป็นจริงเราสามารถพูดคุยเกี่ยวกับ REPEATED hold-out หรือREPEATED k -fold เพื่อความเป็นธรรมมักใช้วิธีบูตสแตรปในรูปแบบซ้ำ ๆ
คำถามต่อไปคือวิธีไหน"ดีกว่า" ปัญหาคือสิ่งที่ "ดีกว่า" หมายถึง
1) คำตอบแรกคือว่าแต่ละวิธีเหล่านี้มีความเอนเอียงเพื่อประเมินความผิดพลาดของแบบจำลอง (สำหรับจำนวนข้อมูลที่ไม่มีที่สิ้นสุดในอนาคต) หรือไม่
2) ทางเลือกที่สองคือความเร็วหรือวิธีการที่ดีในแต่ละวิธีเหล่านี้มาบรรจบกับข้อผิดพลาดของตัวแบบที่แท้จริง (ถ้าพวกเขาไม่ลำเอียง) ฉันเชื่อว่านี่ยังคงเป็นหัวข้อของการวิจัย ให้ฉันชี้ไปที่เอกสารทั้งสองนี้ (ด้านหลังจ่ายผนัง) แต่นามธรรมทำให้เราเข้าใจว่าพวกเขาพยายามทำอะไร นอกจากนี้สังเกตว่ามันเป็นเรื่องธรรมดามากที่จะเรียกk -fold ว่า "cross-validation" ด้วยตัวเอง
อาจมีเอกสารอื่น ๆ อีกมากมายในหัวข้อเหล่านี้ นี่เป็นเพียงตัวอย่างบางส่วน
3) อีกแง่มุมของ "ดีกว่า" คือ: เนื่องจากการวัดข้อผิดพลาดของโมเดลโดยใช้หนึ่งในเทคนิคข้างต้นคุณจะมั่นใจได้อย่างไรว่าข้อผิดพลาดของโมเดลที่ถูกต้องนั้นอยู่ใกล้
โดยทั่วไปแล้วในกรณีนี้คุณต้องการใช้มาตรการหลายอย่างของข้อผิดพลาดและคำนวณช่วงความเชื่อมั่น (หรือช่วงเวลาที่น่าเชื่อถือหากคุณทำตามวิธีการแบบเบย์) ในกรณีนี้ปัญหาคือเท่าใดคุณสามารถเชื่อถือความแปรปรวนของชุดของการวัดข้อผิดพลาด โปรดสังเกตว่ายกเว้นการลาออกหนึ่งครั้งเทคนิคทั้งหมดข้างต้นจะให้การวัดที่แตกต่างกันมากมาย ( k การวัดสำหรับk - fold , การวัดnสำหรับการระงับn -repeated ที่ผ่านมา) และทำให้คุณสามารถวัดความแปรปรวน (หรือส่วนเบี่ยงเบนมาตรฐาน ) ของชุดนี้และคำนวณช่วงความมั่นใจสำหรับการวัดความผิดพลาด
สิ่งที่นี่ค่อนข้างซับซ้อน จากสิ่งที่ฉันเข้าใจจากกระดาษไม่มีการประมาณค่าความแปรปรวนของk -fold cross-validation (ไม่ใช่ด้านหลัง paywall) ไม่มีใครเชื่อความแปรปรวนที่คุณได้รับจากk- fold - ดังนั้นเราจึงไม่สามารถสร้างช่วงความมั่นใจที่ดีจากk - เท่า นอกจากนี้จากสิ่งที่ฉันเข้าใจจากกระดาษทดสอบทางสถิติโดยประมาณสำหรับการเปรียบเทียบการจำแนกประเภทภายใต้การควบคุมการเรียนรู้ขั้นตอนวิธี (ไม่ได้อยู่เบื้องหลัง paywall) เทคนิคที่ใช้วัดซ้ำ (ซ้ำk- พับซ้ำแล้วซ้ำอีก - ไม่แน่ใจเกี่ยวกับ bootstrap) จะประมาณค่าความแปรปรวนที่แท้จริงของการวัดข้อผิดพลาด (ค่อนข้างง่ายที่จะเห็นว่า - เนื่องจากคุณสุ่มตัวอย่างจากชุด จำกัด หากคุณทำซ้ำการวัดจำนวนมาก ครั้งค่าเดียวกันจะยังคงทำซ้ำซึ่งทำให้ค่าเฉลี่ยเหมือนเดิม แต่ลดความแปรปรวน) ดังนั้นเทคนิคการวัดซ้ำ ๆ จะมองโลกในแง่ดีเกินไปในช่วงความมั่นใจ
บทความล่าสุดนี้แนะนำให้ทำ 5 ซ้ำ 2 เท่า - ซึ่งเรียกว่า CV 5 × 2 - เป็นความสมดุลที่ดีของมาตรการหลายอย่าง (10) แต่ไม่ซ้ำซ้อนมากเกินไป
แก้ไข:
แน่นอนว่ามีคำตอบที่ดีในการตรวจสอบข้ามกับบางคำถามเหล่านี้ (แม้ว่าบางครั้งพวกเขาไม่เห็นด้วยกันเอง) นี่คือบางส่วน:
การข้ามการตรวจสอบความถูกต้องหรือความร่วมมือเพื่อประเมินประสิทธิภาพการจัดหมวดหมู่?
ความแตกต่างระหว่างการตรวจสอบความถูกต้องข้ามและความร่วมมือเพื่อประเมินข้อผิดพลาดในการทำนาย
การข้ามการตรวจสอบความถูกต้องหรือความร่วมมือเพื่อประเมินประสิทธิภาพการจัดหมวดหมู่?
ทำความเข้าใจกับการบูตสแตรปสำหรับการตรวจสอบความถูกต้องและการเลือกรุ่น
โดยทั่วไปการตรวจสอบความถูกต้องข้ามแท็กคือเพื่อนของคุณที่นี่
ทางออกที่ดีที่สุดคืออะไร? ฉันไม่รู้ ฉันใช้ CV 5 × 2 เมื่อฉันต้องเข้มงวดมากเมื่อฉันต้องแน่ใจว่าเทคนิคหนึ่งดีกว่าอีกเทคนิคหนึ่งโดยเฉพาะในสื่อสิ่งพิมพ์ และฉันจะใช้ถือออกมาถ้าผมไม่ได้วางแผนที่จะทำให้ตัวชี้วัดของความแปรปรวนหรือเบี่ยงเบนมาตรฐานใด ๆ หรือถ้ามีข้อ จำกัด ด้านเวลา - มีเพียงการเรียนรู้รูปแบบหนึ่งในการระงับการออก