คุณได้อธิบายวิธีการทำงานกับ crossvalidation อย่างถูกต้องแล้ว ในความเป็นจริงคุณ 'โชคดี' มีการตรวจสอบที่เหมาะสมในตอนท้ายเพราะบ่อยครั้ง crossvalidation จะใช้ในการเพิ่มประสิทธิภาพของรูปแบบ แต่ไม่มีการตรวจสอบความถูกต้อง "ของจริง"
ดังที่ @Simon Stelling กล่าวไว้ในความคิดเห็นของเขาการข้ามค่าจะนำไปสู่ข้อผิดพลาดโดยประมาณที่ต่ำกว่า (ซึ่งสมเหตุสมผลเนื่องจากคุณนำข้อมูลมาใช้ซ้ำ) แต่โชคดีที่นี่เป็นกรณีสำหรับทุกรุ่นดังนั้นยกเว้นความเสียหาย เล็กน้อยสำหรับรุ่น "เลว" และอีกรุ่นสำหรับ "ดี") การเลือกรุ่นที่ทำงานได้ดีที่สุดในเกณฑ์การข้ามค่าเฉลี่ยจะโดยทั่วไปจะดีที่สุดสำหรับ "ของจริง"
วิธีที่บางครั้งใช้ในการแก้ไขข้อผิดพลาดที่ค่อนข้างต่ำโดยเฉพาะอย่างยิ่งถ้าคุณกำลังมองหาโมเดล parsimoneous คือการเลือกรูปแบบที่เล็กที่สุด / วิธีที่ง่ายที่สุดซึ่งข้อผิดพลาด crossvalidated อยู่ภายในหนึ่ง SD จาก (crossvalidated) ที่เหมาะสม crossvalidation ตัวนี้เป็นฮิวริสติกดังนั้นควรใช้ด้วยความระมัดระวัง (ถ้านี่เป็นตัวเลือก: ทำพล็อตข้อผิดพลาดของคุณกับพารามิเตอร์การปรับแต่ง: นี่จะให้ความคิดว่าคุณมีผลลัพธ์ที่ยอมรับได้หรือไม่)
เมื่อพิจารณาถึงอคติที่ลดลงของข้อผิดพลาดเป็นสิ่งสำคัญที่จะไม่เผยแพร่ข้อผิดพลาดหรือการวัดประสิทธิภาพอื่น ๆ จาก crossvalidation โดยไม่กล่าวถึงว่าสิ่งเหล่านี้มาจาก crossvalidation (แม้ว่าความจริงจะบอกว่า: ฉันเคยเห็น การวัดประสิทธิภาพนั้นได้มาจากการตรวจสอบประสิทธิภาพของชุดข้อมูลเดิม --- ดังนั้นการกล่าวถึง crossvalidation ทำให้ผลลัพธ์ของคุณคุ้มค่ามากขึ้นจริง ๆ ) สำหรับคุณสิ่งนี้จะไม่เป็นปัญหาเนื่องจากคุณมีชุดการตรวจสอบความถูกต้อง
เตือนครั้งสุดท้าย: ถ้ารูปแบบของคุณกระชับผลลัพธ์ในสินค้าใกล้บางอย่างก็เป็นความคิดที่ดีที่จะดูที่การแสดงของพวกเขาในชุดการตรวจสอบของคุณหลังจากนั้น แต่ไม่ได้เลือกฐานรุ่นสุดท้ายของคุณว่าคุณสามารถที่ใช้ที่ดีที่สุดนี้เพื่อบรรเทาของคุณ มโนธรรม แต่ต้องเลือกรุ่นสุดท้ายของคุณก่อนที่คุณจะดูชุดการตรวจสอบ
Wrt คำถามที่สองของคุณ: ฉันเชื่อว่า Simon ให้คำตอบทั้งหมดที่คุณต้องการในความคิดเห็นของเขา แต่เพื่อให้ภาพสมบูรณ์: บ่อยครั้งที่มันเป็นการแลกเปลี่ยนความแปรปรวนแบบอคติที่เกิดขึ้น หากคุณรู้ว่าโดยเฉลี่ยแล้วคุณจะได้ผลลัพธ์ที่ถูกต้อง (ไม่เอนเอียง) โดยทั่วไปราคาจะเป็นตัวการคำนวณแต่ละตัวของคุณอาจอยู่ห่างจากมันมาก (ความแปรปรวนสูง) ในสมัยก่อนความไม่เอนเอียงคือ nec plus ultra ในวันปัจจุบันคน ๆ หนึ่งยอมรับในเวลาที่มีอคติ (เล็ก) (ดังนั้นคุณจึงไม่รู้ด้วยซ้ำว่าค่าเฉลี่ยของการคำนวณของคุณจะทำให้ได้ผลลัพธ์ที่ถูกต้อง) หากเป็นเช่นนั้น ส่งผลให้ความแปรปรวนต่ำ จากประสบการณ์พบว่ามีความสมดุลเป็นที่ยอมรับด้วย crossvalidation 10 เท่า สำหรับคุณอคติจะเป็นปัญหาสำหรับการเพิ่มประสิทธิภาพโมเดลของคุณเท่านั้น เนื่องจากคุณสามารถประเมินเกณฑ์หลังจากนั้น (ไม่เอนเอียง) ในชุดการตรวจสอบความถูกต้อง ดังนั้นจึงไม่มีเหตุผลที่จะไม่ใช้ crossvalidation