เมื่อคุณพยายามที่จะจัดให้โมเดลเข้ากับชุดข้อมูลขนาดใหญ่คำแนะนำทั่วไปคือการแบ่งพาร์ติชันข้อมูลออกเป็นสามส่วน ได้แก่ การฝึกอบรมการตรวจสอบความถูกต้องและชุดข้อมูลการทดสอบ
นี่เป็นเพราะโมเดลมักจะมี "ระดับ" ของพารามิเตอร์สามตัว: "พารามิเตอร์" ตัวแรกคือคลาสโมเดล (เช่น SVM, โครงข่ายประสาทเทียม, ฟอเรสต์แบบสุ่ม) ชุดพารามิเตอร์ที่สองคือพารามิเตอร์ "การทำให้เป็นมาตรฐาน" หรือ " เช่นค่าสัมประสิทธิ์การลงโทษบ่วงบาศเลือกเคอร์เนลโครงข่ายโครงข่ายประสาทเทียม) และเซตที่สามคือสิ่งที่มักจะพิจารณาว่า "พารามิเตอร์" (เช่นค่าสัมประสิทธิ์สำหรับ covariates)
เมื่อกำหนดคลาสของโมเดลและตัวเลือกพารามิเตอร์หลายตัวพารามิเตอร์หนึ่งจะเลือกโดยการเลือกพารามิเตอร์ที่ช่วยลดข้อผิดพลาดในชุดฝึกอบรม เมื่อกำหนดคลาสของโมเดลหนึ่งจะทำไฮเปอร์พารามิเตอร์โดยย่อข้อผิดพลาดให้น้อยที่สุดในชุดการตรวจสอบความถูกต้อง มีการเลือกคลาสรุ่นตามประสิทธิภาพในชุดทดสอบ
แต่ทำไมไม่แบ่งพาร์ติชันเพิ่มเติม? บ่อยครั้งที่ใครคนหนึ่งสามารถแบ่งพารามิเตอร์หลายตัวเป็นสองกลุ่มและใช้ "การตรวจสอบ 1" เพื่อให้พอดีกับที่หนึ่งและ "การตรวจสอบที่ 2" เพื่อให้พอดีกับที่สอง หรืออย่างใดอย่างหนึ่งก็สามารถรักษาขนาดของข้อมูลการฝึกอบรม / ข้อมูลการตรวจสอบแยกเป็นพารามิเตอร์ที่จะปรับ
นี่เป็นวิธีปฏิบัติทั่วไปในบางแอปพลิเคชันหรือไม่ มีทฤษฎีใดบ้างเกี่ยวกับการแบ่งพาร์ติชั่นข้อมูลที่ดีที่สุด?