คุณจะประหลาดใจเมื่อพบว่า 80/20 นั้นเป็นอัตราส่วนที่เกิดขึ้นโดยทั่วไปมักเรียกว่าหลักการพาเรโต มันมักจะเป็นเดิมพันที่ปลอดภัยถ้าคุณใช้อัตราส่วนนั้น
อย่างไรก็ตามขึ้นอยู่กับวิธีการฝึกอบรม / การตรวจสอบที่คุณใช้อัตราส่วนอาจเปลี่ยนแปลง ตัวอย่างเช่น: หากคุณใช้การตรวจสอบความถูกต้องไขว้ 10 เท่าคุณจะได้ชุดการตรวจสอบความถูกต้อง 10% ในแต่ละครั้ง
มีงานวิจัยบางอย่างเกี่ยวกับอัตราส่วนที่เหมาะสมระหว่างชุดฝึกอบรมและชุดตรวจสอบความถูกต้อง :
สัดส่วนของรูปแบบที่สงวนไว้สำหรับชุดการตรวจสอบความถูกต้องควรแปรผกผันกับสแควร์รูทของจำนวนพารามิเตอร์ที่ปรับค่าได้ฟรี
ในบทสรุปของพวกเขาพวกเขาระบุสูตร:
การตรวจสอบความถูกต้องชุด (v) อัตราส่วนการฝึกอบรมชุด (t) ขนาด, v / t, สเกลเช่น ln (N / h-max) โดยที่ N คือจำนวนตระกูลของตัวจดจำและ h-max คือความซับซ้อนที่ใหญ่ที่สุดของตระกูลเหล่านั้น
ความซับซ้อนหมายถึงอะไร:
ตระกูลของตัวจำแนกลายมือแต่ละตัวมีความซับซ้อนซึ่งอาจหรือไม่เกี่ยวข้องกับมิติ VCความยาวรายละเอียดจำนวนพารามิเตอร์ที่ปรับได้หรือมาตรการความซับซ้อนอื่น ๆ
กฎข้อแรกของหัวแม่มือ (ชุด ievalidation ควรแปรผกผันกับสแควร์รูทของจำนวนพารามิเตอร์ที่ปรับค่าได้ฟรี) คุณสามารถสรุปได้ว่าถ้าคุณมีพารามิเตอร์ที่ปรับได้ 32 ตัวสแควร์รูทของ 32 คือ ~ 5.65, เศษส่วนควรเป็น 1 / 5.65 หรือ 0.177 (v / t) ควรสำรองประมาณ 17.7% สำหรับการตรวจสอบและ 82.3% สำหรับการฝึกอบรม