จะเลือกการฝึกอบรมการตรวจสอบข้ามและขนาดชุดการทดสอบสำหรับข้อมูลตัวอย่างขนาดเล็กได้อย่างไร


10

สมมติว่าฉันมีตัวอย่างขนาดเล็กเช่น N = 100 และสองชั้น ฉันจะเลือกการฝึกอบรมการตรวจสอบข้ามและขนาดชุดการทดสอบสำหรับการเรียนรู้ของเครื่องได้อย่างไร

ฉันจะเลือกอย่างสังหรณ์ใจ

  • ขนาดชุดฝึกอบรมเท่ากับ 50
  • ขนาดชุดการตรวจสอบความถูกต้องแบบไขว้และ
  • ขนาดทดสอบ 25

แต่อาจทำให้รู้สึกมากหรือน้อย ฉันจะตัดสินใจค่าเหล่านี้ได้อย่างไร ฉันขอลองตัวเลือกที่แตกต่างกัน (แม้ว่าฉันเดาว่ามันจะไม่เป็นที่นิยม ... เพิ่มความเป็นไปได้ในการเรียนรู้มากกว่า)?

ถ้าฉันมีมากกว่าสองคลาส


2
100 เล็กเกินไปสำหรับฉัน ฉันจะเลือกใช้กลยุทธ์การลาแบบหนึ่งต่อทั้งการตรวจสอบข้ามและการประเมินผลการทดสอบ
Memming

ฉันไม่ได้เห็นวรรณกรรมใด ๆ เกี่ยวกับเรื่องนี้ (ขนาดตัวอย่างขั้นต่ำสำหรับการตรวจสอบ) ไม่แน่ใจว่าทำไม ดูเหมือนว่าจะเป็นปัญหาสำคัญ
charles

คำตอบ:


15

+1 สำหรับคำแนะนำเกี่ยวกับการปรับพารามิเตอร์ให้เหมาะสมและความซับซ้อนของโมเดล แต่คำแนะนำทั้งหมดนี้วิเศษมาก
charles

1

เนื่องจากขนาดตัวอย่างของคุณมีขนาดเล็กแนวปฏิบัติที่ดีคือการไม่ใช้ส่วนการตรวจสอบข้ามและใช้อัตราส่วน 60 - 40 หรือ 70 - 30

ดังที่คุณเห็นในบทที่ 2.8 ของบทนำเกี่ยวกับการทำเคลเมนไทน์และการทำเหมืองข้อมูลและในไลบรารี MSDN - การทำเหมืองข้อมูล - การฝึกอบรมและการทดสอบตั้งค่าอัตราส่วน 70 - 30 เป็นเรื่องปกติ ตามการเรียนรู้ของ Machine Ng ของ Andrew Ng นั้นแนะนำให้ใช้อัตราส่วน 60 - 20 - 20

หวังว่าฉันจะเป็นประโยชน์ ขอแสดงความนับถืออย่างสูง.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.