ฉันมีชุดข้อมูลที่มีตัวอย่างไม่เกิน 150 รายการ (แบ่งเป็นการฝึกอบรม & ทดสอบ) พร้อมคุณสมบัติมากมาย (สูงกว่า 1,000) ฉันต้องเปรียบเทียบตัวแยกประเภทและวิธีการเลือกคุณสมบัติที่ทำงานได้ดีกับข้อมูล ดังนั้นฉันใช้วิธีการจำแนกสามประเภท (J48, NB, SVM) และ 2 วิธีการเลือกคุณสมบัติ (CFS, WrapperSubset) ด้วยวิธีการค้นหาที่แตกต่างกัน (Greedy, BestFirst)
ในขณะที่การเปรียบเทียบฉันกำลังดูความแม่นยำในการฝึกอบรม (5-fold cross-fold) และความแม่นยำในการทดสอบ
นี่คือหนึ่งในผลลัพธ์ของ J48 และ CFS-BestFirst:
{"ความแม่นยำการฝึกอบรม": 95.83, "ความแม่นยำการทดสอบ": 98.21}
ผลลัพธ์จำนวนมากเป็นเช่นนี้และใน SVM มีผลลัพธ์หลายอย่างที่ระบุว่าความแม่นยำในการทดสอบนั้นสูงกว่าการฝึกอบรมมาก (การฝึกอบรม: 60% การทดสอบ: 98%)
ฉันจะตีความผลลัพธ์เหล่านี้อย่างมีความหมายได้อย่างไร ถ้ามันต่ำกว่านี้ฉันจะบอกว่ามันเกินกำลัง มีบางอย่างที่จะพูดเกี่ยวกับอคติและความแปรปรวนในกรณีนี้โดยดูผลลัพธ์ทั้งหมดหรือไม่ ฉันจะทำอย่างไรเพื่อให้การจำแนกประเภทนี้มีความหมายเช่นการเลือกชุดฝึกอบรมและชุดทดสอบอีกครั้งหรือเพียงแค่ใช้การตรวจสอบความถูกต้องของข้อมูลทั้งหมด
ฉันมีการฝึกอบรม 73 & 58 กรณีทดสอบ บางคำตอบไม่มีข้อมูลนี้เมื่อโพสต์