ควรเลือกคุณลักษณะที่ทำกับข้อมูลการฝึกอบรมเท่านั้น (หรือข้อมูลทั้งหมด)? ฉันผ่านการสนทนาและเอกสารเช่นGuyon (2003)และSinghi และ Liu (2006)แต่ก็ยังไม่แน่ใจเกี่ยวกับคำตอบที่ถูก
การตั้งค่าการทดสอบของฉันเป็นดังนี้:
- ชุดข้อมูล: การควบคุมที่ดีต่อสุขภาพ 50 คนและผู้ป่วยโรค 50 คน (คุณสมบัติ cca 200 ที่สามารถเกี่ยวข้องกับการทำนายโรค)
- ภารกิจคือการวินิจฉัยโรคตามคุณสมบัติที่มีอยู่
สิ่งที่ฉันทำคือ
- ใช้ชุดข้อมูลทั้งหมดและทำการเลือกคุณสมบัติ (FS) ฉันเก็บเฉพาะคุณสมบัติที่เลือกไว้เพื่อการประมวลผลต่อไป
- แยกเพื่อทดสอบและฝึกอบรมตัวจําแนกรถไฟโดยใช้ข้อมูลรถไฟและคุณสมบัติที่เลือก จากนั้นใช้ตัวจําแนกเพื่อทดสอบข้อมูล (อีกครั้งโดยใช้เฉพาะคุณสมบัติที่เลือก) ใช้การตรวจสอบความถูกต้องแบบลาก่อน
- รับความถูกต้องจำแนก
- ค่าเฉลี่ย: ทำซ้ำ 1) -3) N ครั้ง (100)
ฉันจะยอมรับว่าการทำ FS กับชุดข้อมูลทั้งหมดสามารถแนะนำอคติบางอย่าง แต่ความเห็นของฉันคือ "เฉลี่ยโดยเฉลี่ย" ในระหว่างการหาค่าเฉลี่ย (ขั้นตอนที่ 4) ถูกต้องหรือไม่ (ความแปรปรวนความแม่นยำคือ )
1 Guyon, I. (2003) "ความรู้เบื้องต้นเกี่ยวกับการเลือกตัวแปรและคุณสมบัติ", วารสารการวิจัยการเรียนรู้ของเครื่อง, ฉบับที่ 3, pp. 1157-1182
2 Singhi, SK และ Liu, H. (2006) "ฟีเจอร์การเลือกชุดย่อยสำหรับการเรียนรู้การจำแนกประเภท", การดำเนินการของ ICML '06 การประชุมนานาชาติครั้งที่ 23 เรื่องการเรียนรู้ของเครื่อง, หน้า 849-856