3
การเลือกคุณสมบัติควรทำกับข้อมูลการฝึกอบรมเท่านั้น (หรือข้อมูลทั้งหมด)?
ควรเลือกคุณลักษณะที่ทำกับข้อมูลการฝึกอบรมเท่านั้น (หรือข้อมูลทั้งหมด)? ฉันผ่านการสนทนาและเอกสารเช่นGuyon (2003)และSinghi และ Liu (2006)แต่ก็ยังไม่แน่ใจเกี่ยวกับคำตอบที่ถูก การตั้งค่าการทดสอบของฉันเป็นดังนี้: ชุดข้อมูล: การควบคุมที่ดีต่อสุขภาพ 50 คนและผู้ป่วยโรค 50 คน (คุณสมบัติ cca 200 ที่สามารถเกี่ยวข้องกับการทำนายโรค) ภารกิจคือการวินิจฉัยโรคตามคุณสมบัติที่มีอยู่ สิ่งที่ฉันทำคือ ใช้ชุดข้อมูลทั้งหมดและทำการเลือกคุณสมบัติ (FS) ฉันเก็บเฉพาะคุณสมบัติที่เลือกไว้เพื่อการประมวลผลต่อไป แยกเพื่อทดสอบและฝึกอบรมตัวจําแนกรถไฟโดยใช้ข้อมูลรถไฟและคุณสมบัติที่เลือก จากนั้นใช้ตัวจําแนกเพื่อทดสอบข้อมูล (อีกครั้งโดยใช้เฉพาะคุณสมบัติที่เลือก) ใช้การตรวจสอบความถูกต้องแบบลาก่อน รับความถูกต้องจำแนก ค่าเฉลี่ย: ทำซ้ำ 1) -3) N ครั้ง (100)ยังไม่มีข้อความ= 50ยังไม่มีข้อความ=50N=50 ฉันจะยอมรับว่าการทำ FS กับชุดข้อมูลทั้งหมดสามารถแนะนำอคติบางอย่าง แต่ความเห็นของฉันคือ "เฉลี่ยโดยเฉลี่ย" ในระหว่างการหาค่าเฉลี่ย (ขั้นตอนที่ 4) ถูกต้องหรือไม่ (ความแปรปรวนความแม่นยำคือ< 2 %<2%<2\% ) 1 …