(ไม่มีเวลามากตอนนี้ดังนั้นฉันจะตอบสั้น ๆ แล้วขยายในภายหลัง)
สมมติว่าเรากำลังพิจารณาปัญหาการจำแนกเลขฐานสองและมีชุดฝึกตัวอย่างคลาส 1 และตัวอย่าง class 2 การทดสอบการเปลี่ยนรูปสำหรับการเลือกคุณลักษณะจะดูที่แต่ละคุณลักษณะ สถิติการทดสอบเช่นการได้รับข้อมูลหรือความแตกต่างที่เป็นมาตรฐานระหว่างค่าเฉลี่ยนั้นถูกคำนวณสำหรับคุณลักษณะ ข้อมูลสำหรับคุณสมบัติจะถูกสุ่มและแบ่งเป็นสองชุดหนึ่งขนาดและขนาดหนึ่ง การทดสอบสถิติคำนวณแล้วขึ้นอยู่กับพาร์ทิชันใหม่นี้ม.nθม.nθพีพี. ทั้งนี้ขึ้นอยู่กับความซับซ้อนของการคำนวณของปัญหาจากนั้นทำซ้ำในพาร์ติชันที่เป็นไปได้ทั้งหมดของคุณสมบัติออกเป็นสองชุดของคำสั่งและหรือเซตย่อยของสิ่งเหล่านี้ม.n
ตอนนี้เราได้สร้างการแจกแจงแบบแล้วเราคำนวณค่า p-value ที่สถิติการทดสอบที่สังเกตเห็นเกิดขึ้นจากพาร์ติชันแบบสุ่มของคุณสมบัติ สมมติฐานว่างคือตัวอย่างจากแต่ละชั้นเรียนมาจากการแจกแจงพื้นฐานเดียวกัน (คุณลักษณะไม่เกี่ยวข้อง)θพีθ
กระบวนการนี้เกิดขึ้นซ้ำกับคุณสมบัติทั้งหมดและจากนั้นสามารถเลือกชุดย่อยของคุณสมบัติที่ใช้สำหรับการจำแนกประเภทได้สองวิธี:
- ให้บริการกับต่ำสุด P-ค่ายังไม่มีข้อความ
- คุณลักษณะทั้งหมดที่มีค่า p< ϵ