อะไรคือการเลือกตัวแปร / คุณสมบัติที่คุณต้องการสำหรับการจำแนกเลขฐานสองเมื่อมีตัวแปร / คุณสมบัติมากกว่าการสังเกตในชุดการเรียนรู้ จุดมุ่งหมายที่นี่คือเพื่อหารือเกี่ยวกับขั้นตอนการเลือกคุณสมบัติที่ช่วยลดข้อผิดพลาดในการจัดหมวดหมู่
เราสามารถแก้ไขข้อความเพื่อความมั่นคง: สำหรับให้เป็นชุดการเรียนรู้จากการสังเกตการณ์จากกลุ่มผมดังนั้นคือขนาดของชุดการเรียนรู้ เราตั้งค่าเป็นจำนวนคุณลักษณะ (เช่นมิติของพื้นที่คุณลักษณะ) ให้หมายถึง -th พิกัดของ P
โปรดให้ข้อมูลอ้างอิงแบบเต็มหากคุณไม่สามารถให้รายละเอียดได้
แก้ไข (ปรับปรุงอย่างต่อเนื่อง): ขั้นตอนที่เสนอในคำตอบด้านล่าง
- การเลือกไปข้างหน้าโลภ ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี
- การคัดลอกย้อนหลัง ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี
- การสแกน Metropolis / MCMC ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี
- ลงโทษการถดถอยโลจิสติก ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี
เนื่องจากนี่คือวิกิชุมชนจึงสามารถมีการสนทนาและอัพเดตได้มากขึ้น
ฉันมีข้อสังเกตหนึ่ง: ในแง่หนึ่งคุณทุกคนให้ขั้นตอนที่อนุญาตให้เรียงลำดับของตัวแปร แต่ไม่ใช่การเลือกตัวแปร (คุณค่อนข้างจะหลีกเลี่ยงวิธีการเลือกจำนวนฟีเจอร์ฉันเดาว่าคุณใช้การตรวจสอบไขว้กันหรือไม่?) คำตอบในทิศทางนี้ (เนื่องจากนี่คือวิกิชุมชนคุณไม่จำเป็นต้องเป็นนักเขียนคำตอบเพื่อเพิ่มข้อมูลเกี่ยวกับวิธีเลือกจำนวนตัวแปรหรือไม่ฉันเปิดคำถามในทิศทางนี้ที่นี่การตรวจสอบข้ามในมิติที่สูงมาก (เพื่อเลือกจำนวน ตัวแปรที่ใช้ในการจำแนกมิติที่สูงมาก) )