ฉันมีชุดข้อมูลที่มีตัวแปรทางการเงินเป็นส่วนใหญ่ (คุณสมบัติ 120 ตัวอย่าง 4k) ซึ่งส่วนใหญ่มีความสัมพันธ์สูงและมีเสียงดังมาก (ตัวชี้วัดทางเทคนิคเป็นต้น) ดังนั้นฉันต้องการเลือกสูงสุด 20-30 สำหรับใช้ในภายหลังกับการฝึกอบรมแบบจำลอง - เพิ่ม / ลด)
ฉันกำลังคิดเกี่ยวกับการใช้ฟอเรสต์แบบสุ่มเพื่อจัดอันดับคุณลักษณะ มันเป็นความคิดที่ดีไหมที่จะใช้มันซ้ำ ๆ ? ตัวอย่างเช่นสมมติว่าในรอบแรกฉันลดระดับที่แย่ที่สุด 20% ที่สองเช่นกันไปเรื่อย ๆ จนกว่าฉันจะได้รับคุณสมบัติตามที่ต้องการ ฉันควรใช้การตรวจสอบข้ามกับ RF หรือไม่ (เป็นเรื่องง่ายสำหรับฉันที่จะไม่ใช้ CV เพราะมันเป็นสิ่งที่ RF ทำอยู่แล้ว)
นอกจากนี้ถ้าฉันใช้ฟอเรสต์แบบสุ่มฉันควรใช้มันเป็นตัวแยกประเภทสำหรับไบนารี่หรือรีจิสเตอร์สำหรับการเพิ่ม / ลดจริง ๆ เพื่อรับการนำเข้าคุณลักษณะ?
ยังไงก็ตามแบบจำลองที่ฉันต้องการลองหลังจากการเลือกคุณสมบัติคือ: SVM, ตาข่ายประสาท, การถดถอยแบบถ่วงน้ำหนักในพื้นที่และฟอเรสต์แบบสุ่ม ฉันทำงานเป็นหลักใน Python
built-in
คุณลักษณะของRandomForestClassifierใน sklearn
ชื่อfeature_importances_
.... คุณจะเห็นมันในลิงค์