ฉันพยายามใช้ความสำคัญของคุณลักษณะจาก Random Forests เพื่อทำการเลือกคุณลักษณะเชิงประจักษ์สำหรับปัญหาการถดถอยที่คุณสมบัติทั้งหมดเป็นหมวดหมู่และส่วนใหญ่มีหลายระดับ (ตามลำดับที่ 100-1,000) เนื่องจากการเข้ารหัสแบบ one-hot สร้างตัวแปรดัมมี่สำหรับแต่ละระดับความสำคัญของคุณลักษณะสำหรับแต่ละระดับและไม่ใช่แต่ละฟีเจอร์ (คอลัมน์) วิธีที่ดีในการรวมความสำคัญของคุณลักษณะเหล่านี้คืออะไร
ฉันคิดเกี่ยวกับการสรุปหรือรับความสำคัญโดยเฉลี่ยสำหรับทุกระดับของคุณลักษณะ (อาจเป็นไปได้ว่าในอดีตจะมีอคติต่อคุณลักษณะเหล่านั้นที่มีระดับมากขึ้น) มีการอ้างอิงใด ๆ เกี่ยวกับปัญหานี้หรือไม่?
เราสามารถทำอะไรได้อีกเพื่อลดจำนวนคุณสมบัติ ฉันตระหนักถึงกลุ่มเชือกไม่สามารถหาอะไรที่ง่ายต่อการใช้งานสำหรับการเรียนรู้ Scikit