ฉันมีชุดข้อมูลประมาณ 5,000 ฟีเจอร์ สำหรับข้อมูลนั้นฉันใช้การทดสอบ Chi Square เป็นครั้งแรกเพื่อเลือกคุณสมบัติ หลังจากนั้นฉันได้ประมาณ 1,500 ตัวแปรซึ่งแสดงความสัมพันธ์อย่างมีนัยสำคัญกับตัวแปรตอบกลับ
ตอนนี้ฉันต้องพอดีกับการถดถอยโลจิสติกในที่ ฉันใช้แพ็คเกจ glmulti สำหรับ R (แพ็คเกจ glmulti ให้การเลือกเซตย่อยที่มีประสิทธิภาพสำหรับ vlm) แต่สามารถใช้คุณสมบัติได้ครั้งละ 30 คุณสมบัติเท่านั้นประสิทธิภาพในการทำงานลดลงเนื่องจากจำนวนแถวในชุดข้อมูลของฉันอยู่ที่ประมาณ 20,000
มีวิธีการหรือเทคนิคอื่น ๆ ในการแก้ปัญหาข้างต้นหรือไม่? ถ้าฉันไปตามวิธีข้างต้นมันจะใช้เวลามากเกินไปในการปรับให้เข้ากับโมเดล
sklearn
's LogisticRegression
และมันแก้ 4000 คุณสมบัติ 20,000 แถวปัญหาในการประมาณนาทีแล็ปท็อปของฉัน