ฉันมีชุดข้อมูลที่มี 330 ตัวอย่างและ 27 คุณสมบัติสำหรับแต่ละกลุ่มตัวอย่างที่มีปัญหาระดับไบนารีสำหรับการถดถอยโลจิสติก
ตามกฎ "ถ้าสิบ" ฉันต้องการอย่างน้อย 10 เหตุการณ์เพื่อให้รวมคุณลักษณะแต่ละรายการ แม้ว่าฉันมีชุดข้อมูลที่ไม่สมดุลโดยมีคลาสบวก 20% และคลาสลบ 80%
นั่นทำให้ฉันมีเพียง 70 เหตุการณ์อนุญาตให้รวมฟีเจอร์ประมาณ 7/8 เท่านั้นในโมเดลโลจิสติก
ฉันต้องการประเมินคุณสมบัติทั้งหมดเป็นตัวทำนายฉันไม่ต้องการเลือกคุณสมบัติใด ๆ
ดังนั้นคุณจะแนะนำอะไร ฉันควรจะรวมคุณสมบัติทั้งหมด 7 อย่างที่เป็นไปได้หรือไม่ ฉันควรประเมินแต่ละคุณลักษณะโดยลำพังด้วยรูปแบบการเชื่อมโยงแล้วเลือกเฉพาะคุณลักษณะที่ดีที่สุดสำหรับรุ่นสุดท้าย
ฉันยังสงสัยเกี่ยวกับการจัดการคุณสมบัติที่เป็นหมวดหมู่และต่อเนื่องฉันจะผสมมันได้หรือไม่ หากฉันมีหมวดหมู่ [0-1] และต่อเนื่อง [0-100] ฉันควรทำให้เป็นมาตรฐานหรือไม่
ฉันกำลังทำงานกับ Python
ขอบคุณมาก ๆ สำหรับความช่วยเหลือของคุณ!