ฉันกำลังทำงานกับโมเดลการถดถอยโลจิสติกส์สำหรับฟังก์ชั่นจีโนม genes
หนึ่งของการป้อนข้อมูลเขตข้อมูลที่ฉันต้องการที่จะรวมเป็นตัวแปรร่วมเป็น มียีนที่รู้จักประมาณ 24,000 ตัว มีคุณสมบัติมากมายที่มีระดับความแปรปรวนในชีววิทยาการคำนวณและต้องการตัวอย่างนับแสน
- ถ้าฉัน
LabelEncoder()
ยีน 24K เหล่านั้น - แล้ว
OneHotEncoder()
พวกเขา ...
จะมี 24,000 คอลัมน์ที่จะทำให้การฝึกอบรมของฉันเร็วขึ้นสำหรับซีพียู quad-core i7 2.2 GHz หรือไม่?
ถ้าเป็นเช่นนั้นมีวิธีอื่นในการเข้ารหัสที่ฉันสามารถทำได้ด้วยหรือไม่
ฉันควรพยายามอุทิศเลเยอร์ของแบบจำลองของฉันกับคุณสมบัตินี้หรือไม่?
นี่หมายความว่าฉันต้องการโหนดอินพุต 24K หรือไม่