ฉันมีฐานข้อมูลจากแอปพลิเคชัน Facebook ของฉันและฉันพยายามใช้การเรียนรู้ของเครื่องเพื่อประเมินอายุของผู้ใช้ตามไซต์ Facebook ที่พวกเขาชอบ
มีสามลักษณะที่สำคัญของฐานข้อมูลของฉัน:
การแจกแจงอายุในชุดการฝึกอบรมของฉัน (รวมเป็น 12k ของผู้ใช้) เอียงไปทางผู้ใช้ที่อายุน้อยกว่า (เช่นฉันมีผู้ใช้ 1157 คนอายุ 27 และ 23 ผู้ใช้อายุ 65 ปี)
หลายไซต์มี likers ไม่เกิน 5 (ฉันกรองเว็บไซต์ FB ที่มี likers น้อยกว่า 5)
มีคุณสมบัติมากมายกว่าตัวอย่าง
ดังนั้นคำถามของฉันคือกลยุทธ์ใดที่คุณแนะนำให้เตรียมข้อมูลเพื่อการวิเคราะห์เพิ่มเติม ฉันควรลดมิติข้อมูลลงบ้างไหม? วิธีการ ML แบบใดที่เหมาะสมที่สุดที่จะใช้ในกรณีนี้
ฉันใช้ Python เป็นหลักดังนั้นคำแนะนำเฉพาะของ Python จะได้รับการชื่นชมอย่างมาก