1
การชนกันของสองโลก: การใช้ ML สำหรับข้อมูลการสำรวจที่ซับซ้อน
ฉันพบปัญหาที่ดูเหมือนง่าย แต่ฉันไม่พบวิธีแก้ไขที่เหมาะสมเป็นเวลาหลายสัปดาห์แล้ว ฉันมีข้อมูลโพล / สำรวจค่อนข้างมาก (ผู้ตอบนับหมื่นพูด 50k ต่อชุดข้อมูล) มาจากสิ่งที่ฉันหวังว่าจะเรียกว่าแบบสำรวจที่ออกแบบมาอย่างซับซ้อนพร้อมกับน้ำหนักการแบ่งชั้นเส้นทางที่เฉพาะเจาะจงและอื่น ๆ สำหรับผู้ตอบแต่ละคนมีตัวแปรหลายร้อยตัวเช่นกลุ่มประชากร (อายุภูมิภาค ... ) และจากนั้นส่วนใหญ่เป็นตัวแปรไบนารี (อย่างมากที่สุดหมวดหมู่) ฉันมาจากพื้นหลังวิทยาศาสตร์คอมพิวเตอร์ / การเรียนรู้ของเครื่องจักรและฉันต้องเรียนรู้มากมายเกี่ยวกับสถิติและวิธีการสำรวจแบบดั้งเดิม ตอนนี้ฉันต้องการใช้การเรียนรู้ของเครื่องคลาสสิกกับข้อมูลเหล่านั้น (เช่นการทำนายค่าที่หายไปบางส่วนสำหรับกลุ่มย่อยของผู้ตอบแบบสอบถาม - โดยทั่วไปเป็นงานการจำแนกประเภท) แต่ถือและดูฉันไม่สามารถหาวิธีที่เหมาะสมทำ ฉันควรรวม stratas น้ำหนักหรือการกำหนดเส้นทางเหล่านั้นอย่างไร (เช่น: หากคำถาม 1 ตอบด้วยตัวเลือก 2 ถามคำถาม 3 หรือข้ามไป) เพียงใช้โมเดลของฉัน (ต้นไม้การถดถอยโลจิสติก SVM, XGBoost ... ) ดูเหมือนว่าอันตราย (และพวกเขาล้มเหลวในกรณีส่วนใหญ่) เนื่องจากพวกเขามักจะถือว่าข้อมูลมาจากตัวอย่างแบบง่ายหรือ iid อย่างน้อยหลายวิธีมีน้ำหนัก แต่ก็ไม่ได้ช่วยอะไรมาก นอกจากนี้ยังไม่มีความชัดเจนว่าฉันควรรวมคลาสที่ไม่สมดุลและน้ำหนักที่กำหนดโดยคำจำกัดความของการสำรวจเข้าด้วยกันอย่างไรโดยไม่พูดถึงเรื่องการแบ่งชั้น นอกจากนี้แบบจำลองผลลัพธ์ควรได้รับการสอบเทียบอย่างดี - …