ฉันพบปัญหาที่ดูเหมือนง่าย แต่ฉันไม่พบวิธีแก้ไขที่เหมาะสมเป็นเวลาหลายสัปดาห์แล้ว
ฉันมีข้อมูลโพล / สำรวจค่อนข้างมาก (ผู้ตอบนับหมื่นพูด 50k ต่อชุดข้อมูล) มาจากสิ่งที่ฉันหวังว่าจะเรียกว่าแบบสำรวจที่ออกแบบมาอย่างซับซ้อนพร้อมกับน้ำหนักการแบ่งชั้นเส้นทางที่เฉพาะเจาะจงและอื่น ๆ สำหรับผู้ตอบแต่ละคนมีตัวแปรหลายร้อยตัวเช่นกลุ่มประชากร (อายุภูมิภาค ... ) และจากนั้นส่วนใหญ่เป็นตัวแปรไบนารี (อย่างมากที่สุดหมวดหมู่)
ฉันมาจากพื้นหลังวิทยาศาสตร์คอมพิวเตอร์ / การเรียนรู้ของเครื่องจักรและฉันต้องเรียนรู้มากมายเกี่ยวกับสถิติและวิธีการสำรวจแบบดั้งเดิม ตอนนี้ฉันต้องการใช้การเรียนรู้ของเครื่องคลาสสิกกับข้อมูลเหล่านั้น (เช่นการทำนายค่าที่หายไปบางส่วนสำหรับกลุ่มย่อยของผู้ตอบแบบสอบถาม - โดยทั่วไปเป็นงานการจำแนกประเภท) แต่ถือและดูฉันไม่สามารถหาวิธีที่เหมาะสมทำ ฉันควรรวม stratas น้ำหนักหรือการกำหนดเส้นทางเหล่านั้นอย่างไร (เช่น: หากคำถาม 1 ตอบด้วยตัวเลือก 2 ถามคำถาม 3 หรือข้ามไป)
เพียงใช้โมเดลของฉัน (ต้นไม้การถดถอยโลจิสติก SVM, XGBoost ... ) ดูเหมือนว่าอันตราย (และพวกเขาล้มเหลวในกรณีส่วนใหญ่) เนื่องจากพวกเขามักจะถือว่าข้อมูลมาจากตัวอย่างแบบง่ายหรือ iid
อย่างน้อยหลายวิธีมีน้ำหนัก แต่ก็ไม่ได้ช่วยอะไรมาก นอกจากนี้ยังไม่มีความชัดเจนว่าฉันควรรวมคลาสที่ไม่สมดุลและน้ำหนักที่กำหนดโดยคำจำกัดความของการสำรวจเข้าด้วยกันอย่างไรโดยไม่พูดถึงเรื่องการแบ่งชั้น นอกจากนี้แบบจำลองผลลัพธ์ควรได้รับการสอบเทียบอย่างดี - การแจกแจงที่คาดการณ์ควรอยู่ใกล้กับแบบดั้งเดิมมาก ประสิทธิภาพที่ดีในการทำนายไม่ใช่เพียงแค่เกณฑ์ที่นี่ ฉันเปลี่ยนเมตริกการปรับให้เหมาะสมเพื่อพิจารณาสิ่งนี้เช่นกัน (เช่นระยะทางของการกระจายที่คาดการณ์จากการกระจายที่แท้จริง + ความแม่นยำ / MCC) และช่วยในบางกรณีทำไมทำให้ประสิทธิภาพของผู้อื่นอ่อนแอลง
มีวิธีบัญญัติวิธีการจัดการกับปัญหานี้หรือไม่? ดูเหมือนว่ามันเป็นงานวิจัยที่ไม่ได้รับการชื่นชมอย่างมากสำหรับฉัน การสำรวจจำนวนมากของ IMO จะได้ประโยชน์จากพลังของ ML แต่ไม่มีแหล่งที่มา เช่นนี้เป็นสองโลกที่ไม่ได้มีปฏิสัมพันธ์ซึ่งกันและกัน
สิ่งที่ฉันได้พบจนถึง:
- http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/
ตัวอย่างเช่นฉันยังรู้เพียงหนึ่งกระดาษ (Toth & Eltinge, 2011) เกี่ยวกับวิธีการทำต้นไม้ถดถอยเมื่อข้อมูลของคุณมาจากการสำรวจตัวอย่างที่ซับซ้อน
- http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine
ในการวิเคราะห์เมตาเมื่อเร็ว ๆ นี้ของ 150 ตัวอย่างงานวิจัยวิเคราะห์หลายการสำรวจด้วยการออกแบบการสุ่มตัวอย่างที่ซับซ้อนพบว่าข้อผิดพลาดการวิเคราะห์ที่เกิดจากความไม่รู้หรือการใช้งานที่ไม่ถูกต้องของคุณสมบัติการออกแบบตัวอย่างที่ซับซ้อนได้บ่อย
- https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
คำถาม CV ที่เกี่ยวข้อง แต่ไม่มีคำถามใดที่มีคำตอบที่ใช้งานได้ว่าจะเข้าถึงได้อย่างไร (ไม่ตอบไม่มีสิ่งที่ฉันขอหรือนำเสนอคำแนะนำที่ทำให้เข้าใจผิด):