การชนกันของสองโลก: การใช้ ML สำหรับข้อมูลการสำรวจที่ซับซ้อน


14

ฉันพบปัญหาที่ดูเหมือนง่าย แต่ฉันไม่พบวิธีแก้ไขที่เหมาะสมเป็นเวลาหลายสัปดาห์แล้ว

ฉันมีข้อมูลโพล / สำรวจค่อนข้างมาก (ผู้ตอบนับหมื่นพูด 50k ต่อชุดข้อมูล) มาจากสิ่งที่ฉันหวังว่าจะเรียกว่าแบบสำรวจที่ออกแบบมาอย่างซับซ้อนพร้อมกับน้ำหนักการแบ่งชั้นเส้นทางที่เฉพาะเจาะจงและอื่น ๆ สำหรับผู้ตอบแต่ละคนมีตัวแปรหลายร้อยตัวเช่นกลุ่มประชากร (อายุภูมิภาค ... ) และจากนั้นส่วนใหญ่เป็นตัวแปรไบนารี (อย่างมากที่สุดหมวดหมู่)

ฉันมาจากพื้นหลังวิทยาศาสตร์คอมพิวเตอร์ / การเรียนรู้ของเครื่องจักรและฉันต้องเรียนรู้มากมายเกี่ยวกับสถิติและวิธีการสำรวจแบบดั้งเดิม ตอนนี้ฉันต้องการใช้การเรียนรู้ของเครื่องคลาสสิกกับข้อมูลเหล่านั้น (เช่นการทำนายค่าที่หายไปบางส่วนสำหรับกลุ่มย่อยของผู้ตอบแบบสอบถาม - โดยทั่วไปเป็นงานการจำแนกประเภท) แต่ถือและดูฉันไม่สามารถหาวิธีที่เหมาะสมทำ ฉันควรรวม stratas น้ำหนักหรือการกำหนดเส้นทางเหล่านั้นอย่างไร (เช่น: หากคำถาม 1 ตอบด้วยตัวเลือก 2 ถามคำถาม 3 หรือข้ามไป)

เพียงใช้โมเดลของฉัน (ต้นไม้การถดถอยโลจิสติก SVM, XGBoost ... ) ดูเหมือนว่าอันตราย (และพวกเขาล้มเหลวในกรณีส่วนใหญ่) เนื่องจากพวกเขามักจะถือว่าข้อมูลมาจากตัวอย่างแบบง่ายหรือ iid

อย่างน้อยหลายวิธีมีน้ำหนัก แต่ก็ไม่ได้ช่วยอะไรมาก นอกจากนี้ยังไม่มีความชัดเจนว่าฉันควรรวมคลาสที่ไม่สมดุลและน้ำหนักที่กำหนดโดยคำจำกัดความของการสำรวจเข้าด้วยกันอย่างไรโดยไม่พูดถึงเรื่องการแบ่งชั้น นอกจากนี้แบบจำลองผลลัพธ์ควรได้รับการสอบเทียบอย่างดี - การแจกแจงที่คาดการณ์ควรอยู่ใกล้กับแบบดั้งเดิมมาก ประสิทธิภาพที่ดีในการทำนายไม่ใช่เพียงแค่เกณฑ์ที่นี่ ฉันเปลี่ยนเมตริกการปรับให้เหมาะสมเพื่อพิจารณาสิ่งนี้เช่นกัน (เช่นระยะทางของการกระจายที่คาดการณ์จากการกระจายที่แท้จริง + ความแม่นยำ / MCC) และช่วยในบางกรณีทำไมทำให้ประสิทธิภาพของผู้อื่นอ่อนแอลง

มีวิธีบัญญัติวิธีการจัดการกับปัญหานี้หรือไม่? ดูเหมือนว่ามันเป็นงานวิจัยที่ไม่ได้รับการชื่นชมอย่างมากสำหรับฉัน การสำรวจจำนวนมากของ IMO จะได้ประโยชน์จากพลังของ ML แต่ไม่มีแหล่งที่มา เช่นนี้เป็นสองโลกที่ไม่ได้มีปฏิสัมพันธ์ซึ่งกันและกัน

สิ่งที่ฉันได้พบจนถึง:

  • http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/

    ตัวอย่างเช่นฉันยังรู้เพียงหนึ่งกระดาษ (Toth & Eltinge, 2011) เกี่ยวกับวิธีการทำต้นไม้ถดถอยเมื่อข้อมูลของคุณมาจากการสำรวจตัวอย่างที่ซับซ้อน

  • http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine

    ในการวิเคราะห์เมตาเมื่อเร็ว ๆ นี้ของ 150 ตัวอย่างงานวิจัยวิเคราะห์หลายการสำรวจด้วยการออกแบบการสุ่มตัวอย่างที่ซับซ้อนพบว่าข้อผิดพลาดการวิเคราะห์ที่เกิดจากความไม่รู้หรือการใช้งานที่ไม่ถูกต้องของคุณสมบัติการออกแบบตัวอย่างที่ซับซ้อนได้บ่อย

  • https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf

คำถาม CV ที่เกี่ยวข้อง แต่ไม่มีคำถามใดที่มีคำตอบที่ใช้งานได้ว่าจะเข้าถึงได้อย่างไร (ไม่ตอบไม่มีสิ่งที่ฉันขอหรือนำเสนอคำแนะนำที่ทำให้เข้าใจผิด):


คุณช่วยอธิบายความหมายของคำว่า " ล้มเหลวในกรณีส่วนใหญ่ " ได้ไหม? คุณจะตัดสินความสำเร็จของแบบจำลองในการตั้งค่าปัจจุบันนี้ได้อย่างไร
usεr11852พูดว่า Reinstate Monic

พวกเขาไม่ได้ใกล้เคียงกับการแจกจ่ายดั้งเดิมหรือดูเหมือนไร้สาระในการเรียกใช้ (เช่นเมื่อมีการกำหนดเส้นทางรวม)
kotrfa

คำตอบ:


3

( อัปเดต:ยังไม่ได้ผลมากนักสำหรับวิธีการ ML แบบ "ทันสมัย" ที่มีข้อมูลการสำรวจที่ซับซ้อน แต่ฉบับล่าสุดของวิทยาศาสตร์ทางสถิติมีบทความวิจารณ์อยู่สองสามรายการดูโดยเฉพาะBreidt และ Opsomer (2017), "Model-Assisted การประมาณค่าสำรวจด้วยเทคนิคการทำนายแบบใหม่ " .

นอกจากนี้จากกระดาษ Toth และ Eltinge ที่คุณพูดถึงตอนนี้มีแพ็คเกจRpms ที่ใช้ CART สำหรับข้อมูลการสำรวจที่ซับซ้อน)

ตอนนี้ฉันต้องการใช้การเรียนรู้ของเครื่องคลาสสิกกับข้อมูลเหล่านั้น (เช่นการทำนายค่าที่หายไปบางส่วนสำหรับกลุ่มย่อยของผู้ตอบแบบสอบถาม - โดยทั่วไปเป็นงานการจำแนกประเภท)

ฉันไม่ชัดเจนในเป้าหมายของคุณ คุณพยายามที่จะกำหนดข้อสังเกตที่ขาดหายไปเป็นหลักเพื่อให้มีชุดข้อมูล "สมบูรณ์" เพื่อมอบให้ผู้อื่นหรือไม่? หรือคุณมีข้อมูลที่สมบูรณ์อยู่แล้วและคุณต้องการสร้างแบบจำลองเพื่อทำนาย / จำแนกการตอบสนองของการสังเกตการณ์ใหม่ คุณมีคำถามเฉพาะสำหรับตอบโมเดลของคุณหรือคุณกำลังขุดข้อมูลในวงกว้างมากขึ้นหรือไม่?

ในทั้งสองกรณีการถดถอยโลจิสติกแบบสุ่มตัวอย่าง / แบบสำรวจถ่วงน้ำหนักนั้นเป็นวิธีการที่สมเหตุสมผลและเข้าใจได้ง่าย นอกจากนี้ยังมีการถดถอยตามลำดับสำหรับมากกว่า 2 หมวดหมู่ สิ่งเหล่านี้จะอธิบายถึงสตราตัสและตุ้มน้ำหนักสำรวจ คุณต้องการวิธี ML ที่นักเล่นชื่นชอบมากกว่านี้หรือไม่?

ตัวอย่างเช่นคุณสามารถใช้svyglmในsurveyแพ็คเกจของ R แม้ว่าคุณจะไม่ได้ใช้ R ผู้เขียน Thomas Lumley ผู้เขียนแพ็คเกจยังเขียนหนังสือที่มีประโยชน์ "Complex Surveys: คำแนะนำในการวิเคราะห์การใช้ R" ซึ่งครอบคลุมทั้งการถดถอยโลจิสติกและข้อมูลที่ขาดหายไปสำหรับการสำรวจ

(สำหรับการใส่ความเห็นฉันหวังว่าคุณจะคุ้นเคยกับปัญหาทั่วไปเกี่ยวกับข้อมูลที่หายไปถ้าไม่ให้ลองใช้วิธีการหลายอย่างเพื่อช่วยคุณพิจารณาว่าขั้นตอนการใส่ความคิดส่งผลกระทบต่อการประมาณการ / การคาดการณ์ของคุณอย่างไร)

การกำหนดเส้นทางคำถามเป็นปัญหาเพิ่มเติมแน่นอน ฉันไม่แน่ใจว่าจะจัดการกับมันอย่างไรดีที่สุด สำหรับการใส่ร้ายบางทีคุณอาจใส่ "ขั้นตอน" หนึ่งครั้งในการกำหนดเส้นทางในแต่ละครั้ง ตัวอย่างเช่นการใช้แบบจำลองระดับโลกก่อนอื่นให้ใส่คำตอบของทุกคนลงใน "คุณมีเด็กกี่คน?"; จากนั้นเรียกใช้โมเดลใหม่ในกลุ่มย่อยที่เกี่ยวข้อง (ผู้ที่มีเด็กมากกว่า 0 คน) เพื่อกำหนดขั้นตอนต่อไปของ "ลูกของคุณอายุเท่าไหร่"

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.