คำถามติดแท็ก survey-sampling

1
การชนกันของสองโลก: การใช้ ML สำหรับข้อมูลการสำรวจที่ซับซ้อน
ฉันพบปัญหาที่ดูเหมือนง่าย แต่ฉันไม่พบวิธีแก้ไขที่เหมาะสมเป็นเวลาหลายสัปดาห์แล้ว ฉันมีข้อมูลโพล / สำรวจค่อนข้างมาก (ผู้ตอบนับหมื่นพูด 50k ต่อชุดข้อมูล) มาจากสิ่งที่ฉันหวังว่าจะเรียกว่าแบบสำรวจที่ออกแบบมาอย่างซับซ้อนพร้อมกับน้ำหนักการแบ่งชั้นเส้นทางที่เฉพาะเจาะจงและอื่น ๆ สำหรับผู้ตอบแต่ละคนมีตัวแปรหลายร้อยตัวเช่นกลุ่มประชากร (อายุภูมิภาค ... ) และจากนั้นส่วนใหญ่เป็นตัวแปรไบนารี (อย่างมากที่สุดหมวดหมู่) ฉันมาจากพื้นหลังวิทยาศาสตร์คอมพิวเตอร์ / การเรียนรู้ของเครื่องจักรและฉันต้องเรียนรู้มากมายเกี่ยวกับสถิติและวิธีการสำรวจแบบดั้งเดิม ตอนนี้ฉันต้องการใช้การเรียนรู้ของเครื่องคลาสสิกกับข้อมูลเหล่านั้น (เช่นการทำนายค่าที่หายไปบางส่วนสำหรับกลุ่มย่อยของผู้ตอบแบบสอบถาม - โดยทั่วไปเป็นงานการจำแนกประเภท) แต่ถือและดูฉันไม่สามารถหาวิธีที่เหมาะสมทำ ฉันควรรวม stratas น้ำหนักหรือการกำหนดเส้นทางเหล่านั้นอย่างไร (เช่น: หากคำถาม 1 ตอบด้วยตัวเลือก 2 ถามคำถาม 3 หรือข้ามไป) เพียงใช้โมเดลของฉัน (ต้นไม้การถดถอยโลจิสติก SVM, XGBoost ... ) ดูเหมือนว่าอันตราย (และพวกเขาล้มเหลวในกรณีส่วนใหญ่) เนื่องจากพวกเขามักจะถือว่าข้อมูลมาจากตัวอย่างแบบง่ายหรือ iid อย่างน้อยหลายวิธีมีน้ำหนัก แต่ก็ไม่ได้ช่วยอะไรมาก นอกจากนี้ยังไม่มีความชัดเจนว่าฉันควรรวมคลาสที่ไม่สมดุลและน้ำหนักที่กำหนดโดยคำจำกัดความของการสำรวจเข้าด้วยกันอย่างไรโดยไม่พูดถึงเรื่องการแบ่งชั้น นอกจากนี้แบบจำลองผลลัพธ์ควรได้รับการสอบเทียบอย่างดี - …

8
แบบสำรวจ: 25% ของตัวแทนฐานผู้ใช้ขนาดใหญ่หรือไม่
ปัจจุบันนายจ้างของฉันกำลังสำรวจความคิดเห็นของ บริษัท เกี่ยวกับทัศนคติที่มีต่อสำนักงานเช่นความเชื่อมั่น ในอดีตพวกเขาเปิดการสำรวจไปยังทุกพื้นที่ของธุรกิจ (สมมติว่ามี 10 แผนกที่แตกต่างกันมาก) และพนักงานทุกคนในนั้น (สมมติว่ามีพนักงาน 1,000 คนใน บริษัท ทั้งหมด) จำนวนพนักงานในแต่ละแผนกไม่เท่ากัน แผนกเฉพาะอาจเป็น 50% ขององค์กรประชากรทั้งหมด ในปีนี้การสำรวจมีการเปิดถึง 25% ของฐานพนักงานทั้งหมดและการเลือกคือ 'สุ่ม' ดังนั้นฉันมีสองคำถาม: หากเป็นการเลือกแบบสุ่มอย่างแท้จริงของฐานพนักงานทั้งหมดจะเป็นอย่างไรตัวอย่างที่ถูกต้องทางสถิติที่สมมติว่าพนักงานทุกคนตอบสนองอย่างไร หากเป็นการสุ่มในแต่ละแผนกเช่น 25% ของแต่ละแผนกเป็นอย่างไรตัวอย่างที่ถูกต้องเมื่อพิจารณาจากหนึ่งแผนกมีมากกว่า 50% ของประชากรทั้งหมด ฉันจะสันนิษฐานว่าเพื่อกำหนดความเชื่อมั่นส่วนใหญ่ใน บริษัท หนึ่งต้องมีอย่างน้อย 50% ของฐานพนักงานในแต่ละแผนกเพื่อให้ความเชื่อมั่นการอ่านที่แท้จริง อัปเดต : การสำรวจไม่ได้บังคับใช้ ไม่สามารถรับประกันอัตราการตอบสนอง 100% จาก 25% ที่เลือก ไม่มีแรงจูงใจหรือบทลงโทษหากการสำรวจเป็นหรือไม่ได้กรอก

3
แนะนำการอ้างอิงเกี่ยวกับน้ำหนักตัวอย่างของแบบสำรวจ
มาตั้งเป้าหมายไว้บ้างในระดับเกริ่นนำบทความและตำราบางเล่ม ใช้แล้วมีประโยชน์มากกว่ารวมถึงรหัส R นั้นยอดเยี่ยม ขอบคุณ!
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.