รูปแบบการสุ่มตัวอย่างสำหรับข้อมูลแบบหนาแน่น

ฉันกำลังทำงานกับแอปพลิเคชันสำรวจสุขภาพแบบเปิดซึ่งวางแผนจะใช้ในประเทศกำลังพัฒนา

แนวความคิดพื้นฐานคือการสัมภาษณ์แบบสำรวจนั้นเป็นเรื่องที่มีคนหนาแน่น - ดำเนินการโดยอาสาสมัครที่ไม่มีการรวบรวมข้อมูลที่ส่งแบบฟอร์มข้อมูลการสัมภาษณ์ที่พวกเขาทำโดยใช้อุปกรณ์พกพาของพวกเขาและการสำรวจแต่ละครั้ง

การสำรวจแบบดั้งเดิมที่รวบรวมโดยหน่วยงานของรัฐมักจะใช้รูปแบบการสุ่มตัวอย่างแบบมาตรฐาน สิ่งนี้ต้องการการวางแผนแบบรวมศูนย์จำนวนมากที่ไม่สามารถทำได้ตลอดเวลา (กล่าวถึงสิ่งนี้เพื่อตั้งคำถามของฉันในบริบทที่ถูกต้อง)

เราสามารถพูดได้ว่าอาสาสมัครจะใช้การสุ่มตัวอย่างความสะดวกสบายรอบ ๆ พื้นที่ของเขา เขาจะสัมภาษณ์คนที่เขาสามารถเข้าถึงได้โดยไม่ จำกัด จำนวน

ปัญหาพื้นฐานคือ: จะเข้าใจและอธิบายรูปแบบการสุ่มตัวอย่างโดยรวมของระบบสำรวจนี้ได้อย่างไร มีวิธีการหรือแบบจำลองที่จะจัดการกับกรณีดังกล่าวหรือไม่?

sampling

— al-Amjad Tawfiq Isstaif
แหล่งที่มา

คำตอบสั้น ๆ :นี่คือตัวอย่างความสะดวกสบาย ไม่มีอะไรที่คุณสามารถทำได้เพื่อพิสูจน์ว่ามันเป็น

คำตอบที่ค่อนข้างนาน: คุณอยู่ในเรือลำเดียวกันกับเครือข่ายโซเชียลหลายแห่งที่ดำเนินการสำรวจภายในโดยไม่มีความคิดมากว่าใครจะตอบคำถามแบบสำรวจคำถามเดียวที่จะสุ่มขึ้นมาบน Facebook หรือ Google + ... ยกเว้นว่าจะแตกต่างจากยักษ์ใหญ่เหล่านี้เลย ไม่มีข้อมูลใด ๆ สำหรับผู้ที่ไม่ตอบสนอง โดยทั่วไปชุมชนการสำรวจและการสำรวจความคิดเห็นของประชาชนมักจะขมวดคิ้วกับงานประเภทนี้เนื่องจากยังไม่ชัดเจนว่าผลลัพธ์ของตัวอย่างที่มีอคติอย่างมากเหล่านี้สามารถทำให้เป็นเรื่องทั่วไปสำหรับประชากรทั้งหมดได้อย่างไร คุณสามารถพยายามที่จะลดน้ำหนักตามประชากรที่เป็นที่รู้จัก แต่จากนั้นคุณจะได้รับน้ำหนักที่หลากหลายจาก 1 สำหรับบุคคลที่เป็นตัวแทนของตัวเองถึง 1,000,000 คนที่ได้รับมอบหมายให้เป็นชาย 70 คนที่รู้วิธีใช้คอมพิวเตอร์ (และน่าจะไม่ได้เป็นตัวแทนของผู้ชายที่เหลืออีก 1,000,000 70+ คน)

อ่านเพิ่มเติม: "วิธีการโกหกด้วยสถิติ"เปิดขึ้นพร้อมกับบทเกี่ยวกับตัวอย่างลำเอียง หากคุณสามารถอ่านและไม่ร้องไห้ด้วยความหงุดหงิดเกี่ยวกับการออกแบบตัวอย่างคุณสามารถไปต่อได้ หากคุณพึ่งพาอาสาสมัครตัวอย่างของคุณจะมีอคติต่อประชากรวัยหนุ่มสาวและคนเมืองที่เข้าถึงอุปกรณ์อิเล็กทรอนิกส์ได้ดีขึ้น เช่นเดียวกับหนังสือ"What is Survey" ที่ Fritz Scheuren อดีตประธานสมาคมสถิติอเมริกันเปิดตัวขึ้นมาพร้อมกับภาพของ Harry Truman ซึ่งชัยชนะไม่สามารถคาดการณ์ได้จากเทคนิคการลงคะแนนแบบลำเอียงที่มีอยู่ ณ เวลานั้น

มีงานวิจัยบางอย่างกับเป็นเรื่องยากที่จะเข้าถึงประชากร หนึ่งในโครงการที่รู้จักกันดีคือการศึกษาจำนวนผู้เสียชีวิตมากเกินไปในอิรักที่มีการสุ่มตัวอย่างพื้นที่ทางภูมิศาสตร์และในแต่ละพื้นที่แพทย์ท้องถิ่นจะพยายามขอสัมภาษณ์จากทุกครัวเรือนในบล็อกเมือง มีการวิพากษ์วิจารณ์การออกแบบนี้อยู่มาก แต่ก็ยังมีส่วนประกอบที่สุ่มตัวอย่างอยู่ ดูเอกสารใน Lancet (อย่างที่คุณอาจจะรู้ว่าคุณไม่สามารถมีชื่อเสียงในโลกการแพทย์ได้อีก) http://dx.doi.org/10.1016/S0140-6736(04)17441-2และhttp: //dx.doi .org

— StasK
แหล่งที่มา

(+1) Stas มีบางสิ่งที่แตกต่างจากการสุ่มตัวอย่างโควต้าหรือไม่ เพียงแค่อยากรู้อยากเห็นการอ่านคร่าว ๆ ของคำถามทำให้ดูเหมือนว่าการเปลี่ยนแปลงในคำศัพท์ นอกจากนี้ในเวลาสั้น ๆ บทวิจารณ์หลักของการศึกษาการสุ่มตัวอย่างกลุ่มอิรักคืออะไร ฉันจำได้ว่าเห็นสิ่งนี้เมื่อมันออกมาครั้งแรกและอ่านมันเล็กน้อย

— พระคาร์ดินัล

ฉันคิดว่าข้อแตกต่างคือไม่มีโควต้าต่อคน ... ;)

— สำคัญ

ขอบคุณมาก! ตอนนี้ฉันมีความเข้าใจที่ดีก่อนที่ฉันจะออกแบบความคิดใหม่!

— al-Amjad Tawfiq Isstaif

en.wikipedia.org/wiki/Lancet_surveys_of_Iraq_War_casualties

— StasK

ฉันคิดว่ามีปัญหากับกลุ่มเล็ก ๆ จำนวนหนึ่งและกลุ่มหนึ่งปิดท้ายที่กิจกรรมการทหารสูงกว่าที่อื่นในประเทศ สำหรับฉันสิ่งแรกที่ต้องพิจารณาคืองบ AAPOR และ ASA เกี่ยวกับการศึกษา ในขณะที่ Lancet อาจเป็นวารสารทางการแพทย์ที่ยอดเยี่ยมและ John Hopkins แพทย์ผู้ยิ่งใหญ่ที่ดมกลิ่นที่หน่วยงาน AAPOR และปฏิเสธเอกสารเหล่านั้นถึงวิธีการที่ไม่เป็นมืออาชีพ

— StasK