คุณจะตัดสินใจขนาดตัวอย่างอย่างไรเมื่อทำการสำรวจประชากรขนาดใหญ่


15

ขณะนี้ออสเตรเลียกำลังมีการเลือกตั้งและสื่อมวลชนรายงานผลการสำรวจความคิดเห็นทางการเมืองใหม่ทุกวัน ในประเทศที่มีประชากร 22 ล้านคนจะต้องมีการสุ่มตัวอย่างเปอร์เซ็นต์ใดเพื่อให้ได้ผลลัพธ์ที่ถูกต้องทางสถิติ

เป็นไปได้หรือไม่ที่การใช้ตัวอย่างที่มีขนาดใหญ่เกินไปอาจส่งผลต่อผลลัพธ์หรือความถูกต้องทางสถิติเพิ่มขึ้นแบบ monotonically ด้วยขนาดตัวอย่าง

คำตอบ:


13

ขนาดตัวอย่างไม่ได้ขึ้นอยู่กับขนาดของประชากรมากนัก

บริษัท สำรวจความคิดเห็นส่วนใหญ่ใช้ 400 หรือ 1,000 คนในตัวอย่างของพวกเขา

มีเหตุผลสำหรับสิ่งนี้:

ขนาดตัวอย่าง 400 จะให้ช่วงความมั่นใจ +/- 5% 19 เท่าจาก 20 (95%)

ขนาดตัวอย่าง 1,000 จะให้ช่วงความมั่นใจ +/- 3% 19 เท่าจาก 20 (95%)

เมื่อคุณวัดสัดส่วนใกล้ 50% แล้วล่ะก็

เครื่องคิดเลขนี้ไม่เลว:

http://www.raosoft.com/samplesize.html


6
แต่โปรดทราบว่าทั้งหมดนี้มาจากการสุ่มตัวอย่างจากประชากรที่เป็นเนื้อเดียวกัน หากคุณมีประชากรต่างกัน (เช่นสัดส่วนที่แตกต่างกันสำหรับกลุ่มย่อยที่แตกต่างกันการสุ่มตัวอย่างชิ้นส่วนที่หายากของประชากร) ดังนั้นค่าความแปรปรวนนั้นไม่น่าเชื่อถือ ค่าประมาณที่คุณคำนวณจริงนี่คือ (ฉันคิดว่า) สำหรับประชากรที่กลุ่มตัวอย่างของคุณเป็นตัวแทน คำถามคือประชากรกลุ่มนี้เป็นคนที่คุณสนใจจริง ๆ หรือไม่?
ความน่าจะเป็นเชิง

9

สมมติว่าคุณต้องการทราบว่าจะมีคนลงคะแนนให้กับผู้สมัครคนใดเป็นเปอร์เซ็นต์ (เช่นโปรดทราบว่าตามนิยามอยู่ระหว่าง 0 ถึง 100) คุณลิ้มลองผู้มีสิทธิเลือกตั้งที่สุ่มจะหาวิธีที่พวกเขาจะออกเสียงลงคะแนนและการสำรวจของคุณเหล่านี้ผู้มีสิทธิเลือกตั้งจะบอกคุณว่าร้อยละคือพีดังนั้นคุณต้องการสร้างช่วงความมั่นใจสำหรับเปอร์เซ็นต์ที่แท้จริงเธN N Pππยังไม่มีข้อความยังไม่มีข้อความพี

หากคุณสมมติว่าถูกแจกจ่ายตามปกติ (ข้อสันนิษฐานที่อาจหรืออาจไม่เป็นธรรมขึ้นอยู่กับว่า 'ใหญ่'คืออะไร) ดังนั้นช่วงความเชื่อมั่นของคุณสำหรับจะอยู่ในรูปแบบต่อไปนี้: โดยที่เป็นค่าคงที่ซึ่งขึ้นอยู่กับขอบเขตของความมั่นใจที่คุณต้องการ (เช่น 95% หรือ 99% เป็นต้น)N π C I = [ p - k s d ( p ) , p + k s d ( p ) ] kพียังไม่มีข้อความπ

ผม=[พี-k* * * *sd(พี),  พี+k* * * *sd(พี)]
k

จากมุมมองการสำรวจคุณต้องการความกว้างของช่วงความมั่นใจของคุณเป็น 'ต่ำ' โดยทั่วไปแล้วการสำรวจความคิดเห็นจะทำงานกับขอบของข้อผิดพลาดซึ่งโดยทั่วไปแล้วครึ่งหนึ่งของ CI ในคำอื่น ๆ(P) MoE=k* * * *sd(พี)

นี่คือวิธีที่เราจะไปเกี่ยวกับการคำนวณ : ตามคำนิยามโดยที่ถ้าผู้มีสิทธิเลือกตั้งลงคะแนนให้ผู้สมัครและอย่างอื่นp = X i / N X i = 1 i 0sd(พี)พี=ΣXผม/ยังไม่มีข้อความXผม=1ผม0

เนื่องจากเราสุ่มตัวอย่างผู้ลงคะแนนด้วยการสุ่มเราสามารถสันนิษฐานได้ว่าเป็นตัวแปรสุ่ม iid Bernoulli ดังนั้น ดังนั้น ทีนี้เพื่อประเมินระยะขอบของความผิดพลาดที่เราต้องรู้ซึ่งเราไม่ทราบแน่ชัด แต่การตรวจสอบของเศษแสดงให้เห็นว่าเลวร้ายที่สุด 'ประมาณการในแง่ที่ว่าเราได้รับ 'ใหญ่ที่สุด' เบี่ยงเบนมาตรฐานคือเมื่อ0.5 ดังนั้นค่าเบี่ยงเบนมาตรฐานที่แย่ที่สุดที่เป็นไปได้คือ: Xผม

VaR(P)=V(ΣXผมยังไม่มีข้อความ)=ΣV(Xผม)ยังไม่มีข้อความ2=ยังไม่มีข้อความπ(1-π)ยังไม่มีข้อความ2=π(1-π)ยังไม่มีข้อความ.
sd(พี)=π* * * *(1-π)ยังไม่มีข้อความ
πsd(พี)π=0.5
sd(พี)=0.5* * * *0.5/ยังไม่มีข้อความ=0.5/ยังไม่มีข้อความ
ดังนั้นคุณจะเห็นว่าระยะขอบของข้อผิดพลาดจะลดลงอย่างมากด้วยดังนั้นคุณไม่จำเป็นต้องมีตัวอย่างขนาดใหญ่มากเพื่อลดระยะขอบของข้อผิดพลาดหรือกล่าวอีกนัยหนึ่งว่าไม่จำเป็นต้องมีขนาดใหญ่มากสำหรับคุณยังไม่มีข้อความยังไม่มีข้อความ

ตัวอย่างเช่นสำหรับช่วงความมั่นใจ 95% (เช่น ) และช่วงความเชื่อมั่นคือ: เมื่อเราเพิ่มค่าใช้จ่ายในการเลือกตั้งขึ้นไปเป็นเส้นตรง แต่กำไรเพิ่มขึ้นลงแบบทวีคูณ นั่นคือเหตุผลที่ว่าทำไม pollsters มักฝาที่ 1000 ในฐานะที่จะช่วยให้พวกเขามีข้อผิดพลาดที่เหมาะสมของอัตรากำไรขั้นต้นภายใต้สมมติฐานที่เลวร้ายที่สุดของ\% k=1.96ยังไม่มีข้อความ=1000

[พี-1.960.51000,  พี+1.960.51000]=[พี-0.03,  พี+0.03]
ยังไม่มีข้อความยังไม่มีข้อความπ=50%

2

โดยทั่วไปแล้วเมื่อใดก็ตามที่คุณสุ่มตัวอย่างเศษส่วนของประชากรในประชากรคุณจะได้รับคำตอบที่แตกต่างจากที่คุณสุ่มตัวอย่างจำนวนเดียวกันอีกครั้ง (แต่อาจเป็นคนอื่น)

ดังนั้นถ้าคุณต้องการทราบว่ามีกี่คนในออสเตรเลีย> = 30 ปีและถ้าเศษส่วนที่แท้จริง (พระเจ้าบอกเรา) เพิ่งเกิดขึ้นอย่างแม่นยำ 0.4 และถ้าเราถาม 100 คนจำนวนเฉลี่ยที่เราคาดหวัง บอกว่ามันคือ> = 30 คือ 100 x 0.4 = 40 และค่าเบี่ยงเบนมาตรฐานของตัวเลขนั้นคือ +/- sqrt (100 * 0.4 * 0.6) = sqrt (24) ~ 4.9 หรือ 4.9% (การแจกแจงแบบทวินาม)

เนื่องจากสแควร์รูทนั้นอยู่ในนั้นเมื่อขนาดตัวอย่างเพิ่มขึ้น 100 เท่าค่าเบี่ยงเบนมาตรฐานจะลดลง 10 เท่า ดังนั้นโดยทั่วไปหากต้องการลดความไม่แน่นอนของการวัดเช่นนี้ลง 10 เท่าคุณจะต้องลองสุ่มตัวอย่าง 100 ครั้งกับคนจำนวนมาก ถ้าคุณถาม 100 x 100 = 10,000 คนค่าเบี่ยงเบนมาตรฐานจะสูงถึง 49 หรือเปอร์เซ็นต์ลดลง 0.49%

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.