ช่วงความเชื่อมั่นกับขนาดตัวอย่าง?


9

ฉันยังใหม่กับสถิติและช่วงเวลาของความมั่นใจ ดังนั้นนี่อาจเป็นเรื่องเล็กน้อยหรือแม้แต่เสียงโง่ ฉันจะขอบคุณถ้าคุณสามารถช่วยฉันเข้าใจหรือชี้แนะฉันไปที่วรรณกรรม / ข้อความ / บล็อกที่อธิบายสิ่งนี้ดีกว่า

ฉันเห็นในเว็บไซต์ข่าวต่าง ๆ เช่น CNN, Fox News, Politico ฯลฯ เกี่ยวกับการสำรวจของพวกเขาเกี่ยวกับการแข่งขันชิงตำแหน่งประธานาธิบดีสหรัฐอเมริกา 2012 แต่ละหน่วยงานดำเนินการสำรวจและรายงานสถิติบางส่วนของแบบฟอร์ม:

ซีเอ็นเอ็น: ความนิยมของโอบามาคือ X% โดยมี margin ของ error +/- x1% ขนาดตัวอย่าง 600 FOX: ความนิยมของโอบามาคือ Y% โดยมีระยะขอบของข้อผิดพลาด +/- y1% ขนาดตัวอย่าง 800 XYZ: ความนิยมของโอบามาคือ Z% โดยมีระยะห่างของข้อผิดพลาด +/- z1% ขนาดตัวอย่าง 300

นี่คือข้อสงสัยของฉัน:

  1. ฉันจะตัดสินใจเลือกที่จะเชื่อถือได้อย่างไร มันควรจะขึ้นอยู่กับช่วงความมั่นใจหรือฉันควรสมมติว่าเนื่องจาก Fox มีขนาดตัวอย่างที่ใหญ่กว่าการประมาณการจึงน่าเชื่อถือมากขึ้น มีความสัมพันธ์โดยนัยระหว่างความมั่นใจกับเส้นประสาทและขนาดของกลุ่มตัวอย่างที่ระบุความต้องการที่จะระบุอีกข้อหนึ่งหรือไม่?

  2. ฉันสามารถกำหนดค่าเบี่ยงเบนมาตรฐานจากช่วงความมั่นใจได้หรือไม่ ถ้าเป็นเช่นนั้นมันจะถูกต้องเสมอหรือใช้ได้สำหรับการแจกแจงบางอย่างเท่านั้น (เช่นเกาส์เซียน)

  3. มีวิธีที่ฉันสามารถ "ผสาน" หรือ "รวม" การประมาณสามข้อด้านบนและรับประมาณการของตัวเองพร้อมกับช่วงความมั่นใจได้หรือไม่ ฉันควรใช้ขนาดตัวอย่างขนาดใดในกรณีนี้

ฉันได้พูดถึง CNN / Fox เท่านั้นเพื่ออธิบายตัวอย่างของฉันได้ดียิ่งขึ้น ฉันไม่มีความตั้งใจที่จะเริ่มการต่อสู้กับพรรคเดโมแครตกับรีพับลิกันที่นี่

โปรดช่วยฉันเข้าใจปัญหาที่เกิดขึ้น

คำตอบ:


4

นอกจากคำตอบที่ยอดเยี่ยมของปีเตอร์นี่คือคำตอบสำหรับคำถามเฉพาะของคุณ:

  1. ผู้ที่ไว้วางใจจะขึ้นอยู่กับว่าใครทำแบบสำรวจความคิดเห็นและความพยายามในการได้รับแบบสำรวจคุณภาพดี ขนาดตัวอย่างที่ใหญ่กว่านั้นไม่ดีกว่าถ้าตัวอย่างไม่ได้เป็นตัวแทนทำการสำรวจความคิดเห็นขนาดใหญ่ แต่ในสถานะที่ไม่มีการสวิงจะมีผลลัพธ์ที่ดีมาก

    มีความสัมพันธ์ระหว่างขนาดตัวอย่างและความกว้างของช่วงความมั่นใจ แต่สิ่งอื่น ๆ ก็มีผลต่อความกว้างเช่นวิธีการปิดเปอร์เซ็นต์เป็น 0, 1 หรือ 0.5 การปรับไบแอสใดที่ใช้วิธีการสุ่มตัวอย่าง (การจัดกลุ่มการแบ่งชั้น ฯลฯ ) กฎทั่วไปคือความกว้างของช่วงความมั่นใจจะเป็นสัดส่วนกับดังนั้นเพื่อลดช่วงเวลาที่คุณต้องการให้มีขนาดตัวอย่าง 4 เท่า1n

  2. หากคุณรู้มากพอเกี่ยวกับวิธีการเก็บตัวอย่างและสูตรที่ใช้ในการคำนวณช่วงเวลาคุณสามารถแก้ปัญหาสำหรับค่าเบี่ยงเบนมาตรฐาน (คุณต้องทราบระดับความเชื่อมั่นที่ใช้โดยปกติคือ 0.05) แต่สูตรจะแตกต่างกันสำหรับกลุ่มตัวอย่างที่มีการแบ่งชั้นเป็นคลัสเตอร์ นอกจากนี้โพลส่วนใหญ่ดูที่เปอร์เซ็นต์ดังนั้นจะใช้การแจกแจงทวินาม

  3. มีหลายวิธีในการรวมข้อมูล แต่โดยทั่วไปคุณจะต้องรู้อะไรเกี่ยวกับวิธีการเก็บตัวอย่างหรือยินดีที่จะตั้งสมมติฐานบางอย่างเกี่ยวกับวิธีการสร้างช่วงเวลา วิธีการแบบเบย์เป็นวิธีหนึ่ง


1
+1 แต่มุมมองสำหรับ # 3 นั้นเยือกเย็นหรือยากจริงๆ หากฉันมีการรวบรวมการประมาณที่เป็นอิสระแต่ละข้อที่มีความคลาดเคลื่อนของตัวเองทำไมฉันจึงไม่สามารถรวมพวกเขาด้วยวิธีปกติได้ ดี (ใช้สูตรความแปรปรวน) หรือไม่ มันจะไม่สมบูรณ์แบบ แต่ควรจะดีกว่าการเลือกแบบสำรวจเดียวที่น่าเชื่อถือใช่ไหม
whuber

ขอบคุณ Greg! ฉันซาบซึ้งในคำตอบของคุณมาก คุณพูดถึงการตอบคำถาม 3 ว่า "วิธีการแบบเบย์เป็นวิธีหนึ่ง" คุณช่วยชี้ให้ฉันดูวรรณกรรมที่ให้ข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ได้ไหม
Nik

@whuber: ขอบคุณสำหรับความคิดเห็นของคุณ นั่นคือสิ่งที่ฉันคิดว่าจะทำ คุณคิดว่ามันเป็นธรรมที่จะรวมประมาณการเหล่านี้ในแบบนี้? อาจจะไม่สมบูรณ์ แต่ในระดับใหญ่?
Nik

1
@ โฮเบอร์ฉันไม่ได้ตั้งใจที่จะทาสีให้มันดูเยือกเย็นเพียงเพื่อให้แน่ใจว่าโปสเตอร์นั้นรับรู้และสามารถอยู่กับสมมติฐานที่จำเป็นได้
เกร็กสโนว์

@ นิกมีบทเรียนมากมายบนเว็บสำหรับสถิติแบบเบย์ วิธีง่าย ๆ (ซึ่งสันนิษฐานว่ากลุ่มตัวอย่างเป็นกลุ่มตัวอย่างแบบง่าย ๆ ทั้งหมดหรือการออกแบบการสำรวจนั้นเป็นไปตามสมมติฐานของ SRS ที่อยู่ไม่ไกล) จะเริ่มจากรุ่นเบต้าก่อนจากนั้นใช้แบบสำรวจความคิดเห็นแบบทวินาม อัปเดตและรับหลังใหม่ สิ่งหนึ่งที่ดีเกี่ยวกับวิธีการของเบย์คือคุณสามารถลดผลกระทบของการศึกษาก่อนหน้านี้หากคุณไม่ต้องการให้พวกเขามีอิทธิพลมากเท่ากับโพลล่าสุด
Greg Snow

4

นี่เป็นหัวข้อใหญ่ แต่โดยทั่วไปมีสองประเด็น:

1) ความแม่นยำ - จะถูกกำหนดโดยขนาดตัวอย่าง ตัวอย่างขนาดใหญ่ให้การประมาณที่แม่นยำยิ่งขึ้นพร้อมข้อผิดพลาดมาตรฐานที่ต่ำกว่าและช่วงความเชื่อมั่นที่เข้มงวดยิ่งขึ้น

2) อคติ - ซึ่งในสถิติไม่จำเป็นต้องมีความหมายเชิงลบที่มันทำที่อื่น ในการสำรวจพวกเขาพยายามรับตัวอย่างแบบสุ่มของ XXXX (บางครั้งมีแนวโน้มว่าผู้มีสิทธิเลือกตั้งหรือผู้ลงคะแนนที่ลงทะเบียนบางครั้ง) แต่พวกเขาทำไม่ได้ โพลบางตัวใช้เส้นที่ดินเท่านั้น กลุ่มคนที่แตกต่างกันมีโอกาสตอบมากกว่าหรือน้อยกว่า กลุ่มต่าง ๆ มีแนวโน้มที่จะวางสายมากหรือน้อย

ดังนั้นผู้สำรวจความคิดเห็นทั้งหมดจึงให้น้ำหนักการตอบสนองของพวกเขา กล่าวคือพวกเขาพยายามปรับผลลัพธ์เพื่อให้ตรงกับข้อเท็จจริงที่ทราบเกี่ยวกับผู้ลงคะแนน แต่พวกเขาทั้งหมดทำมันแตกต่างกันเล็กน้อย ดังนั้นแม้จะมีข้อมูลอินพุตแบบโพลเดียวกันพวกเขาก็จะให้ตัวเลขที่แตกต่างกัน

ใครจะเชื่อใจ? ถ้าคุณดูที่งานของ Nate Silver ใน 538 เขามีเรตติ้งของความถูกต้องของการสำรวจความคิดเห็นในการเลือกตั้งครั้งก่อน แต่นั่นไม่ได้หมายความว่าตอนนี้พวกเขาจะถูกต้องเท่าเทียมกัน


ขอบคุณปีเตอร์ ดังนั้นการประมาณการที่มีความผิดพลาดต่ำกว่าจึงแม่นยำยิ่งขึ้น มีวิธีที่จะทราบว่ามันลำเอียงมาจากเพียงแค่ X% +/- x1% ข้อผิดพลาดขอบ? ฉันเดาว่ามันเป็นไปไม่ได้นอกจากคุณจะรู้ว่าการตั้งค่าของกลุ่มตัวอย่างใช่ไหม?
Nik

ใช่ถูกแล้ว. แน่นอนผู้สำรวจบางคนรู้จักอคติ (ในทิศทางเดียวหรืออื่น) การสำรวจภายใน (ดำเนินการโดยฝ่ายหนึ่งฝ่ายใด) มักจะมีอคติ วิธีหนึ่งที่พวกเขาสามารถทำได้คือการลงทะเบียนหลายโพลและปล่อยเฉพาะโพลที่ดี จากนั้นมีปัญหาทั้งหมดของ "การสำรวจความคิดเห็น" ซึ่งคำถามเกี่ยวกับผู้สมัครจะถูกนำเสนอล่วงหน้าโดยคำถามเชิงลบเกี่ยวกับเขาหรือเธอ
Peter Flom

1

สิ่งนี้อยู่ในพื้นที่ของการสุ่มตัวอย่างการสำรวจ ในหลักการวิธีการทำงานเพราะมีการใช้การสุ่ม นี่คือสิ่งที่สามารถแตกต่างกันในการสำรวจความคิดเห็นอยู่บนพื้นฐานของการตัดสินใจส่วนตัว

  1. กรอบตัวอย่าง ฉันควรดึงตัวอย่างจากกลุ่มผู้มีสิทธิเลือกตั้งกลุ่มใด

  2. ฉันจะจัดการกับความผันผวนของผู้มีสิทธิเลือกตั้งที่ไม่มีความแน่นอนซึ่งอาจเปลี่ยนความคิดเห็นของเขาเกี่ยวกับ Obama vs Romney จากแบบสำรวจความคิดเห็นของเมื่อวานนี้หรือสัปดาห์หน้าได้อย่างไร

  3. ปีเตอร์มีอคติ แบบสำรวจย่อยทางวรรณกรรมของปี 1936 เป็นหายนะ มันเลือกผู้สมัครพรรครีพับลิกันมากกว่า FDR เพราะกรอบการสุ่มตัวอย่างขึ้นอยู่กับการเลือกหมายเลขโทรศัพท์แบบสุ่ม ในปี 1936 มีเพียงชนชั้นกลางระดับสูงและคนรวยมีโทรศัพท์ กลุ่มนั้นถูกครอบงำโดยพรรครีพับลิซึ่งมีแนวโน้มที่จะลงคะแนนให้ผู้สมัครพรรครีพับลิกัน รูสเวลต์ชนะอย่างถล่มทลายจากการโหวตของเขาจากคนจนและคนชั้นกลางที่มักจะเป็นกลุ่มของพรรคเดโมแครต! นั่นแสดงให้เห็นถึงอคติเนื่องจากการเลือกตัวอย่างที่ไม่ดีของกรอบการสุ่มตัวอย่าง

  4. สำรวจข้อเสนอการสุ่มตัวอย่างกับประชากรที่ จำกัด ขนาดประชากรคือ N สมมติว่ากลุ่มตัวอย่างสุ่มแบบง่ายมาจากประชากรนั้นและมีขนาด n เพื่อความง่ายสมมติว่ามีเพียงโอบามาและรอมนีย์เท่านั้นที่ใช้ สัดส่วนของคะแนนเสียงที่โอบามาจะได้รับสำหรับกรอบการสุ่มตัวอย่างนี้คือค่าเฉลี่ยของตัวแปรไบนารี่ (พูดที่ 1 ถ้าผู้ถูกร้องเลือกโอบามาและ 0 สำหรับรอมนีย์) ความแปรปรวนของค่าเฉลี่ยตัวอย่างสำหรับตัวแปรนี้คือ [p (1-p) / n] [Nn] / N โดยที่ p คือสัดส่วนประชากรที่แท้จริงที่จะเลือกโอบามา [Nn] / N คือการแก้ไขจำนวนประชากรแบบ จำกัด ในแบบสำรวจส่วนใหญ่ N นั้นใหญ่กว่า N มากและสามารถเพิกเฉยได้ถูกต้อง ดูที่ p (1-p) / n เราเห็นว่าค่าความแปรปรวนลดลงเมื่อ n ดังนั้นหาก n มีขนาดใหญ่ช่วงความมั่นใจที่ระดับความเชื่อมั่นที่กำหนดจะลดลง

โพลสำรวจตัวอย่างอื่นและนักสถิติที่สำนักสำรวจสำมะโนประชากรของสหรัฐทุกคนมีเครื่องมือทางสถิติเหล่านี้ในการกำจัดของพวกเขาและพวกเขาทำวิธีการที่ซับซ้อนและแม่นยำมากขึ้น (กลุ่มตัวอย่างสุ่มและการสุ่มแบบแบ่งชั้น

เมื่อสมมติฐานการสร้างแบบจำลองของพวกเขาถูกต้องวิธีการทำงานได้ดีอย่างน่าทึ่ง การออกจากหน่วยเลือกตั้งเป็นตัวอย่างสำคัญ ในวันเลือกตั้งคุณจะเห็นเครือข่ายที่ถูกต้องฉายผู้ชนะในเกือบทุกรัฐมานานก่อนการนับรอบสุดท้าย นั่นเป็นเพราะความแปรปรวนของวันเลือกตั้งได้หายไป พวกเขารู้ประวัติศาสตร์ว่าผู้คนมีแนวโน้มที่จะลงคะแนนเสียงอย่างไรและพวกเขาสามารถกำหนดเขตพื้นที่ที่เลือกในลักษณะที่หลีกเลี่ยงอคติ เครือข่ายบางครั้งแตกต่างกัน นี่อาจเป็นเพราะความสามารถในการเลือกผู้ชนะก่อนความคิดอื่น ๆ นอกจากนี้ยังสามารถทำได้ในกรณีที่หายากเป็นเพราะการลงคะแนนอยู่ใกล้มาก (เช่นการเลือกตั้งประธานาธิบดีปี 2000 ในฟลอริดา)

ฉันหวังว่านี่จะให้ภาพที่ชัดเจนว่าเกิดอะไรขึ้น เราไม่เห็นความผิดพลาดขั้นต้นอีกต่อไปเช่น "ดิวอี้เอาชนะทรูแมน" ในปี 1948 หรือความล้มเหลวของวรรณกรรมในปี 1936 แต่สถิติไม่สมบูรณ์และนักสถิติไม่สามารถบอกได้ว่าพวกเขาแน่นอน


ขอบคุณสำหรับคำอธิบายโดยละเอียด สิ่งนี้ช่วยได้จริงๆ!
Nik

เราไม่เห็นความผิดพลาดขั้นต้นอีกต่อไปหรือ ดังนั้นคลินตันจึงชนะในปี 2559 ใช่ไหม ฉันใช้เวลาไม่ทราบเป็นที่รู้จักกันของคุณและเพิ่มคุณหงส์ดำ เช่นเดียวกับพ่อของฉันเคยพูดว่า "นั่นคือสิ่งที่คุณไม่รู้ว่าฆ่าคุณ"
Carl

1
คำตอบของฉันไม่เกี่ยวกับการเลือกตั้งคลินตันและปี 2559 ซึ่งมีปัญหาแปลก ๆ มากมาย (1) การแทรกแซงของรัสเซีย (2) คลินตันชนะคะแนนนิยมและ (3) ผู้มีสิทธิเลือกตั้งของทรัมป์บางคนลังเลที่จะยอมรับว่าพวกเขาจะลงคะแนนให้ทรัมป์ บางทีฉันควรเพิ่มว่าการลงคะแนนอาจผิดเมื่อผู้มีสิทธิ์เลือกตั้งไม่ใช่สิ่งที่คาดหวัง
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.