ในการเลือกตั้งเราจะบอกความมั่นใจได้อย่างไรว่าผู้สมัครจะเป็นผู้ชนะ


14

มีการเลือกตั้งทั่วไปที่ฉันอาศัยอยู่เมื่อวานนี้และเครือข่ายโทรทัศน์เริ่มเรียกผู้ชนะมานานก่อนที่จะมีการเปิดบัตรลงคะแนนทั้งหมด

พวกเขาเปิดใช้งานได้ดีในทุกบัญชีและฉันไม่แปลกใจเลยที่พวกเขาทำ ฉันรู้ว่าสถิติเป็นไปได้อย่างแน่นอน ยังฉันอยากรู้ สมมติว่า:

  • เราได้เปิดออกจากบัตรลงคะแนนj ;ij
  • เรามีผู้สมัครที่มีคะแนนในปัจจุบันมี1 , 2 , 3 , . . c n ;nc1,c2,c3,...cn

เราจะคำนวณความแน่นอนที่ผู้สมัครชั้นนำเป็นผู้ชนะได้อย่างไร?


1
โปรดทราบว่าโดยทั่วไปแล้วพวกเขาจะสามารถเข้าถึงข้อมูลการลงคะแนนเลือกตั้งที่กว้างขวางและข้อมูลอื่น ๆ ที่สามารถใช้ในการทำนายผล พวกเขาต้องการการยืนยันที่เพียงพอจากจำนวนที่เข้ามาเพื่อให้แน่ใจว่าพวกเขาไม่ได้ปิดเครื่องหมายเนื่องจากข้อผิดพลาดการสุ่มตัวอย่าง แน่นอนว่ามีความซับซ้อนที่เกี่ยวข้อง & จำนวนที่เข้ามาโดยทั่วไปเป็นตัวอย่างที่เอนเอียง แต่การออกโพลไปไกลเพื่อช่วยให้พวกเขาจัดการกับปัญหาเหล่านั้น
gung - Reinstate Monica

1
หากหมายถึง "ด้วยความมั่นใจ" อย่างแท้จริงสถิติสามารถ (เกือบ?) ไม่เคยตอบคำถาม "ด้วยความมั่นใจ" แต่เราสามารถให้คำตอบด้วยความมั่นใจในระดับสูงว่าคำตอบนั้นจะถูกต้อง (กล่าวอีกนัยหนึ่งถ้าเราได้รับข้อมูลของเราและทำการวิเคราะห์อย่างถูกต้องเราสามารถพูดได้ว่า "คำตอบของฉันจะผิดประมาณ x% ของเวลา")
Emil Friedman

คำตอบ:


14

ความยากลำบากหลักในการปฏิบัติไม่ใช่ความไม่แน่นอนทางสถิติที่ความโชคดีจะทำให้ผู้สมัครมากกว่าหนึ่งคนลงคะแนน ปัญหาหลักตามลำดับความสำคัญหรือมากกว่านั้นคือบัตรลงคะแนนที่ถูกเปิดนั้นแทบไม่เคยเป็นตัวอย่างของการลงคะแนนที่ไม่เอนเอียงเลย หากคุณไม่สนใจเอฟเฟกต์นี้คุณจะได้รับข้อผิดพลาดที่มีชื่อเสียง"Dewey Defeats Truman"ซึ่งเกิดขึ้นกับกลุ่มตัวอย่างขนาดใหญ่

ในทางปฏิบัติผู้ลงคะแนนที่สนับสนุนผู้สมัครคนหนึ่งและอีกคนนั้นไม่ได้กระจายตามภูมิภาคอย่างเท่าเทียมกันไม่ว่าพวกเขาจะทำงานในระหว่างวันหรือไม่ว่าพวกเขาจะถูกนำไปใช้ในต่างประเทศ สิ่งเหล่านี้ไม่แตกต่างกันเล็กน้อย

ฉันคิดว่าสิ่งที่องค์กรข่าวทำตอนนี้คือการแบ่งประชากรออกเป็นกลุ่มและใช้ผลลัพธ์เพื่อประเมินว่าแต่ละกลุ่มโหวต (รวมถึงผลิตภัณฑ์) สิ่งเหล่านี้อาจขึ้นอยู่กับตัวแบบและข้อสันนิษฐานก่อนหน้านี้จากการเลือกตั้งครั้งก่อนไม่ใช่เฉพาะข้อมูลจากการเลือกตั้งครั้งนี้ สิ่งเหล่านี้อาจไม่นำมาพิจารณาความแปลกประหลาดเช่นบัตรเลือกตั้งของปาล์มบีช


3
ในประเทศออสเตรเลียเมื่อประมาณ 10-15 ปีที่แล้วพรรคอนุรักษ์นิยมมักจะเริ่มแข็งแกร่งในช่วงต้นของการนับโดยพรรคก้าวหน้าจะกลับมาช้า เครือข่ายโทรทัศน์อาจรู้ว่าเกิดอะไรขึ้น แต่ความแปรปรวนอาจทำให้เกิดละครมากขึ้น ทุกอย่างเปลี่ยนไปเมื่อนักวิเคราะห์ชื่อ Antony Green เริ่มใช้บูธโดยผลการออกบูธเพื่อพิจารณาว่าบูธขนาดเล็กในพื้นที่ชนบทมีแนวโน้มที่จะนับและทำคะแนนได้เร็ว แอนโทนีโด่งดังอย่างถูกต้องเรียกว่าผลการเลือกตั้งชั่วโมงก่อนใครใช้นี่
Bogdanovist

1
บูธผลการออกบูธของปีที่ผ่านมาสามารถใช้ในการสอบเทียบประมาณการผลรวมทั้งหมดได้อย่างแม่นยำมาก
ปีเตอร์เอลลิส

@ ดักลาสแซร์ฉันคิดว่าคุณหมายความว่าบัตรลงคะแนนที่เปิดในขณะนี้ไม่ใช่ตัวอย่างแบบสุ่ม
Michael R. Chernick

1
@Michael Chernick: อะไรคือความแตกต่างระหว่างตัวอย่างที่ไม่ใช่แบบสุ่มและตัวอย่างที่เอนเอียง? en.wikipedia.org/wiki/Sampling_biasดูเหมือนว่าจะใช้พวกเขาเป็นคำพ้องความหมาย
Douglas Zare

1
@DouglasZare ฉันเห็นจากลิงก์ของคุณที่วิกิพีเดียใช้ตัวอย่างแบบเอนเอียงเป็นคำพ้องสำหรับไม่ใช่แบบสุ่ม ฉันคิดว่ามันเป็นตัวเลือกที่แย่ อคติทั่วไปหมายถึงความคาดหวังของตัวประมาณที่ไม่เท่ากับค่าจริงของพารามิเตอร์ ในบริบทของการสุ่มตัวอย่างตัวอย่างที่ไม่ใช่แบบสุ่มไม่ได้หมายความว่ามีอคติสำหรับการประมาณการที่เฉพาะเจาะจง อาจมีหรือไม่มีอคติ
Michael R. Chernick

0

ในการสุ่มตัวอย่างการสำรวจความผิดพลาดมาตรฐานของการประมาณสัดส่วนเป็นสิ่งจำเป็น มันขึ้นอยู่กับฉันมากกว่าเจ นอกจากนี้ยังต้องการให้ฉันเปิดใช้บัตรลงคะแนนถูกเลือกแบบสุ่ม ถ้า p เป็นสัดส่วนสุดท้ายจริงสำหรับผู้สมัคร A ดังนั้นความแปรปรวนของการประมาณคือ

(1ij)p(1p)i

(1ij)เรียกว่าปัจจัยแก้ไขประชากร จำกัด ในการประมาณความแปรปรวนนี้การประมาณค่าปกติสำหรับ p จะถูกแทนที่ด้วย p ในสูตร ข้อผิดพลาดมาตรฐานจะได้รับโดยการรากที่สอง ในการทำนายผู้ชนะ Pollster อาจใช้ค่าประมาณบวกหรือลบ 3 ข้อผิดพลาดมาตรฐาน หาก 0.5 ไม่มีอยู่ในช่วงเวลานั้นผู้สมัคร A จะถูกประกาศผู้ชนะถ้า 0.5 ต่ำกว่าขีด จำกัด ล่างหรือฝ่ายตรงข้ามถูกประกาศผู้ชนะหาก 0.5 สูงกว่าขีด จำกัด บน แน่นอนว่ามีเพียงความมั่นใจที่สูงมากว่าใครจะเป็นผู้ชนะในกรณีที่ 0.5 อยู่นอกช่วงเวลา ระดับความเชื่อมั่นคือ 0.99 ถ้าข้อผิดพลาดมาตรฐานสามข้อเป็นสิ่งที่คุณใช้ (ขึ้นอยู่กับการประมาณค่าปกติกับทวินาม) หาก 0.5 อยู่ในช่วงเวลาจะไม่มีใครประกาศผู้ชนะและผู้สำรวจความคิดเห็นจะรอให้มีข้อมูลเพิ่มขึ้น

ในการฉายภาพผู้สำรวจสามารถเลือกตัวอย่างแบบแบ่งชั้นจากการลงคะแนนแบบสะสมเพื่อหลีกเลี่ยงอคติที่อาจเกิดขึ้นซึ่งอาจเกิดขึ้นได้หากมีการดูบัตรลงคะแนนที่นับทั้งหมด ปัญหาในการดูคะแนนเสียงที่สะสมทั้งหมดคือบริเวณบางเขตมีการนับคะแนนมากกว่าคนอื่นและอาจไม่ได้เป็นตัวแทนของประชากร

บทความที่นี่ให้ความคุ้มครองที่ดีของปัญหาและการอ้างอิงจำนวนมาก

ชี้ให้เห็นว่าคะแนนโหวตแบบสะสมสามารถให้การประมาณค่าแบบลำเอียงเนื่องจากสัดส่วนที่ยังไม่ได้รายงานนั้นเป็นเขตที่มีแนวโน้มที่จะสนับสนุนพรรคที่มีผู้สมัครที่มีการต่อท้ายหรือบัตรลงคะแนนที่ขาดหายไป และคะแนนเหล่านั้นจะถูกนับเป็นครั้งสุดท้าย โพลที่มีความซับซ้อนเช่นแฮร์ริสและกัลล์อัพไม่ตกหลุมพรางดังกล่าว การวิเคราะห์อย่างง่ายของการสร้างช่วงความเชื่อมั่นตามคะแนนโหวตสะสมที่ฉันได้ระบุไว้เป็นเพียงปัจจัยเดียวที่ใช้ การสำรวจความคิดเห็นเหล่านี้มีข้อมูลมากขึ้นในการกำจัดของพวกเขา พวกเขามีการสำรวจความคิดเห็นที่เกิดขึ้นไม่นานก่อนการเลือกตั้งและพวกเขามีรูปแบบการลงคะแนนของบริเวณและการลงคะแนนเสียงที่ขาดไปในการเลือกตั้งเมื่อไม่กี่ปีที่ผ่านมา

ดังนั้นหากมีอคติที่ชัดเจนซึ่งอาจแกว่งการเลือกตั้งใกล้ชิดในทิศทางตรงกันข้ามผู้โพลจะจดจำสิ่งนี้และระงับการฉายผู้ชนะ

ในบัตรลงคะแนนที่ขาดไปของสหรัฐอเมริกานั้นส่วนใหญ่มาจากทหารในต่างประเทศและนักศึกษาที่อยู่นอกโรงเรียน ในขณะที่กองทัพอาจมีแนวโน้มที่จะอนุรักษ์นิยมมากกว่าและมีแนวโน้มที่จะลงคะแนนเสียงให้กับพรรครีพับลิกันนักเรียนนักศึกษามีแนวโน้มที่จะเป็นเสรีนิยมมากขึ้นและมีแนวโน้มที่จะลงคะแนนให้กับประชาธิปไตย ข้อพิจารณาทั้งหมดเหล่านี้ถูกนำมาพิจารณา

การดูแลและความซับซ้อนของการเลือกตั้งสมัยใหม่คือเหตุผลที่ความผิดพลาดรวมเช่นการสำรวจความคิดเห็นของวรรณกรรมในปี 1936 หรือสัมปทานก่อนกำหนดของหนังสือพิมพ์ชิคาโกในปี 1948 การเลือกตั้งสู่ดิวอี้ไม่ได้เกิดขึ้นตั้งแต่นั้นมา


2
ถึงแม้ว่าการเปรียบเทียบโดยนัยกับการสุ่มตัวอย่างแบบสำรวจเป็นคำถามที่ดี แต่คำถามนี้ไม่ได้เพิ่มปัจจัยที่มีความซับซ้อนใช่หรือไม่ อันดับแรกคือความเป็นไปได้ของผู้สมัครมากกว่าสองคน ข้อที่สองคือว่านี่เป็นปัญหาการตัดสินใจแบบต่อเนื่อง : ไม่เหมือนกับผู้สำรวจความคิดเห็นซึ่งโดยทั่วไปจะระบุขนาดของแบบสำรวจและทำการตัดสินใจครั้งเดียวตามตัวอย่างในแต่ละช่วงเวลาที่เครือข่ายมีตัวอย่างเพิ่มขึ้นและต้องตัดสินใจว่าจะเรียกการเลือกตั้งหรือรอ ข้อมูลมากกว่านี้. แอปพลิเคชันสำรวจที่คุณอ้างถึงที่นี่ดูเหมือนจะไม่สามารถใช้ได้กับสถานการณ์แบบไดนามิกนี้ และทำไมเครือข่ายถึงใช้ 3 SE (ชื่อเสียงของมันอยู่ที่เดิมพัน)
whuber

1
@whuber ฉันยอมรับว่ามีภาวะแทรกซ้อนที่อาจไม่ได้รับการพิจารณาในทางปฏิบัติ ฉันเลือกความเรียบง่ายสำหรับสองกรณีที่ผู้สมัครส่วนใหญ่เป็นผู้ชนะ ฉันคิดว่านี่เป็นสถานการณ์ที่ผู้ปฏิบัติการมีอยู่ในใจ การชนะโดยฝ่ายที่มีผู้สมัครสามคนขึ้นไปจะเกี่ยวข้องกับการแสดงให้เห็นว่า "ผู้ชนะที่ได้รับนั้นมีสัดส่วนที่สูงกว่าฝ่ายตรงข้ามของเขาแน่นอนถ้าคุณทำแบบสำรวจมากกว่าหนึ่งครั้ง มันคือ
ไมเคิลอาร์ Chernick

1
ตัวเลือกของฉันสำหรับ 3 SE เป็นเพราะฉันคิดว่าผู้สำรวจความคิดเห็นต้องการ "มั่นใจมาก" ว่าพวกเขาถูกต้องก่อนที่จะประกาศผู้ชนะ ดังนั้นฉันคิดว่า 3 จะถูกใช้มากกว่า 2 หากคุณต้องการความเสี่ยงที่น้อยกว่าของข้อผิดพลาดคุณอาจสูงกว่า 3 ฉันใช้สูตรสำหรับข้อผิดพลาดมาตรฐานเพื่อให้ OP มีแนวคิดว่าระดับความมั่นใจขึ้นอยู่กับฉันและอย่างไร j ในวิธีที่ง่าย การทำให้สถานการณ์มีความซับซ้อนจะทำให้ผลลัพธ์มีความซับซ้อนมากขึ้นและการพึ่งพาฉันฉันและเจจะไม่เห็นอย่างชัดเจน
Michael R. Chernick

2
(1) มันเป็นสิ่งสำคัญที่จะต้องทราบว่านี่ไม่ใช่แบบสำรวจ: มันคือการเลือกตั้งจริง ("มีการเลือกตั้งทั่วไป ... ") (2) การอ้างอิงถึง "n" แทน 2หมายถึงความสนใจในการเลือกตั้งผู้สมัครหลายคน (3) ภาวะแทรกซ้อนที่สำคัญอีกประการหนึ่งเกิดขึ้นกับฉัน: ในการเลือกตั้ง "ประชากร" ประกอบด้วยบัตรทั้งหมด ก่อนที่จะเปิดทั้งหมดเครือข่ายสามารถประมาณจำนวนของบัตรลงคะแนนเท่านั้น นั่นไม่ใช่สิ่งที่ทำให้เป็นเรื่องยาก (ถ้าไม่เป็นไปไม่ได้) ที่จะใช้ปัจจัยการแก้ไขจำนวน จำกัด ของประชากร
whuber

3
เมื่อฉันได้รับการโหวตหลายครั้งใครบางคนจะอธิบายเหตุผลให้ฟังได้ไหม
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.