เราจะตัดสินความแม่นยำของการทำนายของ Nate Silver ได้อย่างไร


19

ประการแรกเขาให้ความน่าจะเป็นของผลลัพธ์ ตัวอย่างเช่นการคาดการณ์ของเขาสำหรับการเลือกตั้งสหรัฐปัจจุบัน 82% คลินตันเทียบกับ 18% ทรัมป์

ตอนนี้ถึงแม้ว่าทรัมป์ชนะฉันจะรู้ได้อย่างไรว่าไม่ใช่แค่ 18% ของเวลาที่เขาควรจะชนะ

ปัญหาอื่นคือความน่าจะเป็นของเขาเปลี่ยนไปตามกาลเวลา ดังนั้นในวันที่ 31 กรกฎาคมมันเกือบ 50-50 ระหว่างทรัมป์และคลินตัน

คำถามของฉันคือเนื่องจากเขามีโอกาสที่แตกต่างกันทุกวันสำหรับเหตุการณ์ในอนาคตเดียวกันกับผลลัพธ์เดียวกันฉันจะวัดความแม่นยำของเขาในแต่ละวันได้อย่างไรว่าเขาจะทำนายตามข้อมูลที่มีอยู่ในวันนั้นหรือไม่


1
ฉันสงสัยว่าเราทำไม่ได้ เราต้องการมาตรฐานทองคำสำหรับการประเมินเช่นนี้และสิ่งที่ดีที่สุดที่เรามีก็คือการสังเกตจากการเลือกตั้งครั้งก่อนซึ่งเป็นการยากที่จะเปรียบเทียบ (เนื่องจากการเลือกตั้งทุกครั้งจะมีวิธีการสุ่มตัวอย่าง แต่ผมมีความเชี่ยวชาญในการสำรวจการเลือกตั้งไม่ดังนั้นฉันจะออกนี้เป็นความคิดเห็นและไม่ได้คำตอบ :)
Tal Galili

2
@TalGalili: เราสามารถพูดอะไรบางอย่างได้โดยใช้กฎการให้คะแนน - เช่นเดียวกับที่เราสามารถพูดบางอย่างเกี่ยวกับพารามิเตอร์ที่ไม่สามารถสังเกตได้ที่เราประเมินในการถดถอย
S. Kolassa - Reinstate Monica

นี่อาจเป็น "กฎการให้คะแนน" แต่สำหรับเหตุการณ์ n ให้คูณความน่าจะเป็นของเขาสำหรับเหตุการณ์เหล่านั้นที่เกิดขึ้นและนำรูทที่ n เพื่อให้ได้อัตราการทำนายโดยเฉลี่ย (เราถือว่าเขาไม่เคยคาดการณ์ 0%) คุณสามารถพิจารณาความน่าจะเป็นแต่ละวันเป็นคำทำนายแยกจากกัน
barrycarter

ทำไมความน่าจะเป็นไม่สามารถเปลี่ยนแปลงได้ตลอดเวลา ในการแข่งขันกีฬาอัตราต่อรองจะไม่เปลี่ยนแปลงเมื่อมีการทำประตูหรือการวิ่งกลับบ้าน?
Rodrigo de Azevedo

8
แบบจำลองของ Silver ให้มากกว่าความน่าจะเป็นเท่านั้น - มันให้ระยะขอบชัยชนะโดยประมาณซึ่งมาจากความน่าจะเป็นที่ชนะและระยะขอบชัยชนะสำหรับแต่ละรัฐใน 50 รัฐ ดังนั้นจึงให้การประมาณจุดและระยะขอบผิดพลาดสำหรับการวัด 50 แบบที่แตกต่างกัน (แม้ว่าจะมีบางอย่าง - อาจจะมีความสัมพันธ์ในระดับสูง) ไม่ใช่แค่ทำนายผลไบนารีเดียว
คา

คำตอบ:


14

การพยากรณ์ความน่าจะเป็น (หรือที่รู้จักกันในชื่อการคาดการณ์ความหนาแน่น) สามารถประเมินได้โดยใช้คือฟังก์ชันที่แมปการคาดการณ์ความหนาแน่นและผลลัพธ์ที่สังเกตได้จากคะแนนที่เรียกว่าซึ่งจะลดลงในการคาดการณ์ แน่นอนว่าความหนาแน่นที่แท้จริงจะถูกคาดการณ์ ที่เหมาะสมกฎการให้คะแนนเป็นกฎการให้คะแนนที่ลดลงในความคาดหวังเท่านั้นโดยความหนาแน่นของอนาคตที่แท้จริง

มีกฎการให้คะแนนที่เหมาะสมหลายประการเริ่มต้นด้วยBrier (1950 ทบทวนสภาพอากาศรายเดือน )ในบริบทของการพยากรณ์อากาศที่น่าจะเป็น Czado และคณะ (2009, Biometrics )ให้ภาพรวมล่าสุดสำหรับกรณีที่ไม่ต่อเนื่อง Gneiting & Katzfuss (2014, การตรวจสอบสถิติประจำปีและการประยุกต์ใช้ )ให้ภาพรวมของการพยากรณ์ความน่าจะเป็นโดยทั่วไป - การตรวจสอบโดยเฉพาะอย่างยิ่งมีความกระตือรือร้นมากในการก้าวเข้าสู่สาเหตุของกฎการให้คะแนนที่เหมาะสม

อย่างไรก็ตามกฎการให้คะแนนค่อนข้างยากที่จะตีความและพวกเขาช่วยในการเปรียบเทียบการพยากรณ์ความน่าจะเป็นหลาย ๆอย่างเท่านั้น- กฎที่มีคะแนนต่ำกว่านั้นดีกว่า จนถึงการสุ่มตัวอย่างการเปลี่ยนแปลงนั่นคือดังนั้นจึงเป็นการดีกว่าเสมอที่จะมีการคาดการณ์จำนวนมากในการประเมินซึ่งคะแนนที่เราจะเฉลี่ย

วิธีรวมการ "อัปเดต" ของการคาดการณ์ของ Silver หรือของผู้อื่นเป็นคำถามที่ดี เราสามารถใช้กฎการให้คะแนนเพื่อเปรียบเทียบ "ภาพรวม" ของการคาดการณ์ที่แตกต่างกัน ณ จุดเดียวในเวลาหรือเราสามารถดูการคาดการณ์ความน่าจะเป็นของซิลเวอร์เมื่อเวลาผ่านไปและคำนวณคะแนนที่จุดแต่ละครั้ง เราหวังว่าคะแนนจะลดลงและลดลง (เช่นการคาดการณ์ความหนาแน่นจะดีขึ้นเรื่อย ๆ ) ยิ่งผลลัพธ์ใกล้เคียงจริงมากเท่าไหร่


5
อีกวิธีในการพูดความน่าจะเป็นที่คาดการณ์ของแต่ละเหตุการณ์ไม่สามารถประเมินได้เพียงอย่างเดียว แต่นักพยากรณ์สามารถประเมินได้ (โดยฟังก์ชั่นคะแนน)
kjetil b halvorsen

1
สำหรับ "ถูกลดความคาดหวัง" ฉันคิดว่าประเด็นสำคัญคือความคาดหวังต่อสิ่งที่รวมกัน? เรารับการคาดการณ์ทั้งหมดของ Nate Silver หรือไม่? เฉพาะผู้ที่มาจากการเลือกตั้งประธานาธิบดีเท่านั้น? ฉันไม่ทราบว่ามีคำตอบเดียวที่นี่ สำหรับการเปรียบเทียบนักพยากรณ์ต่าง ๆ การคาดการณ์เหตุการณ์ที่เกิดขึ้นทั่วไปนั้นอาจสมเหตุสมผล
GeoMatt22

@ GeoMatt22 - เขามีวิธีการที่คล้ายกันพอสมควรสำหรับการเลือกตั้งอื่น ๆ ดังนั้นจึงอาจมีผลรวมการคาดการณ์การเลือกตั้งทั้งหมด
DVK

11

ในหนังสือของเนทซิลเวอร์ The Signal and the Noiseเขาเขียนสิ่งต่อไปนี้ซึ่งอาจเป็นข้อมูลเชิงลึกสำหรับคำถามของคุณ:

หนึ่งในการทดสอบที่สำคัญที่สุดของการพยากรณ์ - ฉันจะยืนยันว่ามันเป็นการทดสอบที่สำคัญที่สุดอย่างเดียว - เรียกว่าการสอบเทียบ จากทุกครั้งที่คุณพูดว่ามีโอกาส 40% ของฝนฝนตกบ่อยแค่ไหน? หากในระยะยาวฝนตกจริง ๆ ประมาณ 40% นั่นหมายความว่าการคาดการณ์ของคุณได้รับการสอบเทียบอย่างดี หากฝนตกเพียงร้อยละ 20 ของเวลาแทนหรือ 60 เปอร์เซ็นต์ของเวลาพวกเขาจะไม่

ดังนั้นนี่จะยกสองสามแต้ม ก่อนอื่นเมื่อคุณชี้ให้เห็นอย่างถูกต้องคุณจะไม่สามารถอนุมานเกี่ยวกับคุณภาพของการพยากรณ์เดียวได้จากผลลัพธ์ของเหตุการณ์ที่คุณคาดการณ์ไว้ สิ่งที่ดีที่สุดที่คุณสามารถทำได้คือดูว่าแบบจำลองของคุณมีประสิทธิภาพอย่างไรในการทำนายหลาย ๆ แบบ

อีกสิ่งที่สำคัญที่ต้องพิจารณาคือการคาดการณ์ที่ Nate Silver ให้ไม่ใช่เหตุการณ์ แต่เป็นการกระจายความน่าจะเป็นของเหตุการณ์ ดังนั้นในกรณีของการแข่งขันชิงตำแหน่งประธานาธิบดีเขากำลังประเมินการกระจายความน่าจะเป็นของคลินตันทรัมป์หรือจอห์นสันที่ชนะการแข่งขัน ดังนั้นในกรณีนี้เขาประเมินการกระจายตัวแบบมัลติโนเมียล

แต่จริง ๆ แล้วเขาทำนายการแข่งขันในระดับที่ละเอียดยิ่งขึ้น การคาดการณ์ของเขาประเมินการกระจายความน่าจะเป็นของเปอร์เซ็นต์ของคะแนนโหวตที่ผู้สมัครแต่ละรายจะได้รับในแต่ละรัฐ ดังนั้นถ้าเราพิจารณาผู้สมัคร 3 คนนี่อาจเป็นลักษณะของเวกเตอร์แบบสุ่มที่มีความยาว 51 * 3 และรับค่าในช่วง [0, 1] ภายใต้ข้อ จำกัด ที่สัดส่วนจะรวมเป็น 1 สำหรับสัดส่วนภายในรัฐ จำนวน 51 เป็นเพราะอื่น ๆ คือ 50 รัฐ + DC (และอันที่จริงฉันคิดว่ามันเป็นจริงอีกไม่กี่เพราะบางรัฐสามารถแบ่งคะแนนการเลือกตั้งวิทยาลัยของพวกเขา) และจำนวน 3 เนื่องจากจำนวนผู้สมัคร

ตอนนี้คุณไม่มีข้อมูลมากนักที่จะประเมินการคาดการณ์ของเขาด้วย - เขาเป็นเพียงแค่การคาดการณ์สำหรับการเลือกตั้ง 3 ครั้งล่าสุดที่ฉันรู้ (มีอีกไหม?) ดังนั้นฉันจึงไม่คิดว่าจะมีวิธีใดที่จะประเมินโมเดลของเขาได้อย่างเป็นธรรมยกเว้นว่าคุณมีโมเดลในมือและสามารถประเมินได้โดยใช้ข้อมูลจำลอง แต่ยังมีสิ่งที่น่าสนใจที่คุณสามารถดูได้ ตัวอย่างเช่นฉันคิดว่ามันน่าสนใจที่จะดูว่าเขาคาดการณ์สัดส่วนการลงคะแนนของรัฐในแต่ละช่วงเวลาอย่างแม่นยำเช่นหนึ่งสัปดาห์จากการเลือกตั้ง หากคุณทำซ้ำหลาย ๆ ครั้งเช่นหนึ่งสัปดาห์, เดือน, เดือน, 6 เดือนและปีแล้วคุณสามารถให้คำอธิบายที่น่าสนใจสำหรับการคาดการณ์ของเขา ข้อแม้ที่สำคัญอย่างหนึ่ง: ผลลัพธ์มีความสัมพันธ์อย่างมากกับรัฐต่างๆภายในการเลือกตั้งดังนั้นคุณจึงไม่สามารถพูดได้อย่างชัดเจนว่าคุณมี 51 รัฐ * 3 กรณีการคาดการณ์การเลือกตั้งที่เป็นอิสระ (เช่นถ้าแบบจำลองประเมินผลการปฏิบัติงานของผู้สมัครต่ำกว่ารัฐหนึ่ง . แต่บางทีฉันอาจจะคิดแบบนี้ก็ได้เพื่อให้คุณมีข้อมูลมากพอที่จะทำสิ่งที่มีความหมาย


4

สำหรับการทำนายใด ๆ ที่คุณทำไม่ได้เกินกว่าที่เราจะบอกได้ว่าการอ้างสิทธิ์ "เหรียญนี้มีโอกาส 60% ที่จะเกิดขึ้นหัว" ใกล้จะถูกต้องจากการโยนครั้งเดียว

อย่างไรก็ตามคุณสามารถประเมินวิธีการของเขาในการทำนายหลายครั้ง - สำหรับการเลือกตั้งที่กำหนดเขาคาดการณ์มากมายไม่เพียง แต่จากการแข่งขันชิงตำแหน่งประธานาธิบดีโดยรวม แต่ยังมีการคาดการณ์มากมายเกี่ยวกับการลงคะแนนให้กับประธานาธิบดีและเผ่าพันธุ์อื่น ๆ และอื่น ๆ ) และเขายังใช้วิธีการที่คล้ายกันในวงกว้างตลอดเวลา

มีหลายวิธีที่จะทำการประเมินนี้ (บางอันค่อนข้างซับซ้อน) แต่เราสามารถดูวิธีที่ค่อนข้างง่ายในการรับความรู้สึกบางอย่าง ตัวอย่างเช่นคุณสามารถแยกการทำนายความน่าจะเป็นของการชนะเป็นวงเช่น (50-55%, 55-65% และอื่น ๆ ) จากนั้นดูสัดส่วนของการทำนายในแถบนั้น สัดส่วนการคาดคะเน 50-55% ที่ทำงานควรอยู่ระหว่าง 50-55% ขึ้นอยู่กับว่าค่าเฉลี่ยอยู่ที่ไหน (บวกส่วนต่างสำหรับการแปรผันแบบสุ่ม *)

ดังนั้นโดยวิธีการนั้น (หรือวิธีอื่น ๆ ) คุณสามารถเห็นได้ว่าการกระจายของผลลัพธ์นั้นสอดคล้องกับการคาดการณ์ในการเลือกตั้งหรือการเลือกตั้งหลายครั้ง (ถ้าฉันจำได้ถูกต้องฉันคิดว่าการคาดการณ์ของเขานั้นถูกต้องมากกว่าที่ควรจะเป็น ซึ่งแสดงให้เห็นข้อผิดพลาดมาตรฐานของเขาโดยเฉลี่ยแล้วสูงเกินไปเล็กน้อย)

* เราต้องระมัดระวังเกี่ยวกับวิธีการประเมินว่าเนื่องจากการคาดการณ์ไม่เป็นอิสระ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.