มีอะไรผิดปกติกับการ์ตูนประจำของ XKCD เทียบกับ Bayesians?


113

xkcd การ์ตูนหมายเลข 1132

การ์ตูน xkcd ฉบับนี้ (ผู้พบเห็นบ่อยครั้งและชาวเบย์)ทำให้ความสนุกของนักสถิติผู้ซึ่งได้ผลลัพธ์ที่ผิดอย่างเห็นได้ชัด

อย่างไรก็ตามสำหรับฉันแล้วการให้เหตุผลของเขานั้นถูกต้องในแง่ที่ว่ามันเป็นไปตามวิธีการมาตรฐานของนักเล่นแร่แปรธาตุ

ดังนั้นคำถามของฉันคือ "เขาใช้วิธีการแบบประจำอย่างถูกต้องหรือไม่"

  • ถ้าไม่: สิ่งที่จะอนุมานบ่อยครั้งที่ถูกต้องในสถานการณ์นี้? วิธีการรวม "ความรู้ก่อนหน้า" เกี่ยวกับความเสถียรของดวงอาทิตย์ในวิธีการที่ใช้บ่อย?
  • ถ้าใช่: wtf ;-)

17
การสนทนาในบล็อกของ Gelman: andrewgelman.com/2012/11/16808
Glen

5
ฉันคิดว่ามีหลายอย่างผิดปกติทั้งจากมุมมองของนักประพันธ์และชาวเบย์ คำติชมที่ใหญ่ที่สุดของฉันในแต่ละข้อ: ประการแรกค่า P คือการวิเคราะห์พฤติกรรมในที่สุดและเป็นคุณสมบัติของสิ่งต่าง ๆ รวมถึงปัญหาทางสถิติข้อมูลและการทดลอง ที่นี่ทั้งสามมีการบิดเบือนความจริงผิดสำหรับคำถามนั้น ประการที่สอง "Bayesian" ใช้วิธีการทางทฤษฎีการตัดสินใจซึ่งไม่จำเป็นต้องเป็น Bayesian มันตลกดีนะ
Momo

5
ที่จะเอามันออกจากอาณาจักรสถิติ .... ดวงอาทิตย์ไม่ใหญ่พอที่จะไปโนวา QED Bayesian นั้นถูกต้อง ( ดวงอาทิตย์จะกลายเป็นยักษ์แดงแทน )
เบ็นบร็อคก้า

3
โดยเฉพาะอย่างยิ่ง @Glen et alii โปรดสังเกตการตอบสนองของ Randall Munroe ต่อ Gelman: andrewgelman.com/2012/11/16808/#comment-109366
jthetzel

2
เหตุผลที่นักสถิติประจำที่นี่เป็นคนโง่ไม่ใช่เพราะเขาเป็นคนถี่ แต่เพราะเห็นได้ชัดว่าเขารู้วิธีการทำงานของเครื่องจักรจึงรู้ว่ามันเป็นการวัดที่ไม่เหมาะสม - และทำการอนุมานต่อไป
rvl

คำตอบ:


44

ปัญหาหลักคือการทดลองครั้งแรก (หายไปจากดวงอาทิตย์) ไม่สามารถทำซ้ำได้ซึ่งทำให้ไม่เหมาะอย่างยิ่งสำหรับวิธีการที่ใช้บ่อยซึ่งตีความความน่าจะเป็นเป็นค่าประมาณว่าเหตุการณ์เกิดขึ้นบ่อยเพียงใดที่เราสามารถทำซ้ำการทดสอบได้หลายครั้ง ในทางตรงกันข้ามความน่าจะเป็นแบบเบย์ถูกตีความว่าเป็นระดับความเชื่อของเราที่ให้ความรู้ล่วงหน้าทั้งหมดที่มีอยู่ทำให้เหมาะสำหรับการใช้เหตุผลสามัญสำนึกเกี่ยวกับเหตุการณ์ที่เกิดขึ้นครั้งเดียว การทดสอบการโยนลูกเต๋าสามารถทำซ้ำได้ แต่ฉันคิดว่ามันไม่น่าเป็นไปได้มากนักที่นักเล่นแร่แปรธาตุจะเพิกเฉยต่ออิทธิพลของการทดลองครั้งแรกโดยจงใจและมั่นใจในความสำคัญของผลลัพธ์ที่ได้รับ

แม้ว่ามันจะดูเหมือนว่าผู้เขียน mocks บ่อยขึ้นอยู่กับการทดลองซ้ำและความไม่ไว้วางใจของนักบวชให้ความไม่เหมาะสมของการตั้งค่าการทดลองกับระเบียบวิธีการประจำฉันจะบอกว่าชุดรูปแบบที่แท้จริงของการ์ตูนเรื่องนี้ไม่ได้เป็นวิธีการที่ใช้บ่อย ไม่ว่าจะเป็นเรื่องตลกหรือไม่ก็ขึ้นอยู่กับคุณ (สำหรับฉันมันคือ) แต่ฉันคิดว่ามันทำให้เข้าใจผิดมากกว่าอธิบายความแตกต่างระหว่างสองแนวทาง


1
(1) การอ้างอิงที่ดีเกี่ยวกับเรื่องนี้ที่แข็งแกร่งและสำคัญสมมติฐานของการทำซ้ำใน frequentism คือการอนุมานทางสถิติในสาขาวิทยาศาสตร์ (2000)บทที่ 1 (แม้ว่าจะมีปัญหาหลายอย่างเพื่อให้มันเป็นเรื่องยากที่จะบอกว่าเป็นที่หนึ่งหลักเดียว)

36
ไม่เร็วนักกับข้อโต้แย้งการทำซ้ำ ... ขั้นแรกการทดลองที่ทำซ้ำได้คือการสอบถามเครื่องไม่ใช่ดวงอาทิตย์ที่จะเกิดขึ้นจริงความจริงของสิ่งนั้นคือวัตถุที่แน่นอน แต่ไม่ทราบแน่ชัดของการอนุมาน การทดสอบการสืบค้นสามารถทำซ้ำได้อย่างแน่นอนและถ้าเป็นอีกสองสามครั้งกลยุทธ์ที่ใช้บ่อยอาจดูเหมือนสมเหตุสมผล
conjugateprior

6
ประการที่สองเราไม่ควรเข้มงวดในการทำธุรกิจซ้ำซากเกินไปเพื่อมิให้ผู้ที่ติดอยู่บ่อย ๆ ไม่สามารถอนุมานอะไรได้เลยในสถานการณ์ที่ไม่ใช่การทดลอง สมมติว่าสักครู่ที่ 'ดวงอาทิตย์ตกไปสู่โนวา' เป็นเหตุการณ์ที่ผู้สมัครรับเลือกตั้ง ฉันไม่ได้เป็นนักฟิสิกส์ แต่ฉันบอกว่าเหตุการณ์ 'sun to nova' เกิดขึ้นค่อนข้างบ่อย (แค่ไม่มากนักที่นี่) ดังนั้นมันฟังดูเหมือนเป็นการทำซ้ำ ในกรณีใด ๆ พื้นบ้านเช่นเดวิดค็อกซ์ (ในฐานรากของสถิติ ') เริงร่าพูดสิ่งที่ชอบ: "ซ้ำครุ่นคิดอยู่เกือบตลอดเวลาสมมุติ . นี้ด้วยตัวเองดูเหมือนว่าไม่มีอุปสรรค"
conjugateprior

7
เราสามารถดูดวงอาทิตย์เป็นตัวอย่างแบบสุ่มจากประชากรของดวงอาทิตย์ในจักรวาลคู่ขนานซึ่งโดยหลักการแล้วเราสามารถทำซ้ำการทดลองได้หากเรามีกระจกควอนตัมเท่านั้น! ; o)
Dikran Marsupial

2
ทำไมการตรวจสอบดวงอาทิตย์ถึงระเบิดไม่สามารถทำซ้ำได้? ฉันตรวจสอบทุกเช้าและมันยังไม่ปลิว
GKFX

27

เท่าที่ฉันเห็นบิตบ่อยนักมีเหตุผลนี้:

ให้เป็นสมมุติฐานที่ว่าดวงอาทิตย์ยังไม่ระเบิดและเป็นสมมุติฐานที่มันมี P-ค่าจึงน่าจะเป็นของการสังเกตผล (เครื่องที่บอกว่า "ใช่") ภายใต้H_0สมมติว่าเครื่องตรวจพบว่าไม่มีนิวตริโนอยู่อย่างถูกต้องจากนั้นถ้าเครื่องบอกว่า "ใช่" ภายใต้นั่นเป็นเพราะเครื่องนอนอยู่กับเราอันเป็นผลมาจากการกลิ้งสองหก ดังนั้น p-value เป็น 1/36 ดังนั้นต่อไปตามปกติกึ่งฟิชเชอร์การปฏิบัติทางวิทยาศาสตร์เป็น frequentist จะปฏิเสธสมมติฐาน, ที่ระดับ 95% อย่างมีนัยสำคัญH 1 H 0 H 0H0H1H0H0

แต่การปฏิเสธสมมติฐานว่างไม่ได้หมายความว่าคุณมีสิทธิ์ที่จะยอมรับสมมติฐานทางเลือกดังนั้นการสรุปบ่อยครั้งไม่ได้เป็นธรรมโดยการวิเคราะห์ การทดสอบสมมติฐานบ่อยครั้งรวบรวมความคิดเกี่ยวกับการปลอมแปลง (เรียงลำดับ) คุณไม่สามารถพิสูจน์ได้ว่าสิ่งใดเป็นจริงเพียงพิสูจน์หักล้าง ดังนั้นหากคุณต้องการยืนยันคุณถือว่าเป็นจริงและดำเนินการต่อก็ต่อเมื่อคุณสามารถแสดงให้เห็นว่านั้นไม่สอดคล้องกับข้อมูล อย่างไรก็ตามนั่นไม่ได้หมายความว่าเป็นจริงเพียงแค่ว่ามันยังมีชีวิตอยู่ต่อการทดสอบและยังคงเป็นสมมติฐานที่มีศักยภาพอย่างน้อยที่สุดเท่าที่การทดสอบครั้งต่อไปH 0 H 0 H 1H1H0H0H1

ชาวเบย์ยังเป็นเพียงแค่สามัญสำนึกโดยสังเกตว่าไม่มีอะไรจะเสียด้วยการเดิมพัน ฉันแน่ใจว่าแนวทางบ่อยครั้งเมื่อมีการคิดต้นทุนบวกลบและลบลบ (Neyman-Peason?) จะได้ข้อสรุปเช่นเดียวกับกลยุทธ์ที่ดีที่สุดในแง่ของผลกำไรระยะยาว

เพื่อสรุป: ทั้งผู้ใช้บ่อยและ Bayesian มีความเลอะเทอะที่นี่: ผู้ที่ติดตามสูตรอย่างสุ่มสี่สุ่มห้าโดยไม่คำนึงถึงระดับความสำคัญที่เหมาะสมค่าใช้จ่ายที่เป็นบวก / ลบ / เท็จหรือฟิสิกส์ของปัญหา (เช่นไม่ใช้สามัญสำนึก) . Bayesian กำลังเลอะเทอะเพราะไม่ได้ระบุนักบวชของเขาอย่างชัดเจน แต่จากนั้นอีกครั้งโดยใช้สามัญสำนึกที่นักบวชที่เขาใช้อยู่นั้นถูกต้องอย่างเห็นได้ชัด (มีความเป็นไปได้มากกว่าที่เครื่องจะโกหกกว่าดวงอาทิตย์จริง ๆ แล้วระเบิด)


4
การปฏิเสธสมมติฐานว่างก็หมายความว่าการสังเกตจะไม่น่าเป็นไปได้ถ้า H0 นั้นเป็นจริง คุณไม่ควร "ยอมรับ" H1 บนพื้นฐานนี้เนื่องจากเป็นการบอกว่า H1 ต้องเป็นจริงเพราะการสังเกตจะไม่น่าเป็นไปได้ถ้า H0 เป็นจริง อย่างไรก็ตามการสังเกตอาจไม่น่าเป็นไปได้ภายใต้ H1 (ซึ่งพิธีกรรมโมฆะไม่สนใจ) และ H1 อาจมีโอกาสน้อยกว่า H0 a-Priori (ซึ่งพิธีกรรมโมฆะนั้นไม่สนใจ) การยอมรับสมมติฐานนั้นเป็นความชันลื่นที่มีต่อการตีความการทดสอบแบบเบส์บ่อยๆซึ่งเป็นการทดสอบแบบเบย์ซึ่งโดยทั่วไปแล้วจะส่งผลให้เกิดความเข้าใจผิดในกรณีเบื้องต้นน้อยกว่า
Dikran Marsupial

4
เพิ่งสะดุดเมื่อความคิดเห็นของคุณ และฉันมีคำถามเดียวกันกับที่ @glassy ฉันอยากจะคัดค้านความคิดเห็นของคุณว่าถ้าสมมติฐานของคุณครอบคลุมพื้นที่ทั้งหมดของเหตุการณ์นี่คือ {"ดวงอาทิตย์หายไปโนวา", "ดวงอาทิตย์ไม่ได้ไปโนวา"} ฉันมีปัญหาในการทำความเข้าใจจุดที่คุณสามารถปฏิเสธได้ " Sun ได้หายไปโนวา "ไม่ได้นำไปสู่โดยอัตโนมัติ" Sun ไม่ได้ไปโนวา " การประกาศข้อความเท็จหมายถึงการปฏิเสธนั้นจะต้องเป็นจริง มันจะดีมากถ้าคุณให้ข้อความอ้างอิงที่เชื่อถือได้ซึ่งจุดนี้มีการอธิบายอย่างชัดเจนหากเป็นไปได้ ฉันสนใจที่จะหาข้อมูลเพิ่มเติมเกี่ยวกับมัน
หมายถึงความหมาย

3
การปฏิเสธสมมติฐานว่างไม่ได้หมายความว่าสมมติฐานว่างอาจเป็นเท็จโดยอัตโนมัติเพียงว่ามีเหตุผลที่จะดำเนินการกับสมมติฐานทางเลือกต่อไป นี่คือ (บางส่วน) เนื่องจากการทดสอบสมมติฐานบ่อยครั้งไม่ได้คำนึงถึงความน่าจะเป็นก่อนหน้าของสมมติฐาน พื้นฐานวิธีการที่ใช้บ่อยไม่สามารถใช้ในการกำหนดความน่าจะเป็นให้กับความจริงของสมมติฐานที่เฉพาะเจาะจงดังนั้นการเชื่อมโยงระหว่าง "เราสามารถปฏิเสธสมมติฐานว่าง" และ "สมมติฐานว่างอาจเป็นเท็จ" เป็นอัตนัยทั้งหมดเท่าที่ ฉันเห็น
Dikran Marsupial

2
นี่คือประเด็นของฉันการตัดสินใจว่าเรายอมรับ H1 นั้นเป็นอัตนัยหรือไม่และเป็นผลลัพธ์ที่ไม่จำเป็นจากผลลัพธ์ของการทดสอบ "การปฏิเสธ H0 มักนำไปสู่การยอมรับ H1" ปัญหาคือข้อมูลที่คุณต้องการในการตัดสินใจ [P (H0), P (H1), P (Z | H1)] ไม่ปรากฏในการทดสอบ โดยพื้นฐานแล้วบางส่วนของข้อมูลนี้จะรวมอยู่ในการตั้งค่าขีด จำกัด บางส่วน แต่โดยทั่วไปแล้วจะไม่สมบูรณ์และมักจะไม่มีการระบุและไม่ยุติธรรม นักบวชยังคงอยู่ในการทดสอบเป็นประจำมีความคิดเท่า ๆ กัน แต่ทิ้งไว้โดยปริยาย - แย่ที่สุดในโลกทั้งสอง! ; o)
Dikran Marsupial

3
@Dikran ผมคิดว่าเราเข้าใจกันดีและควรจะหยุดการเหยียดหยามส่วนความเห็น แต่คำพูดสุดท้าย: ฉันจิตใจเลือกที่จะยอมรับ H1 ถ้าฉันกระทำเลือกที่จะปฏิเสธ [อะมีบา-ปฏิเสธ] H0 อยู่บนพื้นฐานของฉันได้รับการแต่งตั้งผู้กระทำ อยู่บนพื้นฐานของการประเมินความคิดเห็นส่วนตัวของฉันของ P (H1) การพูดว่า "ฉันไม่ได้ถูกบังคับให้ยอมรับ H1 เพียงเพราะฉันสามารถอะมีบาปฏิเสธ H0" ไม่ได้ทำให้ความรู้สึกทางภาษาใด ๆ แต่ฉันยอมรับว่า "ฉันไม่ได้ถูกบังคับให้ยอมรับ H1 เพียงเพราะฉันสามารถปฏิเสธ H0 ที่ระดับ 5%" จุดหลักของฉัน: ความสามารถในการปฏิเสธ H0 ที่ระดับ 5%ปฏิเสธ α
อะมีบา

25

เหตุใดผลลัพธ์นี้จึงดูเหมือน "ผิด" ชาวเบย์จะบอกว่าผลดูเหมือนต่อต้านง่ายเพราะเรามีความเชื่อ "ก่อนหน้า" เกี่ยวกับเมื่อดวงอาทิตย์จะระเบิดและหลักฐานจากเครื่องนี้ไม่เพียงพอที่จะล้างความเชื่อเหล่านั้นออก (ส่วนใหญ่เป็นเพราะความไม่แน่นอนเนื่องจาก พลิกเหรียญ) แต่นักประพันธ์สามารถประเมินได้เช่นกันเขาต้องทำในบริบทของข้อมูลซึ่งตรงข้ามกับความเชื่อ

แหล่งที่มาที่แท้จริงของความขัดแย้งคือข้อเท็จจริงที่ว่าการทดสอบทางสถิติเป็นประจำนั้นไม่ได้คำนึงถึงข้อมูลทั้งหมดที่มีอยู่ ไม่มีปัญหากับการวิเคราะห์ในการ์ตูน แต่ผลลัพธ์ดูเหมือนแปลกเพราะเรารู้ว่าดวงอาทิตย์น่าจะไม่ระเบิดเป็นเวลานาน แต่เราจะรู้ได้อย่างไร เนื่องจากเราได้ทำการวัดการสังเกตและการจำลองที่สามารถ จำกัด เวลาที่ดวงอาทิตย์จะระเบิด ดังนั้นความรู้ทั้งหมดของเราควรคำนึงถึงการวัดและจุดข้อมูลเหล่านั้นด้วย

ในการวิเคราะห์แบบเบย์สิ่งนี้ทำได้โดยใช้การวัดเหล่านั้นเพื่อสร้างสิ่งก่อน (แม้ว่าขั้นตอนการเปลี่ยนการวัดให้เป็นแบบก่อนนั้นไม่ได้กำหนดไว้อย่างดี: ในบางจุดต้องมีการเริ่มต้นก่อนหน้า วิธีลง ") ดังนั้นเมื่อ Bayesian ใช้ก่อนหน้านี้เขาจึงคำนึงถึงข้อมูลเพิ่มเติมจำนวนมากที่การวิเคราะห์ค่า p ของผู้ใช้ประจำไม่ได้เป็นความลับ

ดังนั้นเพื่อที่จะอยู่ในตำแหน่งที่เท่าเทียมกันการวิเคราะห์ปัญหาแบบเต็มรูปแบบบ่อยครั้งควรรวมข้อมูลเพิ่มเติมเดียวกันเกี่ยวกับการระเบิดของดวงอาทิตย์ที่ใช้ในการสร้าง Bayesian ก่อน แต่แทนที่จะใช้นักบวชนักบ่อยครั้งก็จะขยายโอกาสที่เขาใช้เพื่อรวมการวัดอื่น ๆ เหล่านั้นและค่า p ของเขาจะถูกคำนวณโดยใช้ความน่าจะเป็นแบบเต็มนั้น

LL=L (เครื่องจักรบอกว่าใช่ | ดวงอาทิตย์ถูกระเบิด) * (ข้อมูลอื่น ๆ ทั้งหมดเกี่ยวกับดวงอาทิตย์ | ดวงอาทิตย์ถูกระเบิด)L

การวิเคราะห์แบบเต็มรูปแบบมักจะแสดงให้เห็นว่าส่วนที่สองของโอกาสที่จะถูก จำกัด มากขึ้นและจะมีส่วนร่วมที่โดดเด่นในการคำนวณค่า p (เพราะเรามีข้อมูลมากมายเกี่ยวกับดวงอาทิตย์และข้อผิดพลาดของข้อมูลนี้ มีขนาดเล็ก (หวังว่า)

ในทางปฏิบัติเราไม่จำเป็นต้องออกไปเก็บคะแนนข้อมูลทั้งหมดที่ได้รับในช่วง 500 ปีที่ผ่านมาเพื่อทำการคำนวณเป็นประจำซึ่งสามารถประมาณได้ว่าเป็นโอกาสที่ง่ายที่จะเข้ารหัสความไม่แน่นอนว่าดวงอาทิตย์ระเบิดหรือไม่ สิ่งนี้จะคล้ายกับก่อนของ Bayesian แต่มันแตกต่างกันเล็กน้อยในเชิงปรัชญาเพราะมันเป็นโอกาสซึ่งหมายความว่ามันเข้ารหัสการวัดก่อนหน้าบางส่วน (เมื่อเทียบกับก่อนหน้านี้ซึ่งเข้ารหัสความเชื่อเบื้องต้น) คำศัพท์ใหม่นี้จะกลายเป็นส่วนหนึ่งของความน่าจะเป็นและจะถูกใช้เพื่อสร้างช่วงความเชื่อมั่น (หรือค่า p หรืออะไรก็ตาม) ซึ่งตรงข้ามกับแบบเบย์ก่อนซึ่งถูกรวมเข้าด้วยกันเพื่อสร้างช่วงเวลาที่น่าเชื่อถือ


1
นี่ควรเป็นคำตอบที่ได้รับการยอมรับหรือโหวตมากที่สุด
Amelio Vazquez-Reina

11

ปัญหาที่ยิ่งใหญ่ที่สุดที่ฉันเห็นคือไม่มีสถิติทดสอบ (ด้วยการวิพากษ์วิจารณ์ทั้งหมดที่ Bayesian statisticians ติดกับมัน) สำหรับค่าของสถิติการทดสอบถูกกำหนดเป็น (สมมติว่าโมฆะถูกปฏิเสธสำหรับค่ามากขึ้นเช่นเดียวกับกรณีที่มีสถิติพูด) หากคุณต้องการการตัดสินใจที่มีความสำคัญยิ่งขึ้นคุณสามารถเพิ่มมูลค่าที่สำคัญและผลักดันภูมิภาคการปฏิเสธขึ้นไปอีก อย่างมีประสิทธิภาพนั่นคือสิ่งที่การทดสอบการแก้ไขหลายอย่างเช่น Bonferroni ทำโดยสั่งให้คุณใช้เกณฑ์ที่ต่ำกว่ามากสำหรับทีทีพีR o [ T เสื้อ| H 0 ] T χ 2 P 0 , 1 / 36 , 2 / 36 , ...ptTProb[Tt|H0]Tχ2p-values แต่สถิติ frequentist จะติดอยู่ที่นี่กับการทดสอบขนาดบนตารางของ\0,1/36,2/36,

แน่นอนว่าวิธีการ "ผู้ใช้บ่อย" นี้ไม่มีหลักวิทยาศาสตร์เนื่องจากผลลัพธ์แทบจะไม่สามารถทำซ้ำได้ เมื่อดวงอาทิตย์ไปถึงซุปเปอร์โนวามันจะยังคงอยู่ในซูเปอร์โนวาดังนั้นเครื่องตรวจจับควรพูดว่า "ใช่" ซ้ำแล้วซ้ำอีก อย่างไรก็ตามการทำงานซ้ำของเครื่องนี้ไม่น่าจะให้ผลลัพธ์ "ใช่" อีกครั้ง สิ่งนี้ได้รับการยอมรับในด้านที่ต้องการนำเสนอตัวเองอย่างเข้มงวดและพยายามที่จะทำซ้ำผลการทดลองของพวกเขา ... ซึ่งเท่าที่ฉันเข้าใจเกิดขึ้นกับความน่าจะเป็นที่ใดก็ได้ระหว่าง 5% (การตีพิมพ์บทความต้นฉบับ ประมาณ 30-40% ในบางสาขาการแพทย์ ผู้คนในการวิเคราะห์เมตาสามารถเติมจำนวนที่ดีกว่าให้กับคุณนี่เป็นเพียงข่าวลือที่พบเจอฉันเป็นครั้งคราวผ่านสถิติขององุ่น

ปัญหาอีกประการหนึ่งจากมุมมองของนักเคลื่อนไหวที่ "ถูกต้อง" ก็คือการกลิ้งดายเป็นการทดสอบที่ทรงพลังน้อยที่สุดโดยมีกำลัง = ระดับนัยสำคัญ (หากไม่ต่ำกว่า; อำนาจ 2.7% สำหรับระดับนัยสำคัญ 5% นั้นไม่มีอะไรน่าสนใจ) ทฤษฎีของเนย์แมน - เพียร์สันสำหรับการทดสอบแบบทีทำให้เกิดความเจ็บปวดแสดงให้เห็นว่านี่เป็น UMPT และทฤษฎีทางสถิติของคิ้วสูงมาก การทดสอบเป็นสิ่งที่ทรงพลังที่สุดในชั้นเรียนที่กำหนด (เครดิต: @Dikran Marsupial พูดถึงปัญหาของพลังงานในหนึ่งในความคิดเห็น)

ฉันไม่ทราบว่าปัญหานี้เกิดขึ้นกับคุณหรือไม่ แต่สถิติของ Bayesian แสดงที่นี่ว่าเป็นคนที่รู้คณิตศาสตร์และไม่มีปัญหาในการพนัน นักสถิติแบบเบย์ที่เหมาะสมจะอ้างถึงก่อนหน้านี้, หารือเกี่ยวกับระดับความเป็นกลาง, สืบทอดมาจากด้านหลัง, และแสดงให้เห็นว่าพวกเขาเรียนรู้จากข้อมูลมากน้อยเพียงใด ไม่มีสิ่งใดที่ได้ทำไปดังนั้นกระบวนการของเบย์จึงได้รับการปรับให้กว้างพอ ๆ กับกระบวนการที่ใช้เป็นประจำ

สถานการณ์นี้แสดงให้เห็นถึงการคัดกรองแบบดั้งเดิมสำหรับปัญหาโรคมะเร็ง (และฉันแน่ใจว่านักชีวสถิติสามารถอธิบายได้ดีกว่าที่ฉันสามารถทำได้) เมื่อคัดกรองหาโรคที่หายากด้วยเครื่องมือที่ไม่สมบูรณ์ส่วนใหญ่ของผลบวกออกมาเป็นบวกเท็จ นักสถิติอัจฉริยะรู้ว่าและรู้ดีกว่าการติดตามผู้คัดกรองราคาถูกและสกปรกด้วยการตรวจชิ้นเนื้อราคาแพงและแม่นยำยิ่งขึ้น


2
ถ้าฉันเข้าใจย่อหน้าแรกของคุณถูกต้องคุณกำลังบอกว่าตั้งค่าขีด จำกัด (0.05 ในการ์ตูน) สูงเกินไป หากการ์ตูนนั้นมีลูกเต๋าห้าลูกแทนที่จะเป็นสองชิ้นคุณจะยอมรับเกณฑ์ที่ต่ำพอหรือไม่? คุณตัดสินใจเลือกขีด จำกัด อย่างไร
ShreevatsaR

9
ฉันคิดว่านักสถิติแบบเบย์คิดเพียงว่าโอกาสที่ดวงอาทิตย์จะระเบิดนั้นมีขนาดเล็กกว่าโอกาสที่เครื่องจะวางอยู่ (เช่นนั้นไม่จำเป็นต้องเป็นนักการพนันที่ไร้เหตุผล)
Josh

8
อีกประเด็น: ถ้าพระอาทิตย์ตกดินโนวาผู้ชนะในการเดิมพันจะไม่สามารถจ่ายเงิน 50 ดอลลาร์ของเขา ...
kjetil b halvorsen

6
ฉันคิดว่าประเด็นในที่นี้คือนักสถิติที่ใช้บ่อยกำลังติดตามสูตรโดยไม่ต้องคิดถึงวัตถุประสงค์ที่แท้จริงของการวิเคราะห์ สิ่งที่เรียกว่า "Bayesian" ไม่ใช่การเป็นชาว Bayesian แต่มีเพียงคนที่ใช้สามัญสำนึกของพวกเขา มีตัวอย่างมากมายของสูตรตำรับตาบอดในวารสารวิทยาศาสตร์ซึ่งเป็นเหตุผลว่าทำไมการ์ตูนถึงน่าขบขัน
Dikran Marsupial

3
สถิติการขาดการทดสอบไม่สามารถเป็นปัญหาที่ฉันไม่คิดได้ สถิติการทดสอบเป็นเพียงฟังก์ชั่นของข้อมูล ดังนั้นฟังก์ชั่นการระบุตัวตนคือที่นี่คือตัวเลขของตัวเองจะปรากฏในการทำงานอย่างน้อยในหลักการ
conjugateprior

6

ไม่มีอะไรผิดปกติกับการ์ตูนเรื่องนี้และเหตุผลก็ไม่มีอะไรเกี่ยวข้องกับสถิติ มันเป็นเศรษฐศาสตร์ หากนักถี่ที่ถูกต้องโลกจะเป็นประหนึ่งว่าไม่สามารถอยู่อาศัยได้ภายใน 48 ชั่วโมง มูลค่า$ 50 จะเป็นโมฆะอย่างมีประสิทธิภาพ Bayesian ตระหนักถึงสิ่งนี้สามารถทำให้การเดิมพันรู้ว่าผลประโยชน์ของเขาคือ$ 50 ในกรณีปกติและไม่มีอะไรเล็กน้อยในกรณีที่เกิดการระเบิดของดวงอาทิตย์


สิ่งนี้ทำ "มีบางอย่างที่เกี่ยวข้องกับสถิติ" เนื่องจากสถิติแบบเบย์ได้สร้างแบบจำลองนี้อย่างชัดเจนว่าเป็น "ย่อขนาดฟังก์ชันการสูญเสีย";)
Fabio Beltramini

5

ตอนนี้ CERN ได้ตัดสินใจแล้วว่านิวตริโนจะไม่เร็วกว่าแสงหน้าช็อตของคลื่นแม่เหล็กไฟฟ้าจะชนกับโลกก่อนที่จะสังเกตเห็นการเปลี่ยนแปลงของนิวตริโน สิ่งนี้จะมีผลอย่างน้อย (ในระยะสั้นมาก) ที่เกี่ยวกับแสงหูชั้นเลิศ ดังนั้นความจริงที่ว่ามันมืดจะไม่ป้องกันไม่ให้ท้องฟ้าสว่าง ดวงจันทร์ที่ส่องแสงมากเกินไป (cf Larry Niven's "Inconstant Moon") และแสงแฟลชที่น่าตื่นตาตื่นใจในขณะที่ดาวเทียมประดิษฐ์นั้นถูกไอระเหยและถูกเผาไหม้ด้วยตนเอง

สรุป - อาจเป็นการทดสอบที่ผิดหรือเปล่า? (และในขณะที่อาจมีมาก่อน - จะมีเวลาไม่เพียงพอสำหรับการกำหนดหลังของจริง


1
เหตุผลที่ปฏิเสธสมมติฐานที่พระอาทิตย์ได้ระเบิดขึ้นนั้น :-)
ShreevatsaR

ดังนั้นนี่คือสิ่งที่มีความหมายในตอนท้ายของบทความเมื่อผู้เขียนพูดว่า: "จำเป็นต้องมีการศึกษายืนยัน"?
DWIN

อันที่จริงแล้วการทบทวนนี้โดยบังเอิญเป็นการอนุมานที่ชัดเจนอยู่ในชื่อเรื่อง เครื่องตรวจจับว่าดวงอาทิตย์ผ่านไปหรือไม่ ไม่มีโอกาสผิดพลาดในการตรวจจับ นิวตริโนบิตไม่เกี่ยวข้อง ระบุว่าจากนั้นสถิติเป็นเช่นนั้นเครื่องจะตอบกลับ "ไม่", "ไม่", "ไม่" ... ด้วยโอกาส 1/36 ของการเป็นคำสั่งที่ผิดพลาด (ใช่) จนกระทั่งเหตุการณ์ปิดหนึ่งซึ่งยุติสถิติ กระบวนการเกิดขึ้น - สิ่งนี้จะมีโอกาส 1/36 ที่จะถูกรายงานเท็จ (ไม่) หากเครื่องถูกสอบถามในช่วงเวลา 8 นาทีที่แปลกไปก็จะปรากฏให้เห็นบนโลก
SimonN

4

ฉันเห็นด้วยกับ @GeorgeLewis ว่ามันอาจจะเกิดก่อนกำหนดที่จะสรุปว่าวิธีการของนักเล่นแร่แปรธาตุนั้นผิดพลาด - ลองเรียกใช้เครื่องตรวจจับนิวตริโนอีกครั้งเพื่อเก็บข้อมูลเพิ่มเติมอีกครั้ง ไม่จำเป็นต้องยุ่งกับนักบวช


2

จุดที่ง่ายกว่าที่อาจหายไปในคำตอบ verbose ทั้งหมดที่นี่คือการบ่อยครั้งเป็นภาพวาดการสรุปของเขาตามตัวอย่างเดียว ในทางปฏิบัติคุณจะไม่ทำสิ่งนี้

การเข้าถึงข้อสรุปที่ถูกต้องนั้นต้องใช้ขนาดตัวอย่างที่มีนัยสำคัญทางสถิติ (หรือกล่าวอีกนัยหนึ่งวิทยาศาสตร์จำเป็นต้องทำซ้ำได้) ดังนั้นในทางปฏิบัติผู้ใช้งานประจำจะเรียกใช้เครื่องหลายครั้งแล้วจึงสรุปผลเกี่ยวกับข้อมูลที่ได้

สันนิษฐานว่าสิ่งนี้จะนำมาซึ่งการถามคำถามเดียวกันกับเครื่องหลายครั้ง และน่าจะเป็นไปได้ว่าหากเครื่องมีความผิดพลาดเพียง 1 ในทุก ๆ 36 ครั้งจะมีลวดลายที่ชัดเจนออกมา และจากรูปแบบนั้น (จากการอ่านเพียงครั้งเดียว) ผู้ที่ใช้บ่อยจะได้ข้อสรุป (ค่อนข้างแม่นยำฉันจะพูด) เกี่ยวกับว่าดวงอาทิตย์ได้ระเบิดหรือไม่


4
คุณหมายถึงอะไรโดย "ขนาดตัวอย่างที่มีนัยสำคัญทางสถิติ"?
Momo

@Momo - เป็นมากกว่าตัวอย่างเพียงอย่างเดียวแน่นอน มันไม่ถูกต้องในการสังเกตผลลัพธ์ที่ไม่น่าจะเป็นไปได้และจากนั้นทำการสรุปว่าสิ่งที่เกิดขึ้นไม่น่าจะเกิดขึ้นโดยไม่ต้องทำซ้ำการสังเกตครั้งแรกเพื่อให้แน่ใจว่าไม่ใช่ความบังเอิญ หากคุณต้องการจำนวนที่แน่นอนซึ่งแสดงถึงขนาดตัวอย่างที่มีนัยสำคัญทางสถิติหรืออัลกอริทึมในการกำหนดจำนวนที่แน่นอนอาจเป็นสถิติที่สามารถให้ได้ แต่ฉันไม่ใช่นักสถิติ
aroth

3
ฉันไม่คิดว่าจะมีปัญหาเฉพาะกับการมีขนาดตัวอย่าง 1 คือปัญหาปัญหาคือการทดสอบไม่มีกำลังทางสถิติ (เช่นการทดสอบจะไม่ปฏิเสธสมมติฐานว่างเมื่อเป็นเท็จ) อย่างไรก็ตามสิ่งนี้แสดงให้เห็นถึงปัญหาของ "พิธีกรรมโมฆะ" ที่ถูกส่งไปในบทความซึ่งไม่สนใจปัญหาของพลังงานทางสถิติ (และสิ่งที่ H1 เป็นจริงหรือข้อมูลก่อนหน้านี้ที่เกี่ยวข้องกับปัญหา)
Dikran Marsupial

1
@Dikran นั่นเป็นหนึ่งในคำตอบที่ดีที่สุด! ปัญหาของ "นักนิยม" ในการ์ตูนคือพิธีกรรมทางสถิติโดยเฉพาะได้รับการติดตามโดยไม่ต้องทำการประเมินคุณสมบัติของแบบทดสอบก่อน (หนึ่งอาจขยายการวิเคราะห์ของคุณโดยพิจารณาสิ่งที่ฟังก์ชั่นการสูญเสียที่เกี่ยวข้องสำหรับการตัดสินใจนี้ควรจะเป็น) การ์ตูนดังกล่าวอย่างเบ้อย่างประณีตทุกคนที่ใช้วิธีการทางสถิติโดยไม่เข้าใจหรือตรวจสอบสมมติฐานของพวกเขา
whuber

2

คำตอบสำหรับคำถามของคุณ: "เขาใช้วิธีการแบบประจำอย่างถูกต้องหรือไม่" ไม่เขาไม่ได้ใช้วิธีการที่ใช้บ่อยอย่างแม่นยำ ค่า p สำหรับปัญหานี้ไม่ได้เป็น 1/36

ก่อนอื่นเราต้องทราบว่าสมมติฐานที่เกี่ยวข้องคือ

H0: ดวงอาทิตย์ยังไม่ระเบิด

H1: ดวงอาทิตย์ได้ระเบิด

จากนั้น

p-value = P ("เครื่องคืนค่าใช่" | the Sun ไม่ได้ระเบิด)

ในการคำนวณความน่าจะเป็นนี้เราต้องทราบว่า "เครื่องคืนใช่" เทียบเท่ากับ "เครื่องตรวจจับนิวตริโนวัดการระเบิดของดวงอาทิตย์และบอกผลจริงหรือเครื่องตรวจจับนิวตริโนไม่ได้วัดการระเบิดของดวงอาทิตย์

สมมติว่าการขว้างลูกเต๋าเป็นอิสระจากการตรวจวัดนิวตริโนเราจึงสามารถคำนวณค่า p-value ได้โดยการกำหนด:

p0 = P ("เครื่องตรวจจับนิวตริโนวัดค่าการระเบิดของดวงอาทิตย์" | ดวงอาทิตย์ไม่ได้ระเบิด)

จากนั้นค่า p คือ

p-value = p0 x 35/36 + (1-p0) x 1/36 = (1/36) x (1+ 34 x p0)

สำหรับปัญหานี้ค่า p คือตัวเลขระหว่าง 1/36 ถึง 35/36 p-value เท่ากับ 1/36 ถ้าหากว่า p0 = 0 เท่านั้น นั่นคือข้อสันนิษฐานที่ซ่อนอยู่ในการ์ตูนนี้คือเครื่องตรวจจับจะไม่วัดดวงอาทิตย์ที่ระเบิดหากดวงอาทิตย์ไม่ได้ระเบิด

ยิ่งไปกว่านั้นข้อมูลเพิ่มเติมควรถูกแทรกเข้าไปในความเป็นไปได้ที่จะเกิดหลักฐานภายนอกของการระเบิดของโนวา

ทั้งหมดที่ดีที่สุด


1

ฉันไม่เห็นปัญหาใด ๆ กับแนวทางของผู้ใช้บ่อย หากสมมติฐานว่างถูกปฏิเสธค่า p คือความน่าจะเป็นของข้อผิดพลาดประเภท 1 ข้อผิดพลาดประเภท 1 คือการปฏิเสธสมมติฐานที่เป็นจริง ในกรณีนี้เรามีค่า p เป็น 0.028 ซึ่งหมายความว่าในการทดสอบสมมติฐานทั้งหมดด้วยค่า p นี้ที่เคยดำเนินการประมาณ 3 ในร้อยจะปฏิเสธสมมติฐานที่เป็นจริง โดยการก่อสร้างนี่จะเป็นหนึ่งในกรณีเหล่านั้น ผู้ใช้บ่อยยอมรับว่าบางครั้งพวกเขาจะปฏิเสธสมมติฐานว่างเปล่าจริงหรือเก็บสมมติฐานว่างไว้เป็นเท็จ (ข้อผิดพลาดประเภท 2) พวกเขาไม่เคยอ้างสิทธิ์เป็นอย่างอื่น ยิ่งไปกว่านั้นพวกเขายังหาจำนวนความถี่ของการอนุมานที่ผิดพลาดได้อย่างแม่นยำในระยะยาว

บางทีวิธีที่สับสนน้อยกว่าในการดูผลลัพธ์นี้คือการแลกเปลี่ยนบทบาทของสมมติฐาน เนื่องจากสมมติฐานสองข้อนั้นง่ายดังนั้นจึงง่ายที่จะทำ ถ้าค่าว่างนั้นคือดวงอาทิตย์ตกโนวาค่า p คือ 35/36 = 0.972 ซึ่งหมายความว่านี่ไม่ใช่หลักฐานที่ยืนยันสมมติฐานที่ว่าดวงอาทิตย์ผ่านโนวาดังนั้นเราจึงไม่สามารถปฏิเสธได้โดยอิงจากผลลัพธ์นี้ ดูเหมือนว่าสมเหตุสมผลกว่านี้ หากคุณกำลังคิด ทำไมทุกคนถึงคิดว่าพระอาทิตย์ตกดินโนวา? ฉันจะถามคุณ ทำไมทุกคนจะทำการทดลองเช่นนี้หากความคิดเรื่องพระอาทิตย์ที่ระเบิดดูเหมือนไร้สาระ?

ฉันคิดว่านี่เป็นเพียงการแสดงว่ามีการประเมินประโยชน์ของการทดสอบล่วงหน้า ยกตัวอย่างเช่นการทดลองนี้จะไร้ประโยชน์อย่างสมบูรณ์เพราะเป็นการทดสอบสิ่งที่เรารู้อยู่แล้วตั้งแต่มองขึ้นไปบนฟ้า การออกแบบการทดลองที่ดีนั้นเป็นข้อกำหนดในการผลิตวิทยาศาสตร์ที่ดี หากการทดสอบของคุณได้รับการออกแบบไม่ดีไม่ว่าคุณจะใช้เครื่องมืออนุมานเชิงสถิติใดผลลัพธ์ของคุณก็ไม่น่าจะมีประโยชน์


แน่นอน แต่ Bayesian ยังสามารถสรุปข้อสรุปที่สมเหตุสมผลกับข้อมูล / ผลการทดสอบที่ได้รับ บางครั้งคุณไม่สามารถทำการทดสอบซ้ำหรือออกแบบตามที่คุณต้องการ
Amelio Vazquez-Reina

นั่นคือประเด็นที่ยุติธรรมการอนุมานแบบเบย์สามารถรวมประสบการณ์ก่อนหน้านี้ซึ่งทำให้ยากขึ้นสำหรับผลลัพธ์ที่ไม่ธรรมดาที่จะมีน้ำหนักทางสถิติ (ปกป้องเราจากการเกิดพยาธิใบไม้เชิงสถิติ) อย่างไรก็ตามนี่เป็นการทดลองที่ไร้ประโยชน์ในกรอบ Bayesian ก่อนหน้านี้เป็นอย่างยิ่งในความโปรดปรานของข้อสรุปหนึ่งที่ไม่มีผลในการทดลองนี้สามารถเปลี่ยนแปลงได้ หากก่อนหน้านั้นแข็งแกร่ง เหตุใดจึงต้องทำการทดสอบโดยไม่มีโอกาสแก้ไข เมื่อพิจารณาถึงนักบวชที่อ่อนแอ (มีแนวโน้มที่จะถูกเปลี่ยนแปลงโดยข้อมูล) ฉันคิดว่าวิธีการแบบเบย์และบ่อยครั้งมักให้ผลลัพธ์ที่ "เปรียบได้"
Jose Garmilla

0

วิธีการรวม "ความรู้ก่อนหน้า" เกี่ยวกับความเสถียรของดวงอาทิตย์ในวิธีการที่ใช้บ่อย?

หัวข้อที่น่าสนใจมาก

นี่เป็นเพียงความคิดไม่ใช่การวิเคราะห์ที่สมบูรณ์แบบ ...

การใช้วิธีการแบบเบย์กับ noninformative ก่อนโดยทั่วไปจะให้การอนุมานทางสถิติที่เทียบได้กับวิธีการที่ใช้บ่อย

ทำไมชาวเบย์ถึงมีความเชื่อมั่นอย่างแรงกล้าก่อนว่าดวงอาทิตย์ไม่ได้ระเบิด? เพราะเขารู้ว่าทุกคนที่ดวงอาทิตย์ไม่เคยระเบิดตั้งแต่เริ่มต้น

เราสามารถเห็นได้จากแบบจำลองทางสถิติอย่างง่าย ๆ ที่มีนักบวชคอนจูเกตที่ใช้การแจกแจงก่อนหน้านี้เทียบเท่ากับการใช้การแจกแจงหลังที่ได้มาจากการทดลองแบบไม่ใช้ก่อนและแบบไม่เจาะจง

ประโยคข้างต้นแสดงให้เห็นว่าผู้มาประจำควรสรุปว่าเป็นเบย์โดยรวมถึงผลการทดลองเบื้องต้นในแบบจำลองของเขา และนี่คือสิ่งที่ Bayesian ทำจริง : ก่อนหน้านี้เขามาจากความรู้ของเขาเกี่ยวกับการทดลองเบื้องต้น!

Nxiixiθxixi=1i=1,,N

N+1xiy={Yes}Pr(xN+1=0)θθx1,,xNy1Ny={Yes}θθ

H0={the sun has not exploded}


ข้อความ "... เขารู้ดีว่าทุกคนที่ดวงอาทิตย์ไม่เคยระเบิดตั้งแต่เริ่มต้น" ได้นึกถึงเรื่องราวเกี่ยวกับวันหยุดของชาวอเมริกันเมื่อไม่นานมานี้ซึ่งมีไก่งวงนับล้านตัว ( Meleagris gallopavo ) บริโภค เมื่อเวลาผ่านไปไก่งวงอัจฉริยะทุกคน "รู้ทุกคน" ว่าเธอจะได้รับการเลี้ยงดูและการดูแลจนกระทั่งวันนั้นเป็นวันที่โชคชะตา (และคาดไม่ถึงกับเธอ) ในช่วงกลางเดือนพฤศจิกายน! ในทำนองเดียวกันความเชื่อมั่นของเราในความเสถียรของดวงอาทิตย์ควรอยู่ในระดับต่ำหากสิ่งที่เราต้องพึ่งพาคือประวัติที่ค่อนข้างสั้นของการสังเกตของมนุษย์
whuber

@whuber ฉันต้องการส่งข้อความนี้เป็นการส่วนตัว มีการเชื่อมต่อระหว่างความคิดเห็นของคุณกับหัวข้อการสนทนาหรือไม่? ฉันไม่รู้ว่าเป็นฉันหรือเปล่าที่ทำให้ฉันมีความคิด แต่ก็มีหลายครั้งที่ฉันรู้สึกว่าคุณแสดงความคิดเห็นกับคำตอบของฉันส่วนใหญ่จะพูดอะไรบางอย่างกับคำตอบของฉัน แบบฝึกหัดของ OP คือการตีความการ์ตูนและฉันรู้สึกว่าคุณวิพากษ์วิจารณ์คำตอบของฉันราวกับว่าฉันกำลังพูดถึงเรื่องจริง เมื่อเร็ว ๆ นี้ฉันไม่ได้ชื่นชมและฉันก็ยังไม่เข้าใจว่าทำไมคุณถึงทำให้เกิด "เจตนา" ที่น่าจะเป็นไปตามคำตอบของฉัน
Stéphane Laurent

ไม่มีการวิจารณ์ไม่ว่าโดยนัยหรือโดยเจตนา: บางครั้งความคิดเห็นก็แค่ ... ความคิดเห็น มันพยายามเน้น (ในแบบที่ตั้งใจจะตลก) คำถามสำคัญที่บอกใบ้ แต่ไม่ได้ตอบในคำตอบของคุณ ฉันขอโทษที่คุณเห็นว่านี่เป็นเรื่องส่วนตัวหรือการโจมตี BTW นี่เป็นคำถามจริง: มันถามวิธีรวม "ความรู้ก่อนหน้า" ... ในระเบียบวิธีประจำ? คำถามนี้กระตุ้นให้เกิดการวิจารณ์ของฮูมเกี่ยวกับการอนุมานแบบอุปนัยและไปที่ประเด็นในปรัชญาวิทยาศาสตร์เช่นเดียวกับรากฐานของสถิติ มันคุ้มค่าที่จะต้องคิดอย่างระมัดระวัง!
whuber

มันอาจคุ้มค่าที่จะชี้ให้เห็นเช่นกันว่าสัดส่วนของชื่อเสียงของคุณเป็นเพราะคะแนนของฉันสำหรับคำตอบของคุณ - ซึ่งฉันเสนอเป็นหลักฐานสำคัญว่าไม่มีพฤติกรรมที่เป็นระบบในส่วนของฉันกับคุณ
whuber

2
ไม่ฉันเข้าใจความคิดเห็นของคุณแล้ว การแปลความคิดเห็นของคุณใน Google ภาษาฝรั่งเศสแปลกไปแล้ว แต่ด้วยการรวมทักษะของฉันในภาษาอังกฤษและการแปลของ Google ที่แปลกประหลาดทำให้ฉันสามารถรับการแปลที่ถูกต้องได้ ฉันจะผ่อนคลายมากขึ้นในเดือนหน้า
Stéphane Laurent

0

แน่นอนว่านี่คือการทดสอบระดับ 0.05 บ่อยครั้ง - สมมติฐานว่างถูกปฏิเสธน้อยกว่า 5% ของเวลาภายใต้สมมติฐานว่างและแม้แต่พลังภายใต้ทางเลือกก็ยิ่งใหญ่

ในทางกลับกันข้อมูลก่อนหน้านี้บอกเราว่าดวงอาทิตย์จะไปถึงซูเปอร์โนวา ณ เวลาใดเวลาหนึ่งนั้นไม่น่าจะสวยนัก แต่การโกหกโดยบังเอิญนั้นมีโอกาสมากกว่า

บรรทัดล่าง: ไม่มีอะไรผิดปกติกับการ์ตูนและมันแสดงให้เห็นว่าการทดสอบสมมติฐานที่ไม่น่าเชื่อนำไปสู่อัตราการค้นพบที่ผิดพลาดสูง นอกจากนี้คุณอาจต้องการนำข้อมูลก่อนหน้ามาพิจารณาในการประเมินการเดิมพันที่เสนอ - นั่นเป็นสาเหตุที่คนหลังเบย์ร่วมกับการวิเคราะห์การตัดสินใจเป็นที่นิยม


-2

ในมุมมองของฉันการวิเคราะห์บ่อยขึ้นที่ถูกต้องจะเป็นดังนี้: H0: ดวงอาทิตย์ได้ระเบิดและเครื่องกำลังบอกความจริง H1: ดวงอาทิตย์ไม่ได้ระเบิดและเครื่องนอนอยู่

ค่า p ที่นี่คือ = P (อาทิตย์ระเบิด) p (เครื่องจักรกำลังบอกความจริง) = 0.97 P (ดวงอาทิตย์ระเบิด)

นักสถิติไม่สามารถสรุปสิ่งใดโดยไม่ทราบว่าธรรมชาติของความน่าจะเป็นครั้งที่สอง

แม้ว่าเราจะรู้ว่า P (ดวงอาทิตย์ระเบิด) เป็น 0 เพราะดวงอาทิตย์เหมือนดวงดาวไม่ระเบิดเป็นซุปเปอร์โนวา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.