อธิบายการ์ตูน xkcd jelly bean: อะไรทำให้ตลก?

ฉันเห็นว่าหนึ่งครั้งจากการทดสอบทั้งหมดยี่สิบครั้งที่พวกเขารันดังนั้นพวกเขาจึงคิดผิด ๆ ว่าในช่วงหนึ่งของการทดสอบยี่สิบครั้งผลลัพธ์จะมีนัยสำคัญ ( ) $p < 0.05$ $0.05 = 1/20$

xkcd jelly bean comic - "สำคัญ"

หัวข้อ: สำคัญ
ข้อความโฉบ: "'งั้นเอ่อเราได้ทำการศึกษาสีเขียวอีกครั้งและไม่มีการเชื่อมโยงมันอาจเป็น -' 'การวิจัยมีความขัดแย้งกับการเชื่อมโยงสีเขียวของถั่วเขียว / สิว;

xkcd comic 882 - "สำคัญ"

— DJG
แหล่งที่มา

ความมั่นใจ 95% จะหมายความว่าโดยเฉลี่ยใน 5% ของการทดสอบ (หนึ่งใน 20) เราจะได้ข้อสรุปที่ตรงกันข้าม ซึ่งเป็นสิ่งที่เกิดขึ้นตรงนี้ นั่นคือถ้าคุณทำการทดลองเดียวกันกับถั่วเยลลี่สีส้ม 1,000 ครั้ง ~ 50 รายการจะให้ผลบวก :)

— sashkello

ใครบอกว่ามันตลก

— whuber

ตัวเองนอกเหนือจากผู้ลงคะแนน 59 คนอื่น ๆ ที่นี่ดังนั้นอย่างน้อย! ;-P (ความคิดเห็นนี้ไม่ได้เป็นตัวแทนความคิดเห็นของฉันเกี่ยวกับ XKCD โดยทั่วไป) เว้นแต่จะมีสิ่งเช่นซึ่งในกรณีนี้เราอาจต้องการข้อมูลที่ดีกว่า ไม่มีใครผิดหวังเลยแม้ว่า FWIW ในฐานะที่เป็นปฏิบัติการที่มี "ความสนุกเชิงลบ" ... และด้วยเหตุนี้ฉันอาจนำความคิดเห็นนี้ไปสู่ดินแดนความสนุกสนานเชิงลบ ...

funniness > 0

$\text{funniness}>0$

funniness < 0

$\text{funniness}<0$

(p < .05)

$(p<.05)$

— Nick Stauner

ดูการสนทนานี้ที่ explxkcd.com

— Jeromy Anglim

@Glen_b เธรดการวิเคราะห์ข้อมูลการ์ตูนที่ชอบคือ CW อย่างเหมาะสมอย่างไรก็ตามฉันไม่เห็นเหตุผลที่สิ่งนี้ควรจะเป็น 'ทำไมตลก' กันคำถามถามเพื่อความเข้าใจในประเด็นสถิติที่เป็นปัญหาในการ์ตูนซึ่งมีคำตอบ & ควรจะอยู่ในหัวข้อ & ไม่ใช่ -WW (ซึ่งฉันคิดว่าคุณจัดการด้านล่างได้ดี)

— gung - Reinstate Monica

คำตอบ:

เรื่องขำขันเป็นเรื่องส่วนตัวมาก - บางคนจะรู้สึกสนุก แต่ทุกคนอาจจะไม่ตลก - และพยายามอธิบายว่าอะไรทำให้อะไรตลก ๆ มักจะล้มเหลวในการถ่ายทอดความตลกแม้ว่าพวกเขาจะอธิบายประเด็นที่ซ่อนอยู่ แท้จริงแล้ว xkcd ทั้งหมดนั้นไม่ได้ตั้งใจที่จะตลกจริงๆ หลายคนทำ แต่ทำคะแนนสำคัญในวิธีที่คิดว่าเร้าใจและอย่างน้อยในบางครั้งพวกเขาก็รู้สึกสนุกในการทำเช่นนั้น (ผมเองคิดว่ามันตลก แต่ผมพบว่ามันยากที่จะอธิบายอย่างชัดเจนว่าตรงทำให้มันตลกกับผม. ผมคิดว่าส่วนหนึ่งก็รับรู้ของวิธีการที่หนี้สงสัยจะสูญหรือแม้กระทั่งพิรุธผลกลายเป็นสื่อมวลชน ( ที่ ดูการ์ตูนเรื่องนี้ใน ระดับปริญญาเอกด้วย ) และบางทีการรับรู้ถึงวิธีการวิจัยบางส่วนอาจทำได้จริง - โดยปกติแล้วหากไม่รู้สึกตัว)

อย่างไรก็ตามหนึ่งสามารถชื่นชมจุดหรือไม่ว่ามันจะ tickles ตลกของคุณ

ประเด็นคือเกี่ยวกับการทดสอบสมมติฐานหลายครั้งในระดับนัยสำคัญปานกลางเช่น 5% แล้วเผยแพร่สิ่งที่มีนัยสำคัญ แน่นอนถ้าคุณทำการทดสอบ 20 ครั้งเมื่อไม่มีความสำคัญเกิดขึ้นจำนวนที่คาดหวังของการทดสอบเหล่านั้นจะให้ผลลัพธ์ที่สำคัญคือ 1 ทำการประมาณหัวอย่างคร่าวๆสำหรับการทดสอบที่ระดับนัยสำคัญมีโอกาส 37% ที่ไม่มีผลลัพธ์ที่สำคัญประมาณโอกาส 37% ของโอกาสเดียวและโอกาส 26% มากกว่าหนึ่งคน (ฉันเพิ่งตรวจสอบคำตอบที่แน่นอนพวกเขาอยู่ใกล้พอแล้ว) $n$ $\frac{1}{n}$

ในการ์ตูนแรนดัลบรรยาย 20 การทดสอบดังนั้นไม่ต้องสงสัยเลยว่าประเด็นของเขา (ซึ่งคุณคาดหวังว่าจะได้รับหนึ่งที่สำคัญแม้ว่าจะไม่มีอะไรเกิดขึ้น) บทความในหนังสือพิมพ์เรื่องสมมติเน้นความสำคัญของหัวข้อย่อย "มีโอกาสเพียง 5% ที่บังเอิญ!" (หากการทดสอบหนึ่งรายการที่ลงเอยด้วยเอกสารเป็นสิ่งเดียวที่ทำได้นั่นอาจเป็นกรณีนี้)

แน่นอนว่ายังมีปัญหาย่อย ๆ ที่นักวิจัยแต่ละคนอาจทำงานได้อย่างมีเหตุผลมากขึ้น แต่ปัญหาของการเผยแพร่ผลบวกที่ผิดพลาดยังคงเกิดขึ้น สมมุติว่านักวิจัยเหล่านี้ทำการทดสอบ 5 ครั้งเท่านั้นในแต่ละระดับ 1% ดังนั้นโอกาสโดยรวมของพวกเขาในการค้นพบผลลัพธ์ปลอมเช่นนั้นมีเพียงประมาณห้าเปอร์เซ็นต์เท่านั้น

จนถึงตอนนี้ดีมาก แต่ตอนนี้ลองนึกภาพว่ามีกลุ่มวิจัย 20 กลุ่มแต่ละการทดสอบแต่ละชุดไม่ว่าจะเป็นชุดสีแบบสุ่มพวกเขาคิดว่าพวกเขามีเหตุผลที่จะลอง หรือกลุ่มการวิจัย 100 กลุ่ม ... โอกาสของการพาดหัวเหมือนในการ์ตูนตอนนี้เป็นอย่างไร

ดังนั้นในวงกว้างการ์ตูนอาจอ้างอิงอคติการตีพิมพ์มากกว่า หากมีเพียงผลลัพธ์ที่สำคัญเท่านั้นที่ส่งเสียงแตรเราจะไม่ได้ยินเกี่ยวกับกลุ่มหลายสิบกลุ่มที่ไม่พบสิ่งใดเลยสำหรับเยลลี่สีเขียว

แน่นอนว่าเป็นหนึ่งในประเด็นสำคัญที่เกิดขึ้นในบทความนี้ซึ่งได้รับในข่าวในไม่กี่เดือนที่ผ่านมา ( เช่นที่นี่แม้ว่ามันจะเป็นบทความ 2005)

การตอบสนองต่อบทความนั้นเน้นความจำเป็นในการจำลองแบบ โปรดทราบว่าหากมีการทำซ้ำหลายครั้งของการศึกษาที่ตีพิมพ์ผลลัพธ์ "Green jellybeans ที่เชื่อมโยงกับสิว" นั้นคงไม่น่าเป็นไปได้

(และแท้จริงแล้วข้อความโฮเวอร์ของการ์ตูนทำให้มีการอ้างอิงที่ชาญฉลาดในประเด็นเดียวกัน)

— Glen_b
แหล่งที่มา

ผลของการทดสอบสมมติฐานเกี่ยวกับการตัดสินใจที่จะเผยแพร่ได้รับการอธิบายมากกว่าห้าสิบปีที่ผ่านมาในปี 1959 JASA กระดาษตัดสินใจตีพิมพ์และผลกระทบที่เป็นไปได้ของพวกเขาในการหาข้อสรุปมาจากการทดสอบความสำคัญ - หรือกลับกัน (ขออภัยสำหรับ paywall) ที่

ภาพรวมของกระดาษกระดาษชี้ให้เห็นหลักฐานว่าผลการตีพิมพ์ของเอกสารทางวิทยาศาสตร์ไม่ได้เป็นตัวแทนตัวอย่างของผลลัพธ์จากการศึกษาทั้งหมด ผู้เขียนตรวจสอบเอกสารที่ตีพิมพ์ในวารสารจิตวิทยาที่สำคัญสี่ฉบับ 97% ของเอกสารที่ตรวจสอบแล้วรายงานผลลัพธ์ที่มีนัยสำคัญทางสถิติสำหรับสมมติฐานทางวิทยาศาสตร์ที่สำคัญของพวกเขา

ผู้เขียนขอคำอธิบายที่เป็นไปได้สำหรับการสำรวจนี้: งานวิจัยที่ให้ผลลัพธ์ที่ไม่มีนัยสำคัญไม่ได้เผยแพร่ การวิจัยดังกล่าวไม่เป็นที่รู้จักของผู้ตรวจสอบคนอื่น ๆ อาจถูกทำซ้ำอย่างอิสระจนกว่าในที่สุดโอกาสที่จะเกิดผลลัพธ์ที่สำคัญ นี่เป็นการเปิดประตูสู่ความเป็นไปได้ที่วรรณกรรมทางวิทยาศาสตร์ที่ตีพิมพ์อาจรวมถึงการแสดงผลลัพธ์ที่ไม่ถูกต้องซึ่งเป็นผลมาจากข้อผิดพลาดประเภท 1 ในการทดสอบนัยสำคัญทางสถิติ - แน่นอนว่าสถานการณ์

การสังเกตทั่วไปนี้ได้รับการตรวจสอบในภายหลังและค้นพบอีกครั้งในช่วงหลายปีที่ผ่านมา ฉันเชื่อว่ากระดาษ JASA ปี 1959 เป็นคนแรกที่ตั้งสมมติฐานล่วงหน้า ผู้เขียนบทความนี้เป็นหัวหน้างานระดับปริญญาเอกของฉัน เราอัปเดตกระดาษ 1959 ของเขาในอีก 35 ปีต่อมาและถึงข้อสรุปเดียวกัน การตัดสินใจตีพิมพ์เผยแพร่: ผลของการทดสอบทางสถิติต่อการตัดสินใจเผยแพร่และรองในทางกลับกัน นักสถิติชาวอเมริกันปีที่ 49 ฉบับที่ 1 ก.พ. 2538

— Wilf Rosenbaum
แหล่งที่มา

แน่นอน - ฉันแก้ไขคำตอบของฉันด้านบนเพื่อรวมภาพรวมของกระดาษ

— Wilf Rosenbaum

ที่เกี่ยวข้อง: en.wikipedia.org/wiki/Half-life_of_knowledge

— kjetil b halvorsen

-2

สิ่งที่ผู้คนมองข้ามคือค่า p ที่แท้จริงสำหรับเคสเยลลี่ถั่วเขียวไม่ใช่. 05 แต่ประมาณ 0.64 เฉพาะค่า p ที่อ้างถึง (ระบุ) คือ. 05 มีความแตกต่างระหว่างค่า p จริงและแกล้ง ความน่าจะเป็นในการค้นหา 1 ใน 20 ที่ไปถึงระดับที่ระบุแม้ว่าค่า Null ทั้งหมดจะเป็นจริงไม่ใช่. 05 แต่เป็น. 64 ในทางตรงกันข้ามถ้าคุณประเมินหลักฐานดูความน่าจะเป็นเชิงเปรียบเทียบ - มุมมองที่นิยมที่สุดนอกเหนือจากข้อผิดพลาดทางสถิติ (ภายในที่มีค่า p อยู่) คุณจะบอกว่ามีหลักฐานสำหรับ H: ถั่วเยลลี่สีเขียวมีความสัมพันธ์กับสิวอย่างแท้จริง นั่นเป็นเพราะ P (x; ไม่มีผลกระทบ) <P (x; H) ด้านซ้ายคือ <.05 ในขณะที่ด้านขวาค่อนข้างสูง: หากถั่วเยลลี่สีเขียวทำให้เกิดสิวแล้วการค้นหาความสัมพันธ์ที่สังเกตได้น่าจะเป็นไปได้ ความน่าจะเป็นเพียงอย่างเดียวไม่สามารถรับความน่าจะเป็นข้อผิดพลาดได้เนื่องจากมีเงื่อนไขตามข้อมูลจริงที่ได้รับ ไม่มีความแตกต่างในการประเมินราคาถ้ามีเพียงแค่การทดสอบครั้งเดียวของถั่วเขียวและสิว ดังนั้นแม้ว่าการ์ตูนเรื่องนี้มักจะถูกมองว่าเป็นการสร้างความสนุกให้กับค่า p แต่สิ่งที่ตลกเกี่ยวกับมันแสดงให้เห็นว่าทำไมเราต้องพิจารณาความน่าจะเป็นข้อผิดพลาดโดยรวม (เช่นค่า p ที่ไม่แสร้งทำ) การอนุมานแบบเบย์นั้นมีเงื่อนไขในผลลัพธ์เช่นกันโดยไม่สนใจข้อผิดพลาด วิธีเดียวที่จะหลีกเลี่ยงการค้นหาหลักฐานสำหรับ H สำหรับ Bayesian จะมีค่าต่ำก่อนใน H แต่เราจะปรับ p-value ไม่ว่าสิ่งที่เรื่องและโดยไม่ต้องพึ่งพานักบวชเพราะกระบวนการล่าสัตว์ที่ใช้ เพื่อหาสมมติฐานที่จะทดสอบ แม้ว่า H ที่ถูกตามล่านั้นจะเชื่อได้ก็ตาม ' ยังคงมีการทดสอบหมัด Errorstatistics.com

— user48784
แหล่งที่มา

เป็นการยากมากที่จะบอกว่าสิ่งที่โพสต์นี้พยายามจะพูด ให้ฉันมุ่งเน้นไปที่ส่วนหนึ่งของมันโดยหวังว่าการชี้แจงอาจเปิดเผยความหมายของส่วนที่เหลือ: คุณหมายถึงอะไรโดย "ความน่าจะเป็นข้อผิดพลาดโดยรวม"?

— whuber

@whuber ฉันเชื่อว่าโพสต์นั้นอ้างถึงปัญหาการเปรียบเทียบหลายรายการ

— แมตต์