อาร์กิวเมนต์ทางสถิติสำหรับสาเหตุที่ 10,000 หัวจากการโยน 20,000 ครั้งจะแนะนำข้อมูลที่ไม่ถูกต้อง


11

สมมติว่าเรามีการโยนเหรียญที่ยุติธรรมซ้ำแล้วซ้ำเล่าและเรารู้ว่าจำนวนหัวและก้อยควรจะเท่ากัน เมื่อเราเห็นผลลัพธ์เช่น 10 หัวและ 10 ก้อยรวมเป็น 20 โยนเราเชื่อว่าผลลัพธ์และมีแนวโน้มที่จะเชื่อว่าเหรียญมีความยุติธรรม

เมื่อคุณเห็นผลลัพธ์เช่น 10,000 หัวและ 10,000 ก้อยต่อการโยนรวม 20,000 ครั้งฉันจะถามความถูกต้องของผลลัพธ์ (ผู้ทดลองทำการปลอมข้อมูล) เพราะฉันรู้ว่ามันไม่น่าจะเป็นไปได้มากกว่าที่จะพูด 10093 หัวและหาง 9907

อะไรคือข้อโต้แย้งทางสถิติที่อยู่เบื้องหลังสัญชาตญาณของฉัน

คำตอบ:


21

สมมติว่าเหรียญยุติธรรมผลของ 10,000 หัวและ 10,000 ก้อยมีแนวโน้มที่จะเป็นจริงมากกว่าผลของ 10093 หัวและ 9907 ก้อย

อย่างไรก็ตามเมื่อคุณพูดว่าผู้ทดลองจริงไม่น่าจะได้หัวและก้อยเท่ากันคุณจะเรียกทฤษฎีบทของเบย์โดยปริยาย ความเชื่อก่อนหน้าของคุณเกี่ยวกับการทดลองจริงคือ Prob (ไม่มีของหัว = 10,000 ใน 20,000 tosses | เนื่องจากผู้ทดลองไม่ได้แกล้งทำ) อยู่ใกล้กับ 0 ดังนั้นเมื่อคุณเห็นผลลัพธ์จริงที่ 'No of heads = 10000' ของคุณ ด้านหลังเกี่ยวกับ Prob (Experimenter ไม่ได้แกล้ง | สังเกตผลลัพธ์ได้ 10,000 หัว) ก็ใกล้กับ 0 ดังนั้นคุณสรุปได้ว่าผู้ทดลองกำลังแกล้งทำข้อมูล


อธิบายได้ดีมาก! ช่างเป็นตัวอย่างที่ยอดเยี่ยมสำหรับแนวทางทฤษฎีบทของเบย์
Tal Galili

1
@Srikant: ก่อนหน้านี้ไม่สามารถกำหนดอย่างเป็นทางการ ไม่ว่าในกรณีใด Prob (ไม่มีหัว = X | ผู้ทดลองไม่แกล้ง) มักจะอยู่ที่ศูนย์เมื่อ N = 20,000 มันไม่ว่าจะเป็นค่าของ X และไม่ว่าคุณจะก่อนหน้านี้ ดังนั้นหลังของคุณสำหรับหมายเลขใด ๆ ก็ใกล้เคียงกับ 0 เสมอฉันไม่เห็นว่าสิ่งนี้เกี่ยวข้องกับทฤษฎีบทของเบย์
Joris Meys

ทั้งหมดนี้มาจากผู้ชายคนหนึ่งที่พยายามจะพิสูจน์ว่ามีพระเจ้าอยู่จริง สง่างามจริงๆ
Brandon Bertelsen

1
การนำสิ่งนี้ไปใช้ในมุมมองที่กว้างขึ้นประเด็นที่ฉันเห็นด้วยคือทฤษฎีบทของเบย์กำลังทำงานอยู่ที่นี่ โดยเฉพาะมีความเป็นไปได้ทางเลือก (ที่สอดคล้องกับกระบวนการกำเนิดที่แตกต่างกัน) สำหรับการโกงและเพื่อการทดลองที่ซื่อสัตย์ การสร้างการโกงเป็นข้อสรุปหลังด้วยความเคารพต่อสัญชาตญาณที่ฉาบฉวยและฉาบฉวยดังนั้นกระบวนการ
ผัน

1
@Srikant @whuber: Combinatorials ... คุณพูดถูก ฉันเริ่มต้นจากความน่าจะเป็นแบบเดียวกันซึ่งเป็นเรื่องไร้สาระแน่นอนในกรณีนี้ ไม่ดีของฉัน
Joris Meys

12

ฉันชอบคำอธิบายของศรีกันต์และฉันคิดว่าแนวคิดแบบเบย์อาจเป็นวิธีที่ดีที่สุดในการแก้ไขปัญหาเช่นนี้ แต่นี่เป็นอีกวิธีในการดูโดยไม่ต้อง Bayes: (ใน R)

dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)

ประมาณ 31.2 ในระบบของฉัน กล่าวอีกนัยหนึ่งมีแนวโน้มที่จะเห็น 10 จาก 20 มากกว่า 30 เท่ามากกว่าที่จะเห็น 10,000 จาก 20,000 ถึงแม้จะมีเหรียญยุติธรรมในทั้งสองกรณี อัตราส่วนนี้เพิ่มขึ้นโดยไม่มีข้อผูกมัดเมื่อขนาดตัวอย่างเพิ่มขึ้น

นี่เป็นวิธีอัตราส่วนความน่าจะเป็น แต่ในความคิดของฉันสิ่งนี้รู้สึกเหมือนการตัดสินของเบย์เรียกมากกว่าสิ่งอื่นใด


ทำไมอัตราส่วน ทำไมไม่เพียงแค่ระบุว่าความน่าจะเป็นของการวาดที่แน่นอนนั้นต่ำมาก?
Andy W

5
การยืนยันว่าความน่าจะเป็นโดยเฉพาะนั้นต่ำเกินบริบทไม่น่าเชื่อถือ ความน่าจะเป็นที่ฉันสูงเท่ากับความสูงของฉัน (เท่าที่อาจเป็นได้) เท่ากับศูนย์ และใช่มันเป็นปัญหาที่จะกำหนดความสูงด้วยความแม่นยำที่ไม่มีที่สิ้นสุด, ญาดา, ญาดา, ญาดา ... ประเด็นของฉันคือการอยู่รอดของเหตุการณ์สำคัญที่เกิดขึ้นพร้อมกับเหตุการณ์ที่น่าจะเกิดน้อยที่สุดตลอดเวลา! 10,000 จาก 20,000 - จากบริบท - ไม่แปลกใจเลย ความน่าจะเป็นเชิงตัวเลขของมันอาจจะเป็นเท่าไหร่

9

การถกเถียงเรื่องอัตถิภาวนิยมแบบเบส์เป็นเพียงวิธีเดียว (จากมุมมองเชิงสถิติ) คุณสามารถเข้าใจความเข้าใจสัญชาตญาณของคุณซึ่งก็คือการพูดอย่างถูกต้องเรื่องของการสืบสวนทางจิตวิทยาไม่ใช่เรื่องทางสถิติ อย่างไรก็ตามมันไม่ยุติธรรมอย่างมีเหตุผล - และไม่ถูกต้อง - เพื่อใช้วิธี Bayesian เพื่อยืนยันว่าผู้ตรวจสอบทำข้อมูลปลอม ตรรกะของสิ่งนี้เป็นวงกลมอย่างสมบูรณ์แบบ: มันลงมาเพื่อพูดว่า "จากความเชื่อก่อนหน้านี้ของฉันเกี่ยวกับผลลัพธ์ฉันพบว่าผลลัพธ์ของคุณเหลือเชื่อและดังนั้นคุณต้องโกง" ข้อโต้แย้งที่แสดงตัวตนอย่างไร้เหตุผลดังกล่าวจะไม่โดดเด่นในห้องพิจารณาคดีหรือในกระบวนการพิจารณาทบทวน

แต่เราสามารถใช้เคล็ดลับจากคำวิจารณ์ของ Ronald Fisher เกี่ยวกับการทดลองของ Mendelและทำการทดสอบสมมติฐานอย่างเป็นทางการ แน่นอนมันไม่ถูกต้องที่จะทดสอบการโพสต์เฉพาะกิจสมมติฐานบนพื้นฐานของผล แต่การทดลองจะต้องทำซ้ำเพื่อเชื่อ: นั่นเป็นหลักการของวิธีการทางวิทยาศาสตร์ ดังนั้นเมื่อเห็นผลลัพธ์เดียวที่เราคิดว่าอาจปลอมแปลงเราสามารถกำหนดสมมติฐานที่เหมาะสมเพื่อทดสอบผลลัพธ์ในอนาคต (หรือเพิ่มเติม) ในกรณีนี้ภูมิภาคสำคัญจะประกอบไปด้วยชุดผลลัพธ์ที่ใกล้เคียงกับความคาดหมายมาก ตัวอย่างเช่นการทดสอบที่α= ระดับ 5% จะดูผลลัพธ์ใด ๆ ระหว่าง 9,996 และ 10,004 ในฐานะผู้ต้องสงสัยเพราะ (a) การรวบรวมนี้อยู่ใกล้กับผลลัพธ์ที่ "ปลอม" และ (b) ภายใต้สมมติฐานว่างของเราที่ไม่แกล้ง (ไร้เดียงสาจนพิสูจน์ผิดในศาล!) ผลลัพธ์ในช่วงนี้มีโอกาสเกิดขึ้นเพียง 5% (จริง ๆ 5.07426%) นอกจากนี้เราสามารถนำวิธีการเฉพาะกิจนี้มาใช้ในบริบทไคสแควร์ (a la Fisher) เพียงแค่ทำการเบี่ยงเบนความเบี่ยงเบนระหว่างสัดส่วนที่สังเกตกับสัดส่วนที่คาดไว้จากนั้นจึงเรียกใช้บทแทรกของ Neyman-Pearsonในการทดสอบแบบต่ำหางและใช้ประมาณธรรมดาถึงการกระจายทวินาม

แม้ว่าการทดสอบดังกล่าวจะไม่สามารถพิสูจน์ได้ว่าเป็นสิ่งปลอมแปลง แต่ก็สามารถนำไปใช้กับรายงานในอนาคตจากผู้ทดสอบรายนั้นเพื่อประเมินความน่าเชื่อถือของข้อเรียกร้องของพวกเขาโดยไม่ทำให้สมมติฐานไม่ดีและไม่สามารถทำได้ นี่เป็นสิ่งที่ยุติธรรมและเข้มงวดกว่าการเรียกการโต้แย้งแบบเบย์เพื่อให้คนที่อาจจะไร้เดียงสาได้อย่างสมบูรณ์แบบและโชคร้ายที่พวกเขาได้รับผลการทดลองที่สวยงาม!


5

ฉันคิดว่าสัญชาตญาณของคุณมีข้อบกพร่อง ดูเหมือนว่าคุณกำลังเปรียบเทียบผลลัพธ์ "พิเศษมาก" อย่างเดียว (ตรงกับ 10,000 หัว) ด้วยชุดผลลัพธ์จำนวนมาก (จำนวนทั้งหมดที่ไม่ใช่ "พิเศษ" ใกล้ถึง 10,000) อย่างไรก็ตามคำจำกัดความของ "พิเศษ" เป็นทางเลือกโดยพลการตามจิตวิทยาของเรา วิธีการเกี่ยวกับไบนารี 10000000000000 (ทศนิยม 8192) หรือ Hex ABC (2748 ทศนิยม) - ที่พิเศษอย่างน่าสงสัยเช่นกัน? ตามที่ Joris Meys ให้ความเห็นอาร์กิวเมนต์ Bayes จะเหมือนกันสำหรับจำนวนหัวเดียวใด ๆ ซึ่งหมายความว่าผลลัพธ์แต่ละอย่างน่าสงสัย

หากต้องการขยายอาร์กิวเมนต์สักเล็กน้อย: คุณต้องการทดสอบสมมติฐาน ("ผู้ทดลองกำลังแกล้งทำ") จากนั้นคุณเลือกสถิติทดสอบ (จำนวนหัว) ตอนนี้สถิติการทดสอบนี้เหมาะที่จะบอกคุณบางอย่างเกี่ยวกับสมมติฐานของคุณหรือไม่? สำหรับฉันดูเหมือนว่าสถิติการทดสอบที่เลือกไม่ใช่ข้อมูล (ไม่ใช่ฟังก์ชั่นของพารามิเตอร์ที่ระบุว่าเป็นค่าคงที่ในสมมติฐาน) สิ่งนี้จะกลับไปที่คำถามที่คุณหมายถึงด้วย "การโกง" หากนั่นหมายความว่าผู้ทดลองทำการควบคุมเหรียญตามความประสงค์นี่จะไม่ปรากฏในสถิติทดสอบ ฉันคิดว่าคุณต้องแม่นยำยิ่งขึ้นเพื่อค้นหาตัวบ่งชี้เชิงปริมาณและทำให้คำถามคล้อยตามการทดสอบทางสถิติ


+1 แต่ฉันไม่มั่นใจ มีอะไรพิเศษประมาณ 10,000 คือมันเท่ากับจำนวนหัวที่คาดหวังภายใต้สมมติฐานที่ว่าเหรียญมีความยุติธรรม ความจริงเรื่องนี้ไม่ขึ้นกับจิตวิทยาหรือระบบของการแทนตัวเลข การวิเคราะห์ในการตอบสนองนี้อาจให้ข้อมูลเชิงลึกเกี่ยวกับสถานการณ์ที่กล่าวว่าเหรียญ 20,005 ถูกพลิกและ 10,000 หัว (และ 10,005 ก้อย) ได้รับการบันทึกไว้
whuber

ฉันเห็นด้วยอย่างเต็มที่ว่า - ในขณะที่คุณชี้ให้เห็นในคำตอบของคุณ - ทั้งหมดขึ้นอยู่กับคำนิยามของสมมติฐาน: หากคุณกำหนดไว้ล่วงหน้าว่าโดย "แกล้งทำการทดสอบ" คุณหมายถึง "บรรลุผลตามจำนวนหัวที่ ใกล้เคียงกับค่าที่คาดหวัง "นั่นเป็นพื้นฐานสำหรับการทดสอบทางสถิติที่มี" จำนวนหัว "เป็นสถิติการทดสอบ อย่างไรก็ตามหากไม่มีการชี้แจงล่วงหน้าความหมายของ "การแกล้ง" และ "ค่าพิเศษสำหรับจำนวนหัว" ยังคงมีเมฆมากและไม่ชัดเจนว่าพวกเขาต้องทำอะไรกัน
caracal

4

ข้อสรุปที่คุณวาดจะขึ้นอยู่กับว่าคุณเลือกความน่าจะเป็นของการโกงและความน่าจะเป็นก่อนหน้านั้นมากน้อยเพียงใดเนื่องจากเมื่อฟลิปเปอร์กำลังนอนอยู่จะมีการรายงานหัว x

การวางมวลมากที่สุดบน P (10,000 หัวที่รายงาน | การโกหก) นั้นนับได้ว่าง่าย ฉันไม่สามารถจินตนาการได้ว่าใครก็ตามที่รายงานข้อมูลเท็จประเภทนั้น (ส่วนใหญ่มาจากเหตุผลที่คุณพูดถึงในโพสต์ดั้งเดิมมันน่าสงสัยเกินไปสำหรับคนส่วนใหญ่) หากเหรียญนั้นไม่ยุติธรรมจริง ๆ และฟลิปเปอร์ต้องรายงาน ข้อมูลที่เป็นเท็จจากนั้นฉันคิดว่ามีเหตุผลมากขึ้น (และโดยประมาณมาก) ก่อนหน้านี้เกี่ยวกับผลลัพธ์ที่รายงานอาจเป็นชุดที่ไม่ต่อเนื่องก่อนหน้า P (หัว X รายงาน | โกหก) = 1/201 สำหรับจำนวนเต็ม {9900, ... , 10100} และ P (x หัวรายงาน | โกหก) = 0 สำหรับ x อื่น ๆ ทั้งหมด สมมติว่าคุณคิดว่าความน่าจะเป็นก่อนหน้าของการโกหกคือ 0.5 ดังนั้นความน่าจะเป็นหลังคือ

P (โกหก | รายงานหัว 9900 คน) = P (โกหก | รายงาน 10,100 หัว) = 0.70;

P (โกหก | รายงาน 9950 หัว) = P (โกหก | รายงาน 10050 หัว) = 0.54;

P (โกหก | รายงาน 10,000 หัว) = 0.47

จำนวนที่สมเหตุสมผลของหัวหน้ารายงานจากเหรียญยุติธรรมจะส่งผลให้เกิดความสงสัย เพียงเพื่อแสดงให้เห็นว่าความไวต่อความน่าจะเป็นหลังของนักบวชของคุณนั้นมีความละเอียดอ่อนเพียงใดหากความน่าจะเป็นก่อนหน้าของการโกงนั้นลดลงเหลือ 0.10 ดังนั้นความน่าจะเป็นหลังจะเป็นดังนี้:

P (โกหก | รายงานหัว 9900 คน) = P (โกหก | รายงาน 10,100 หัว) = 0.21;

P (โกหก | รายงาน 9950 หัว) = P (โกหก | รายงาน 10050 หัว) = 0.11;

P (โกหก | รายงาน 10,000 หัว) = 0.09

ดังนั้นฉันคิดว่าต้นฉบับ (และคำตอบที่ได้รับคะแนนสูง) สามารถขยายได้เล็กน้อย คุณไม่ควรสรุปว่าข้อมูลนั้นเป็นเท็จโดยไม่พิจารณาข้อมูลก่อนหน้าอย่างถี่ถ้วน นอกจากนี้เพียงแค่คิดเกี่ยวกับเรื่องนี้อย่างสังหรณ์ใจดูเหมือนว่าความน่าจะเป็นหลังของการโกหกมีแนวโน้มที่จะได้รับอิทธิพลมากขึ้นจากความน่าจะเป็นก่อนหน้าของการโกหกมากกว่าโดยการกระจายหัวก่อนหน้านี้รายงานว่า มวลของมันบนหัวจำนวนน้อยที่รายงานเนื่องจากกบกำลังโกหกเช่นในตัวอย่างของฉัน)


ฉันคิดว่านี่เป็นคำตอบที่ดีมาก แต่ฉันไม่เห็นด้วยกับย่อหน้าที่สองของคุณ ฉันไม่คิดว่าความน่าจะเป็นตามเงื่อนไขดั้งเดิมของศรีคานท์จะต่อต้านง่ายและเพราะมันเป็นคำถามที่ยากที่จะตอบไม่ใช่การโต้แย้ง ฉันยังไม่คิดว่าความน่าจะเป็นที่เหมือนกันของคุณคือการโกหกภายใน 9900 ถึง 1,0100 ทำให้รู้สึกใด ๆ แม้ว่ามันจะมีประโยชน์สำหรับการสาธิต
Andy W

2

สำหรับคำอธิบายแบบเบย์คุณต้องมีการแจกแจงความน่าจะเป็นก่อนหน้านี้ในผลลัพธ์ที่รายงานโดยฟลิปเปอร์เหรียญโกหกและความน่าจะเป็นก่อนหน้าของการโกหก เมื่อคุณเห็นค่าที่น่าจะอยู่ภายใต้การกระจายการโกหกมากกว่าการสุ่มพลิกจะทำให้ค่าความน่าจะเป็นหลังของการโกหกสูงกว่ามาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.