การประมาณความน่าจะเป็นของความสำเร็จโดยอ้างอิงจากประชากร

สมมติว่าคุณมีสถานการณ์ต่อไปนี้:

คุณสังเกตผู้เล่นโบว์ลิ่ง 1,000 คนซึ่งแต่ละคนเล่นเกมค่อนข้างน้อย (พูด 1 ถึง 20) คุณจดบันทึกเปอร์เซ็นต์การนัดหยุดงานสำหรับผู้เล่นแต่ละคนที่มีต่อจำนวนเกมที่ผู้เล่นแต่ละคนเล่น

ผู้เล่นโบว์ลิ่งใหม่เข้ามาและเล่น 10 เกมและได้รับ 3 นัด

การแจกแจงตามจำนวนนัดสำหรับผู้เล่นใด ๆ ถือว่าเป็นทวินาม

ฉันต้องการประเมินความน่าจะเป็น "จริง" ของความสำเร็จสำหรับผู้เล่นรายนั้น

โปรดรับทราบสิ่งต่อไปนี้:

นี่ไม่ใช่สถานการณ์จริงหรือเป็นปัญหาของโรงเรียน แต่เป็นปัญหาที่คิดด้วยตนเอง
ฉันเป็นนักเรียนที่มีการศึกษาสถิติน้อยกว่าหลักสูตรสถิติ 101 ฉันรู้เพียงเล็กน้อยเกี่ยวกับการอนุมานเช่นการประมาณความเป็นไปได้สูงสุด ... ดังนั้นอย่าลังเลที่จะบอกพื้นที่ในสถิติที่ฉันควรอ่าน
ปัญหาของฉันอาจขาดข้อมูลหรือถ้ามันจะเป็นประโยชน์สำหรับการพูดการกระจายความน่าจะเป็นของความสำเร็จให้เป็นปกติประมาณโปรดบอกฉัน

ขอบคุณมาก

binomial inference

— Uwat
แหล่งที่มา

คุณคิดว่าอะไรคือความสัมพันธ์ระหว่างความน่าจะเป็นของผู้เล่นนี้และความน่าจะเป็นสำหรับผู้เล่น 1,000 คนแต่ละคน? ทำไมเราถึงพิจารณาอีก 1,000 คนในการประมาณปัญหาของผู้เล่นคนนี้?

— rolando2

ฉันสมมติว่าเปอร์เซ็นต์การนัดหยุดงานที่แท้จริงของผู้เล่นคือการตระหนักถึงการกระจายตัวของการนัดหยุดงานเดียวกันกับผู้เล่นอื่น 1,000 คน กล่าวอีกอย่างคือไม่มีอะไรพิเศษเกี่ยวกับผู้เล่นใหม่เขาเป็นเพียงผู้เล่นสุ่ม หวังว่ามันสมเหตุสมผล

— Uwat

นี่เป็นตัวอย่างที่ดีในการแสดงให้เห็นถึงความแตกต่างระหว่างวิธีการประจำและวิธีเบส์เพื่ออนุมาน

การตอบกลับของนักเล่นแร่แปรธาตุครั้งแรกที่เรียบง่ายของฉัน: ถ้าคุณคิดว่าการกระจายตัวของการโจมตีนั้นเป็นแบบทวินามคุณไม่จำเป็นต้องรู้อะไรเกี่ยวกับผู้เล่นอีก 1,000 คน (นอกเหนือจากบางทีคุณอาจใช้พวกเขาเพื่อตรวจสอบสมมติฐานทวินาม

เมื่อคุณมีสมมุติฐานทวินามชัดเจนการประมาณของคุณจะตรงไปตรงมามาก: 3/10 ความแปรปรวนของการประมาณนี้คือ p (1-p) / n = 0.021

โดยทั่วไปแล้วผู้เล่นอีก 1,000 คนไม่เกี่ยวข้องเว้นแต่คุณคิดว่ามีบางอย่างที่น่าสนใจและไม่ใช่ทวินามเกี่ยวกับการกระจายการประท้วง (เช่นผู้คนจะดีขึ้นเมื่อพวกเขาเล่นเกมมากขึ้น)

วิธีพิจารณาแบบเบย์ที่พิจารณามากขึ้น: อีกทางหนึ่งถ้าคุณสนใจที่จะใช้ความรู้เดิมที่คุณมีจากผู้เล่นคนอื่นและคุณคิดว่าผู้เล่นใหม่นั้นเป็นตัวอย่างใหม่จากประชากรเดียวกันคุณควรคิดถึงมันในเบย์ เงื่อนไข

ประเมินการกระจายตัวของผู้เล่นก่อนหน้า ในการทำเช่นนี้คุณต้องดูที่จุดข้อมูล 1,000 จุดของคุณ - ผู้เล่น 1,000 คนที่ได้รับการสังเกตแล้วสำหรับแต่ละคนที่คุณคาดการณ์ความน่าจะเป็นที่จะถูกโจมตี แต่ละ 1,000 คะแนนเหล่านี้สามารถรับได้เพียงหนึ่งใน 21 ค่า (จากศูนย์ถึงยี่สิบนัดจากยี่สิบครั้ง) และคุณจะเห็นการกระจายทั่วทั้งสนาม หากคุณแปลงคะแนนเหล่านี้เป็นสัดส่วน (เช่นระหว่างศูนย์ถึงหนึ่ง) การแจกแจงนี้อาจประมาณได้ดีพอสมควรโดยการแจกแจงความน่าจะเป็นของตัวแปรสุ่มที่มีการแจกแจงแบบเบต้า. การแจกแจงแบบเบต้านั้นโดดเด่นอย่างสมบูรณ์โดยเพียงแค่สองพารามิเตอร์ - สมมุติว่า a และ b - แต่เนื่องจากพารามิเตอร์เหล่านี้ไม่ได้เกี่ยวกับการกระจายตัวที่คุณถามเราเกี่ยวกับ (ความน่าจะเป็นของผู้เล่นโดยเฉพาะของการโจมตี) แต่เป็นการกระจายระดับ เรียกพวกเขาว่าพารามิเตอร์ คุณสามารถพัฒนาค่าประมาณของพารามิเตอร์หลายค่าเหล่านี้จากจุดข้อมูล 1,000 จุดในหนึ่งในหลายวิธีที่ไม่เกี่ยวข้องกับประเด็นหลักของคำถามของคุณ

ก่อนที่คุณจะมีข้อมูลใด ๆ เกี่ยวกับเครื่องเล่นของคุณการคาดเดาที่ดีที่สุดว่าสัดส่วนการนัดหยุดงานของเขา / เธอ (ให้เรียกมันว่า p) จะเป็นค่า p ที่น่าจะเป็นไปได้มากที่สุดจากการกระจายเบต้าที่เราเพิ่งติดตั้ง

อย่างไรก็ตามเรามีข้อมูลเกี่ยวกับผู้เล่นของเราไม่ใช่แค่ประชากรทั่วไป! ในพระเจ้าที่เราไว้วางใจคนอื่น ๆ ทุกคนจะต้องนำข้อมูลมาด้วย (ฉันจะอ้างถึงคำกล่าวนี้ถ้าฉันจำได้ว่าอยู่ที่ไหนฉันขอโทษ) ทุกครั้งที่เราสังเกตผู้เล่นของเราเล่นเกมและได้รับการนัดหยุดงานหรือไม่เรามีข้อมูลใหม่ที่จะประเมินสัดส่วนของเขา

หนึ่งในสิ่งที่เรียบร้อยเกี่ยวกับการแจกแจงเบต้าเป็นการแจกแจงความน่าจะเป็นสำหรับสัดส่วนก็คือเมื่อเรารวบรวมข้อมูลใหม่จากข้อมูลและสร้างการประมาณสัดส่วนใหม่ที่ได้รับการปรับปรุงแล้วทฤษฎีความน่าจะเป็นสามารถแสดงให้เห็นว่า การกระจาย - เป็นรุ่นที่เข้มข้นกว่า นี่เป็นเพราะการแจกแจงแบบเบต้าเป็นสิ่งที่เรียกว่าคอนจูเกตก่อนหน้านี้เมื่อพยายามประมาณการเกี่ยวกับแบบจำลองทวินาม

นั่นคือถ้าเราสังเกตเหตุการณ์ที่ประสบความสำเร็จ (เกมที่มีการโจมตีในกรณีนี้); และการแจกแจงก่อนหน้าคือเบต้า (a, b); การแจกแจงหลัง (เป็นการประมาณค่าการแจกแจงความน่าจะเป็นของ p ที่ได้รับทั้ง 1,000 จุดข้อมูลดั้งเดิมและเป็นการสังเกตใหม่ของสิบเกม) คือเบต้า (a + z, b + nz) หรือ (ในกรณีของเรา) เบต้า (a + 3, B + 7) อย่างที่คุณเห็นข้อมูลเพิ่มเติมที่คุณได้รับความสำคัญน้อยลงคือ a และ b คณิตศาสตร์ของเรื่องนี้ตรงไปตรงมาอย่างสมเหตุสมผลและในหลายตำรา แต่ไม่น่าสนใจ (สำหรับฉัน)

หากคุณมี R คุณสามารถดูตัวอย่างได้โดยการเรียกใช้รหัสด้านล่าง (และหากคุณไม่มี R คุณควรได้รับ - มันฟรีและยอดเยี่ยมมากสำหรับการคิดเกี่ยวกับปัญหาประเภทนี้) นี่ถือว่าการกระจายตัวก่อนหน้าของผู้เล่นสามารถเป็นแบบเบต้า (2,5) - มันถูกสร้างขึ้นโดยฉัน ในความเป็นจริงมีหลายวิธีที่คุณสามารถประมาณตัวเลขสำหรับ a และ b ได้ดีกว่าการสร้าง 2 และ 5 เพราะฉันคิดว่าเส้นโค้งดูโอเค

ดังที่คุณจะเห็นว่าคุณเรียกใช้ตัวอย่างที่สุกใสนี้หรือไม่การประเมินจุดของความน่าจะเป็นของผู้เล่นในการให้คะแนนการนัดหยุดงานซึ่งมีการแจกแจงก่อนหน้าของเบต้า (2,5) เป็น 0.29 มากกว่า 0.30 นอกจากนี้เรายังสามารถสร้างช่วงเวลาความน่าเชื่อถือซึ่งอธิบายได้ง่ายกว่าและง่ายกว่าช่วงความเชื่อมั่น (ดูคำถามและการสนทนาบนอินเทอร์เน็ตที่มีความแตกต่างระหว่างทั้งสองรวมถึง CrossValidated)

plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"), 
    lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data

จากนั้นสังเกตผู้เล่นใหม่ของคุณ และคำนวณการกระจายหลังใหม่สำหรับผู้เล่นใหม่ อย่างมีประสิทธิภาพสิ่งนี้กล่าวว่า "จากสิ่งที่เราเพิ่งสังเกตุเราจะคิดว่าคน ๆ นี้น่าจะอยู่ที่ไหนในการกระจายตัวของผู้เล่น?"

— ปีเตอร์เอลลิส
แหล่งที่มา

ฉันไม่คิดว่ามันถูกต้อง สมมติว่าคนส่วนใหญ่ (99%) ของคน 1,000 คนมีเปอร์เซ็นต์การโจมตีระหว่าง 5% ถึง 15% และคนจำนวนหนึ่งมีเปอร์เซ็นต์การโจมตีสูงกว่า 25% จากนั้นฉันจะยืนยันว่ามีโอกาสมากที่ผู้เล่นใหม่ที่เราสังเกตเห็นจะมีเปอร์เซ็นต์การโจมตีจริงน้อยกว่า 30% แต่เพียงแค่ "ได้รับโชค"

— Uwat

ตกลงจุดดี - ฉันได้เพิ่มการแก้ไขเพื่อพิจารณาสถานการณ์นี้ โดยทั่วไปคุณมีคำแถลงที่ดีของปัญหาการอนุมานแบบเบย์

— ปีเตอร์เอลลิส

@Peter - ล้วนเป็นที่ถกเถียงกันมาก

— rolando2

ขอบคุณสำหรับคำตอบ. อย่างไรก็ตามฉันไม่เข้าใจว่าคุณหมายถึงอะไร: "คุณต้องมีการกระจายตัวของอัตราการประท้วงของบุคคลซึ่งอาจจะเป็นเบต้าบางชนิด" คุณช่วยอธิบายให้ฟังหน่อยได้ไหม? ขอบคุณ

— Uwat

ขอบคุณคำถามที่ดีมากฉันได้ขยายคำตอบของฉันอย่างมาก

— Peter Ellis