ช่วยฉันเข้าใจการแจกแจงแบบเบย์ก่อนและหลัง


124

ในกลุ่มนักเรียนมี 2 จาก 18 คนที่ถนัดซ้าย ค้นหาการกระจายด้านหลังของนักเรียนที่ถนัดซ้ายในประชากรที่คาดไม่ถึงมาก่อน สรุปผลลัพธ์ ตามวรรณกรรม 5-20% ของคนถนัดซ้าย นำข้อมูลนี้ไปพิจารณาก่อนและคำนวณหลังใหม่

ฉันรู้ว่าควรใช้การกระจายเบต้าที่นี่ ก่อนอื่นด้วยค่าและเป็น 1? สมการที่ฉันพบในวัสดุสำหรับด้านหลังคือαβ

π(r|Y)r(Y+1)×(1r)(NY+1)

Y=2N = 18 ,N=18

ทำไมในสมการนั้น? (แสดงถึงสัดส่วนของคนซ้ายส่ง) ไม่เป็นที่รู้จักดังนั้นมันจะอยู่ในสมการนี้ได้อย่างไร? สำหรับผมแล้วมันดูเหมือนว่าไร้สาระในการคำนวณรับและใช้ในสมการให้Rดีกับตัวอย่างผลที่ได้0,0019ฉันควรจะได้ข้อสรุปจากที่?rrrYrrr=2/180,0019f

สมการที่ให้ค่าคาดหวังของทราบและทำงานได้ดีขึ้นและให้ซึ่งฟังต้อง สมการเป็นE (R | X, N, α, β) = (α + X) / (α + β + N)ที่มีมูลค่า1ได้รับมอบหมายให้อัลฟาและβ ฉันควรให้ค่าใดกับαและβเพื่อพิจารณาข้อมูลก่อนหน้านี้RYN0,15E(r|X,N,α,β)=(α+X)/(α+β+N)1αβαβ

เคล็ดลับบางอย่างจะได้รับการชื่นชมมาก การบรรยายทั่วไปเกี่ยวกับการแจกแจงก่อนและหลังจะไม่เจ็บเช่นกัน (ฉันมีความเข้าใจที่คลุมเครือว่าเป็นอะไร แต่คลุมเครือ) โปรดจำไว้ว่าฉันไม่ใช่นักสถิติขั้นสูง (จริงๆแล้วฉันเป็นนักวิทยาศาสตร์ทางการเมืองจากการค้าหลักของฉัน) คณิตศาสตร์ขั้นสูงอาจลอยอยู่เหนือหัวฉัน


4
คุณดูคำถามและคำตอบนี้หรือไม่?
David Robinson

7
วลี " ค้นหาการแจกแจงด้านหลังของนักเรียนที่ถนัดซ้าย " ไม่สมเหตุสมผล ตัวแปรสุ่มมีการแจกแจงและ "นักเรียนถนัดซ้าย" ไม่ใช่ rv ที่ฉันเข้าใจคุณตั้งใจว่า " ค้นหาการกระจายหลังของ สัดส่วนของ นักเรียนถนัดซ้าย " สิ่งสำคัญคือต้องไม่ขัดเกลารายละเอียดดังกล่าว แต่ต้องชัดเจนเกี่ยวกับสิ่งที่คุณกำลังพูดถึง
Glen_b

2
ที่จริงแล้วการอ่านคำถามของคุณดูเหมือนว่าฉันว่าปัญหาของคุณไม่ได้เป็นสถิติแบบเบย์มากนักเพียงแค่เข้าใจการแจกแจงความน่าจะเป็น เป็นเสมอว่าอาร์กิวเมนต์ของฟังก์ชันการแจกแจง (หรือฟังก์ชันความน่าจะเป็นตามที่คุณมี) เป็นฟังก์ชันของตัวแปรที่ไม่รู้จัก (ตัวแปรสุ่ม) นั่นคือจุดทั้งหมดของพวกเขา
Glen_b

ความคิดเห็นไม่ได้มีไว้สำหรับการอภิปรายเพิ่มเติม การสนทนานี้ได้รับการย้ายไปแชท
gung

คำตอบ:


233

ก่อนอื่นให้ฉันอธิบายสิ่งที่ผันก่อนหน้าคือ ฉันจะอธิบายการวิเคราะห์แบบเบย์โดยใช้ตัวอย่างเฉพาะของคุณ สถิติแบบเบย์เกี่ยวข้องกับขั้นตอนต่อไปนี้:

  1. กำหนดการกระจายก่อนหน้านี้ที่รวมความเชื่อส่วนตัวของคุณเกี่ยวกับพารามิเตอร์ (ในตัวอย่างของคุณพารามิเตอร์ที่น่าสนใจคือสัดส่วนของคนถนัดซ้าย) ก่อนหน้านี้อาจเป็น "uninformative" หรือ "informative" (แต่ไม่มีก่อนหน้านี้ที่ไม่มีข้อมูลให้ดูการสนทนาที่นี่ )
  2. รวบรวมข้อมูล
  3. อัปเดตการแจกจ่ายก่อนหน้าของคุณด้วยข้อมูลโดยใช้ทฤษฎีบทของเบย์เพื่อรับการแจกแจงด้านหลัง การแจกแจงหลังคือการแจกแจงความน่าจะเป็นซึ่งแสดงถึงความเชื่อที่คุณได้รับเกี่ยวกับพารามิเตอร์หลังจากที่ได้เห็นข้อมูล
  4. วิเคราะห์การกระจายของหลังและสรุป (เฉลี่ย, SD, ควอนไทล์, ... )

พื้นฐานของสถิติเบย์ทั้งหมดคือทฤษฎีบทของเบย์ซึ่งก็คือ

posteriorprior×likelihood

ในกรณีของคุณโอกาสที่จะเป็นแบบทวินาม หากการกระจายก่อนหน้าและหลังอยู่ในตระกูลเดียวกันก่อนและหลังถูกเรียกว่าการแจกแจงแบบคอนจูเกต การกระจายเบต้าเป็นคอนจูเกตก่อนหน้านี้เพราะหลังเป็นการกระจายเบต้า เราบอกว่าการแจกแจงค่าเบต้าเป็นตระกูลคอนจูเกตสำหรับความน่าจะเป็นทวินาม การวิเคราะห์คอนจูเกตนั้นสะดวก แต่ไม่ค่อยเกิดขึ้นในปัญหาจริง ในกรณีส่วนใหญ่การกระจายหลังจะต้องพบตัวเลขผ่าน MCMC (โดยใช้ Stan, WinBUGS, OpenBUGS, JAGS, PyMC หรือโปรแกรมอื่น ๆ )

ถ้าการกระจายความน่าจะเป็นก่อนหน้าไม่ได้รวมเข้ากับ 1 มันจะถูกเรียกว่าไม่เหมาะสมก่อนถ้ามันรวมเข้ากับ 1 มันจะถูกเรียกว่าเหมาะสมก่อน ในกรณีส่วนใหญ่การไม่เหมาะสมก่อนหน้านั้นไม่ก่อให้เกิดปัญหาใหญ่สำหรับการวิเคราะห์แบบเบย์ การกระจายด้านหลังจะต้องเหมาะสมแม้ว่าเช่นหลังต้องรวมถึง 1

กฎของหัวแม่มือเหล่านี้ปฏิบัติตามโดยตรงจากธรรมชาติของกระบวนการวิเคราะห์แบบเบย์:

  • หากก่อนหน้านี้ไม่มีข้อมูลใหม่ผู้หลังถูกกำหนดโดยข้อมูลเป็นอย่างมาก (ด้านหลังเป็นแบบข้อมูล)
  • หากก่อนหน้านี้เป็นข้อมูลผู้หลังเป็นส่วนผสมของข้อมูลก่อนหน้าและข้อมูล
  • ยิ่งคุณให้ข้อมูลมากเท่าไหร่คุณก็ยิ่งจำเป็นต้อง "เปลี่ยน" ความเชื่อของคุณมากขึ้นเท่านั้นดังนั้นควรพูดเพราะด้านหลังเป็นแรงผลักดันจากข้อมูลก่อนหน้า
  • หากคุณมีข้อมูลจำนวนมากข้อมูลจะครอบงำการกระจายหลัง (พวกเขาจะครอบงำก่อน)

ภาพรวมที่ยอดเยี่ยมของบางอย่างที่เป็นไปได้ "ข้อมูล" และ "ไม่เป็นทางการ" สำหรับการแจกแจงเบต้าสามารถพบได้ในโพสต์นี้

สมมติว่ารุ่นก่อนหน้าของคุณคือโดยที่เป็นสัดส่วนของคนถนัดซ้าย ในการระบุพารามิเตอร์ก่อนหน้าและจะมีประโยชน์ที่จะทราบค่าเฉลี่ยและความแปรปรวนของการแจกแจงเบต้า (ตัวอย่างเช่นหากคุณต้องการให้ก่อนหน้านี้มีค่าเฉลี่ยและความแปรปรวนบางอย่าง) ค่าเฉลี่ยอยู่ในเบต้า) ดังนั้นเมื่อใดก็ตามที่ค่าเฉลี่ยเป็น0.5ความแปรปรวนของการกระจายเบต้าคือ1)} ตอนนี้สิ่งที่สะดวกคือคุณสามารถคิดถึงและBeta(πLH|α,β)πLHαβπ¯LH=α/(α+β)α=β0.5αβ(α+β)2(α+β+1)αβเป็นข้อสังเกตก่อนหน้านี้ข้อมูล (หลอก) คือซ้ายมือขวาและ handers ขวาออกจาก (หลอก) ตัวอย่างขนาด\ การกระจายการกระจายคือเครื่องแบบ (ค่าทั้งหมดของมีความเป็นไปได้เท่าเทียมกัน) และเทียบเท่ากับการสังเกตคนสองคน ซึ่งหนึ่งคือซ้ายมือและหนึ่งคือขวามือαβneq=α+βBeta(πLH|α=1,β=1)πLH

การกระจายเบต้าหลังเป็นเพียงโดยที่คือขนาดของตัวอย่างและคือจำนวนของคนถนัดซ้ายในตัวอย่าง ค่าเฉลี่ยหลังของจึงเบต้า) ดังนั้นการหาพารามิเตอร์ของการกระจายหลังเบต้าเราเพียงแค่เพิ่ม handers ซ้ายไปและ handers ขวาไป\ความแปรปรวนด้านหลังคือBeta(z+α,Nz+β)NzπLH(z+α)/(N+α+β)zαNzβ(z+α)(Nz+β)(N+α+β)2(N+α+β+1). โปรดทราบว่าข้อมูลที่มีมาก่อนสูงนำไปสู่ความแปรปรวนเล็ก ๆ ของการกระจายหลัง (กราฟด้านล่างแสดงให้เห็นถึงจุดที่ดี)

ในกรณีของคุณและและคุณก่อนเป็นชุดซึ่งเป็น uninformative ดังนั้น1 กระจายหลังของคุณจึงเป็น17) หลังหมายถึงคือ\นี่คือกราฟที่แสดงถึงความน่าจะเป็นของข้อมูลและด้านหลังz=2N=18α=β=1Beta(3,17)π¯LH=3/(3+17)=0.15

ก่อนหน้านี้มีโอกาสของข้อมูลและการกระจายหลังด้วยเครื่องแบบก่อน

คุณเห็นว่าเนื่องจากการกระจายก่อนหน้าของคุณไม่เป็นทางการการกระจายหลังของคุณจะถูกขับเคลื่อนโดยข้อมูลทั้งหมด พล็อตก็เป็นช่วงความหนาแน่นสูงสุด (HDI) สำหรับการกระจายหลัง ลองนึกภาพว่าคุณวางการแจกแจงแบบหลังลงในอ่างแบบ 2D และเริ่มเติมน้ำจนกระทั่ง 95% ของการกระจายอยู่เหนือแนวน้ำ จุดที่เส้นแบ่งน้ำกับการกระจายด้านหลังประกอบด้วย 95% -HDI ทุกจุดภายใน HDI มีความน่าจะเป็นสูงกว่าจุดใด ๆ ภายนอก นอกจากนี้ HDI ยังรวมจุดสูงสุดของการกระจายหลัง (เช่นโหมด) เสมอ HDI นั้นแตกต่างจากช่วงเวลาที่น่าเชื่อถือเท่ากัน 95% โดยที่ 2.5% จากส่วนท้ายแต่ละส่วนของหลังถูกแยกออก (ดูที่นี่ )

สำหรับภารกิจที่สองของคุณคุณจะถูกขอให้รวมข้อมูลที่ 5-20% ของประชากรเป็นคนถนัดซ้ายเข้าบัญชี มีหลายวิธีในการทำเช่นนั้น วิธีที่ง่ายที่สุดคือจะบอกว่าการกระจายเบต้าก่อนควรจะมีค่าเฉลี่ยอยู่ที่ซึ่งเป็นค่าเฉลี่ยและ0.2แต่จะเลือกและของการกระจายเบต้าก่อนหน้าได้อย่างไร ครั้งแรกที่คุณต้องการของคุณหมายถึงการกระจายก่อนที่จะเป็นจากหลอกตัวอย่างเทียบเท่าขนาดของกลุ่มตัวอย่าง{} โดยทั่วไปหากคุณต้องการให้ก่อนหน้านี้มีค่าเฉลี่ยด้วยขนาดตัวอย่างเครื่องหมายสอดคล้องกัน0.1250.050.2αβ0.125neqmneqαและค่าคือ:และ{} สิ่งที่คุณต้องทำตอนนี้คือการเลือกขนาดตัวอย่างซึ่งกำหนดความมั่นใจของคุณเกี่ยวกับข้อมูลก่อนหน้านี้ สมมติว่าคุณแน่ใจว่ามากเกี่ยวกับข้อมูลก่อนที่คุณและตั้งn_พารามิเตอร์ของการกระจายก่อนของคุณ thereoreและ875 การกระจายหลังคือมีค่าเฉลี่ยประมาณซึ่งใกล้เคียงกับค่าเฉลี่ยก่อนหน้าของβα=mneqβ=(1m)neqneqneq=1000α=0.1251000=125β=(10.125)1000=875Beta(127,891)0.1250.125. ข้อมูลก่อนหน้ามีอำนาจเหนือหลัง (ดูกราฟต่อไปนี้):

ก่อนหน้านี้มีโอกาสของข้อมูลและการกระจายหลังด้วยข้อมูลที่แข็งแกร่งก่อน

หากคุณไม่แน่ใจเกี่ยวกับข้อมูลก่อนหน้านี้คุณสามารถตั้งค่าของตัวอย่างเทียมของคุณเป็นพูดซึ่งให้ผลลัพธ์และสำหรับการกระจายเบต้าก่อนหน้าของคุณ การกระจายหลังเป็นโดยมีค่าเฉลี่ยประมาณ0.116ค่าเฉลี่ยด้านหลังตอนนี้อยู่ใกล้ค่าเฉลี่ยของข้อมูลของคุณ ( ) เพราะข้อมูลครอบงำก่อนหน้านี้ นี่คือกราฟแสดงสถานการณ์:neq10α=1.25β=8.75Beta(3.25,24.75)0.1160.111

ก่อนหน้านี้ความน่าจะเป็นของข้อมูลและการกระจายหลังด้วยเบต้าก่อนหน้านี้สอดคล้องกับขนาดตัวอย่างหลอก 3

วิธีการที่สูงขึ้นของการผสมผสานข้อมูลก่อนที่จะบอกว่า quantile ของการกระจายเบต้าก่อนที่คุณควรจะเกี่ยวกับและ quantile ควรจะประมาณ0.2นี่เท่ากับการบอกว่าคุณแน่ใจแล้ว 95% ว่าสัดส่วนของคนถนัดซ้ายในประชากรอยู่ระหว่าง 5% ถึง 20% ฟังก์ชั่นในแพ็คเกจ R คำนวณค่าและสอดคล้องกันของการแจกแจงแบบเบต้าที่สอดคล้องกับปริมาณดังกล่าว รหัสคือ0.0250.050.9750.2beta.selectLearnBayesαβ

library(LearnBayes)

quantile1=list(p=.025, x=0.05)     # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2)      # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)

[1]  7.61 59.13

ดูเหมือนว่าการแจกแจงแบบเบต้าที่มีพารามิเตอร์และมีคุณสมบัติที่ต้องการ ค่าเฉลี่ยก่อนหน้าคือซึ่งใกล้กับค่าเฉลี่ยของข้อมูลของคุณ ( ) อีกครั้งนี้กระจายก่อนที่จะรวมเอาข้อมูลของหลอกตัวอย่างของขนาดตัวอย่างเท่ากับเกี่ยวกับ66.74 การกระจายหลังคือมีค่าเฉลี่ยซึ่งเทียบได้กับค่าเฉลี่ยของการวิเคราะห์ก่อนหน้าโดยใช้ข้อมูลก่อน นี่คือกราฟที่เกี่ยวข้อง:α=7.61β=59.137.61/(7.61+59.13)0.1140.111neq7.61+59.1366.74Beta(9.61,75.13)0.113Beta(125,875)

ก่อนหน้านี้ความน่าจะเป็นของข้อมูลและการกระจายด้านหลังด้วยก่อนหน้านี้ที่มี 0.05 และ 0.975 quantiles ของ 0.05 และ 0.2

ดูข้อมูลอ้างอิงนี้สำหรับภาพรวมสั้น ๆ แต่ที่น่าสนใจเกี่ยวกับการใช้เหตุผลแบบเบย์และการวิเคราะห์อย่างง่าย แนะนำอีกต่อไปสำหรับผันวิเคราะห์โดยเฉพาะอย่างยิ่งสำหรับข้อมูลทวินามสามารถพบได้ที่นี่ ความรู้ทั่วไปในการคิดแบบเบย์สามารถพบได้ที่นี่ ภาพนิ่งเพิ่มเติมเกี่ยวกับแง่มุมของสถิติ Baysian อยู่ที่นี่


1
ทำไมเราถึงเลือกการกระจายเบต้าที่นี่
Metariat

1
@Metallica เหตุผลหลักคือเบต้าเป็นคอนจูเกตก่อนการแจกแจงทวินาม ซึ่งหมายความว่าหากเราเลือกเบต้าก่อนหน้านี้ผู้หลังจะเป็นเบต้า เหตุผลเพิ่มเติมคือเบต้าอยู่ระหว่าง 0 ถึง 1 และยืดหยุ่นได้มาก มันรวมถึงเครื่องแบบเช่น แต่การแจกจ่ายที่เหมาะสมด้วยการสนับสนุนในสามารถนำมาใช้ได้เหมือนก่อน เป็นเพียงว่าหลังเป็นเรื่องยากในการคำนวณ (0,1)
COOLSerdash

คุณยังมีเอกสารสำหรับ "แนะนำการคิดแบบเบย์" หรือไม่? ลิงก์ Dropbox นั้นตายแล้ว
bs7280

@ bs7280 ฉันได้อัปเดตลิงก์แล้ว พวกเขาควรจะทำงานอีกครั้งในขณะนี้
COOLSerdash

1
@meduz พูดอย่างเคร่งครัดไม่มีจริง "uninformative" ก่อน ฉันอยากจะแนะนำคุณถึงคำตอบที่ยอดเยี่ยมโดยทิมในการสนทนานี้
COOLSerdash

8

การแจกแจงแบบเบต้าด้วย = 1 และ = 1 จะเหมือนกับการแจกแจงแบบสม่ำเสมอ ดังนั้นในความเป็นจริงแล้วเป็นรูปแบบเดียวกัน คุณกำลังพยายามค้นหาข้อมูลเกี่ยวกับพารามิเตอร์ของการแจกจ่าย (ในกรณีนี้เปอร์เซ็นต์ของคนที่ถนัดมือซ้ายในกลุ่มคน) สถานะสูตร Bayes:αβ

P(r|Y1,...,n) =P(Y1,...,n|r)P(r)P(Y1,...,n|θ)P(r)

ซึ่งคุณชี้ให้เห็นนั้นเป็นสัดส่วนกับ:

P(r|Y1,...,n) (Y1,...,n|r)P(r)

โดยพื้นฐานแล้วคุณเริ่มจากความเชื่อเดิมของคุณเกี่ยวกับสัดส่วนของคนถนัดมือซ้ายในกลุ่ม (P (r) ซึ่งคุณใช้เครื่องแบบระยะห่าง) แล้วพิจารณาข้อมูลที่คุณเก็บรวบรวมเพื่อแจ้งให้คุณทราบล่วงหน้า (ทวินาม) ในกรณีนี้ไม่ว่าคุณจะถนัดขวาหรือถนัดมือซ้ายดังนั้น ) การแจกแจงแบบทวินามมีการรวมกลุ่มเบต้าก่อนหน้าซึ่งหมายความว่าการกระจายหลังP(Y1,...,n|r)P(r|Y1,...n)การกระจายตัวของพารามิเตอร์หลังจากพิจารณาข้อมูลที่อยู่ในตระกูลเดียวกันกับก่อนหน้านี้ ในที่สุดก็ไม่มีใครรู้เรื่องนี้ (และตรงไปตรงมามันไม่ได้มาก่อนรวบรวมข้อมูลเรามีความคิดที่ดีเกี่ยวกับสัดส่วนของคนถนัดซ้ายในสังคม) คุณมีทั้งการแจกแจงก่อนหน้า (สมมติฐานของ r) และคุณรวบรวมข้อมูล และรวมทั้งสองเข้าด้วยกัน ด้านหลังเป็นข้อสันนิษฐานใหม่ของคุณเกี่ยวกับการกระจายของคนถนัดซ้ายหลังจากพิจารณาข้อมูล ดังนั้นคุณใช้โอกาสของข้อมูลและคูณด้วยเครื่องแบบ คาดว่าค่าตัวของการกระจายเบต้า (ซึ่งเป็นสิ่งโปสเตอร์เป็น) จะเบต้า} ดังนั้นเมื่อคุณเริ่มต้นสมมติฐานของคุณกับ = 1 และαα+βαβ= 1 คือการที่สัดส่วนของ handers ซ้ายในโลกคือ{2} ตอนนี้คุณได้รวบรวมข้อมูลที่เหลือ 2 จาก 18 คุณได้คำนวณผู้หลัง (ยังคงเป็นเบต้า) ตอนนี้ค่าและของคุณแตกต่างกันแล้วเปลี่ยนความคิดของคุณเกี่ยวกับสัดส่วนของ lefties vs. righties มันเปลี่ยนไปอย่างไร12αβ


1

ในส่วนแรกของคำถามของคุณมันขอให้คุณกำหนดที่เหมาะสมก่อนสำหรับ "r" ด้วยข้อมูลทวินามในมือคุณควรเลือกการแจกแจงแบบเบต้า เพราะหลังจากนั้นจะเป็นรุ่นเบต้า Uniform ditribution เป็นกรณีพิเศษของเบต้าคุณสามารถเลือกก่อนว่า "r" การกระจาย Uniform ทำให้ทุกค่าที่เป็นไปได้ของ "r" น่าจะเท่ากัน

ในส่วนที่สองคุณได้ให้ข้อมูลเกี่ยวกับการแจกจ่ายก่อนหน้านี้ "r"

ด้วยวิธีนี้ในมือของ @COLSerdash คำตอบจะให้คำแนะนำที่เหมาะสม

ขอบคุณสำหรับการโพสต์คำถามนี้และ COOLSerdash สำหรับการให้คำตอบที่เหมาะสม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.