ก่อนอื่นให้ฉันอธิบายสิ่งที่ผันก่อนหน้าคือ ฉันจะอธิบายการวิเคราะห์แบบเบย์โดยใช้ตัวอย่างเฉพาะของคุณ สถิติแบบเบย์เกี่ยวข้องกับขั้นตอนต่อไปนี้:
- กำหนดการกระจายก่อนหน้านี้ที่รวมความเชื่อส่วนตัวของคุณเกี่ยวกับพารามิเตอร์ (ในตัวอย่างของคุณพารามิเตอร์ที่น่าสนใจคือสัดส่วนของคนถนัดซ้าย) ก่อนหน้านี้อาจเป็น "uninformative" หรือ "informative" (แต่ไม่มีก่อนหน้านี้ที่ไม่มีข้อมูลให้ดูการสนทนาที่นี่ )
- รวบรวมข้อมูล
- อัปเดตการแจกจ่ายก่อนหน้าของคุณด้วยข้อมูลโดยใช้ทฤษฎีบทของเบย์เพื่อรับการแจกแจงด้านหลัง การแจกแจงหลังคือการแจกแจงความน่าจะเป็นซึ่งแสดงถึงความเชื่อที่คุณได้รับเกี่ยวกับพารามิเตอร์หลังจากที่ได้เห็นข้อมูล
- วิเคราะห์การกระจายของหลังและสรุป (เฉลี่ย, SD, ควอนไทล์, ... )
พื้นฐานของสถิติเบย์ทั้งหมดคือทฤษฎีบทของเบย์ซึ่งก็คือ
posterior∝prior×likelihood
ในกรณีของคุณโอกาสที่จะเป็นแบบทวินาม หากการกระจายก่อนหน้าและหลังอยู่ในตระกูลเดียวกันก่อนและหลังถูกเรียกว่าการแจกแจงแบบคอนจูเกต การกระจายเบต้าเป็นคอนจูเกตก่อนหน้านี้เพราะหลังเป็นการกระจายเบต้า เราบอกว่าการแจกแจงค่าเบต้าเป็นตระกูลคอนจูเกตสำหรับความน่าจะเป็นทวินาม การวิเคราะห์คอนจูเกตนั้นสะดวก แต่ไม่ค่อยเกิดขึ้นในปัญหาจริง ในกรณีส่วนใหญ่การกระจายหลังจะต้องพบตัวเลขผ่าน MCMC (โดยใช้ Stan, WinBUGS, OpenBUGS, JAGS, PyMC หรือโปรแกรมอื่น ๆ )
ถ้าการกระจายความน่าจะเป็นก่อนหน้าไม่ได้รวมเข้ากับ 1 มันจะถูกเรียกว่าไม่เหมาะสมก่อนถ้ามันรวมเข้ากับ 1 มันจะถูกเรียกว่าเหมาะสมก่อน ในกรณีส่วนใหญ่การไม่เหมาะสมก่อนหน้านั้นไม่ก่อให้เกิดปัญหาใหญ่สำหรับการวิเคราะห์แบบเบย์ การกระจายด้านหลังจะต้องเหมาะสมแม้ว่าเช่นหลังต้องรวมถึง 1
กฎของหัวแม่มือเหล่านี้ปฏิบัติตามโดยตรงจากธรรมชาติของกระบวนการวิเคราะห์แบบเบย์:
- หากก่อนหน้านี้ไม่มีข้อมูลใหม่ผู้หลังถูกกำหนดโดยข้อมูลเป็นอย่างมาก (ด้านหลังเป็นแบบข้อมูล)
- หากก่อนหน้านี้เป็นข้อมูลผู้หลังเป็นส่วนผสมของข้อมูลก่อนหน้าและข้อมูล
- ยิ่งคุณให้ข้อมูลมากเท่าไหร่คุณก็ยิ่งจำเป็นต้อง "เปลี่ยน" ความเชื่อของคุณมากขึ้นเท่านั้นดังนั้นควรพูดเพราะด้านหลังเป็นแรงผลักดันจากข้อมูลก่อนหน้า
- หากคุณมีข้อมูลจำนวนมากข้อมูลจะครอบงำการกระจายหลัง (พวกเขาจะครอบงำก่อน)
ภาพรวมที่ยอดเยี่ยมของบางอย่างที่เป็นไปได้ "ข้อมูล" และ "ไม่เป็นทางการ" สำหรับการแจกแจงเบต้าสามารถพบได้ในโพสต์นี้
สมมติว่ารุ่นก่อนหน้าของคุณคือโดยที่เป็นสัดส่วนของคนถนัดซ้าย ในการระบุพารามิเตอร์ก่อนหน้าและจะมีประโยชน์ที่จะทราบค่าเฉลี่ยและความแปรปรวนของการแจกแจงเบต้า (ตัวอย่างเช่นหากคุณต้องการให้ก่อนหน้านี้มีค่าเฉลี่ยและความแปรปรวนบางอย่าง) ค่าเฉลี่ยอยู่ในเบต้า) ดังนั้นเมื่อใดก็ตามที่ค่าเฉลี่ยเป็น0.5ความแปรปรวนของการกระจายเบต้าคือ1)} ตอนนี้สิ่งที่สะดวกคือคุณสามารถคิดถึงและBeta(πLH|α,β)πLHαβπ¯LH=α/(α+β)α=β0.5αβ(α+β)2(α+β+1)αβเป็นข้อสังเกตก่อนหน้านี้ข้อมูล (หลอก) คือซ้ายมือขวาและ handers ขวาออกจาก (หลอก) ตัวอย่างขนาด\ การกระจายการกระจายคือเครื่องแบบ (ค่าทั้งหมดของมีความเป็นไปได้เท่าเทียมกัน) และเทียบเท่ากับการสังเกตคนสองคน ซึ่งหนึ่งคือซ้ายมือและหนึ่งคือขวามือαβneq=α+βBeta(πLH|α=1,β=1)πLH
การกระจายเบต้าหลังเป็นเพียงโดยที่คือขนาดของตัวอย่างและคือจำนวนของคนถนัดซ้ายในตัวอย่าง ค่าเฉลี่ยหลังของจึงเบต้า) ดังนั้นการหาพารามิเตอร์ของการกระจายหลังเบต้าเราเพียงแค่เพิ่ม handers ซ้ายไปและ handers ขวาไป\ความแปรปรวนด้านหลังคือBeta(z+α,N−z+β)NzπLH(z+α)/(N+α+β)zαN−zβ(z+α)(N−z+β)(N+α+β)2(N+α+β+1). โปรดทราบว่าข้อมูลที่มีมาก่อนสูงนำไปสู่ความแปรปรวนเล็ก ๆ ของการกระจายหลัง (กราฟด้านล่างแสดงให้เห็นถึงจุดที่ดี)
ในกรณีของคุณและและคุณก่อนเป็นชุดซึ่งเป็น uninformative ดังนั้น1 กระจายหลังของคุณจึงเป็น17) หลังหมายถึงคือ\นี่คือกราฟที่แสดงถึงความน่าจะเป็นของข้อมูลและด้านหลังz=2N=18α=β=1Beta(3,17)π¯LH=3/(3+17)=0.15
คุณเห็นว่าเนื่องจากการกระจายก่อนหน้าของคุณไม่เป็นทางการการกระจายหลังของคุณจะถูกขับเคลื่อนโดยข้อมูลทั้งหมด พล็อตก็เป็นช่วงความหนาแน่นสูงสุด (HDI) สำหรับการกระจายหลัง ลองนึกภาพว่าคุณวางการแจกแจงแบบหลังลงในอ่างแบบ 2D และเริ่มเติมน้ำจนกระทั่ง 95% ของการกระจายอยู่เหนือแนวน้ำ จุดที่เส้นแบ่งน้ำกับการกระจายด้านหลังประกอบด้วย 95% -HDI ทุกจุดภายใน HDI มีความน่าจะเป็นสูงกว่าจุดใด ๆ ภายนอก นอกจากนี้ HDI ยังรวมจุดสูงสุดของการกระจายหลัง (เช่นโหมด) เสมอ HDI นั้นแตกต่างจากช่วงเวลาที่น่าเชื่อถือเท่ากัน 95% โดยที่ 2.5% จากส่วนท้ายแต่ละส่วนของหลังถูกแยกออก (ดูที่นี่ )
สำหรับภารกิจที่สองของคุณคุณจะถูกขอให้รวมข้อมูลที่ 5-20% ของประชากรเป็นคนถนัดซ้ายเข้าบัญชี มีหลายวิธีในการทำเช่นนั้น วิธีที่ง่ายที่สุดคือจะบอกว่าการกระจายเบต้าก่อนควรจะมีค่าเฉลี่ยอยู่ที่ซึ่งเป็นค่าเฉลี่ยและ0.2แต่จะเลือกและของการกระจายเบต้าก่อนหน้าได้อย่างไร ครั้งแรกที่คุณต้องการของคุณหมายถึงการกระจายก่อนที่จะเป็นจากหลอกตัวอย่างเทียบเท่าขนาดของกลุ่มตัวอย่าง{} โดยทั่วไปหากคุณต้องการให้ก่อนหน้านี้มีค่าเฉลี่ยด้วยขนาดตัวอย่างเครื่องหมายสอดคล้องกัน0.1250.050.2αβ0.125neqmneqαและค่าคือ:และ{} สิ่งที่คุณต้องทำตอนนี้คือการเลือกขนาดตัวอย่างซึ่งกำหนดความมั่นใจของคุณเกี่ยวกับข้อมูลก่อนหน้านี้ สมมติว่าคุณแน่ใจว่ามากเกี่ยวกับข้อมูลก่อนที่คุณและตั้งn_พารามิเตอร์ของการกระจายก่อนของคุณ thereoreและ875 การกระจายหลังคือมีค่าเฉลี่ยประมาณซึ่งใกล้เคียงกับค่าเฉลี่ยก่อนหน้าของβα=mneqβ=(1−m)neqneqneq=1000α=0.125⋅1000=125β=(1−0.125)⋅1000=875Beta(127,891)0.1250.125. ข้อมูลก่อนหน้ามีอำนาจเหนือหลัง (ดูกราฟต่อไปนี้):
หากคุณไม่แน่ใจเกี่ยวกับข้อมูลก่อนหน้านี้คุณสามารถตั้งค่าของตัวอย่างเทียมของคุณเป็นพูดซึ่งให้ผลลัพธ์และสำหรับการกระจายเบต้าก่อนหน้าของคุณ การกระจายหลังเป็นโดยมีค่าเฉลี่ยประมาณ0.116ค่าเฉลี่ยด้านหลังตอนนี้อยู่ใกล้ค่าเฉลี่ยของข้อมูลของคุณ ( ) เพราะข้อมูลครอบงำก่อนหน้านี้ นี่คือกราฟแสดงสถานการณ์:neq10α=1.25β=8.75Beta(3.25,24.75)0.1160.111
วิธีการที่สูงขึ้นของการผสมผสานข้อมูลก่อนที่จะบอกว่า quantile ของการกระจายเบต้าก่อนที่คุณควรจะเกี่ยวกับและ quantile ควรจะประมาณ0.2นี่เท่ากับการบอกว่าคุณแน่ใจแล้ว 95% ว่าสัดส่วนของคนถนัดซ้ายในประชากรอยู่ระหว่าง 5% ถึง 20% ฟังก์ชั่นในแพ็คเกจ R คำนวณค่าและสอดคล้องกันของการแจกแจงแบบเบต้าที่สอดคล้องกับปริมาณดังกล่าว รหัสคือ0.0250.050.9750.2beta.select
LearnBayes
αβ
library(LearnBayes)
quantile1=list(p=.025, x=0.05) # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2) # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)
[1] 7.61 59.13
ดูเหมือนว่าการแจกแจงแบบเบต้าที่มีพารามิเตอร์และมีคุณสมบัติที่ต้องการ ค่าเฉลี่ยก่อนหน้าคือซึ่งใกล้กับค่าเฉลี่ยของข้อมูลของคุณ ( ) อีกครั้งนี้กระจายก่อนที่จะรวมเอาข้อมูลของหลอกตัวอย่างของขนาดตัวอย่างเท่ากับเกี่ยวกับ66.74 การกระจายหลังคือมีค่าเฉลี่ยซึ่งเทียบได้กับค่าเฉลี่ยของการวิเคราะห์ก่อนหน้าโดยใช้ข้อมูลก่อน นี่คือกราฟที่เกี่ยวข้อง:α=7.61β=59.137.61/(7.61+59.13)≈0.1140.111neq≈7.61+59.13≈66.74Beta(9.61,75.13)0.113Beta(125,875)
ดูข้อมูลอ้างอิงนี้สำหรับภาพรวมสั้น ๆ แต่ที่น่าสนใจเกี่ยวกับการใช้เหตุผลแบบเบย์และการวิเคราะห์อย่างง่าย แนะนำอีกต่อไปสำหรับผันวิเคราะห์โดยเฉพาะอย่างยิ่งสำหรับข้อมูลทวินามสามารถพบได้ที่นี่ ความรู้ทั่วไปในการคิดแบบเบย์สามารถพบได้ที่นี่ ภาพนิ่งเพิ่มเติมเกี่ยวกับแง่มุมของสถิติ Baysian อยู่ที่นี่