ฉันอยากจะแนะนำหนังสือการวิเคราะห์ข้อมูลแบบเบส์เป็นแหล่งข้อมูลที่ยอดเยี่ยมสำหรับการตอบคำถามนี้ (โดยเฉพาะตอนที่ 6) และทุกสิ่งที่ฉันจะพูด แต่หนึ่งในวิธีปกติที่ Bayesians โจมตีปัญหานี้คือการใช้ Posterior Predictive P (PPPs) ก่อนที่ฉันจะข้ามไปยังวิธี PPPs จะแก้ปัญหานี้ให้ฉันก่อนกำหนดสัญกรณ์ต่อไปนี้:
ให้เป็นข้อมูลที่สังเกตได้และเป็นเวกเตอร์ของพารามิเตอร์ เรากำหนดเป็นจำลองแบบข้อมูลที่จะได้รับการปฏิบัติหรือจะคิด predictively เป็นข้อมูลที่เราจะเห็นในวันพรุ่งนี้ถ้าการทดลองที่ผลิตวันนี้ถูกจำลองแบบที่มีรูปแบบเดียวกันและเหมือนกัน ค่าของที่สร้างข้อมูลที่สังเกตได้θ y rep y θYθYตัวแทนYθ
หมายเหตุเราจะกำหนดการแจกแจงของเนื่องจากสถานะปัจจุบันของความรู้กับการกระจายการทำนายหลัง
P ( Y ตัวแทน | Y ) = ∫ Θ P ( Y ตัวแทน | θ ) P ( θ | Y ) d θYตัวแทน
p ( yตัวแทน| Y) = ∫Θp ( yตัวแทน| θ)p(θ | y) dθ
ตอนนี้เราสามารถวัดความคลาดเคลื่อนระหว่างแบบจำลองและข้อมูลโดยการกำหนดปริมาณการทดสอบลักษณะของข้อมูลที่เราต้องการตรวจสอบ ปริมาณการทดสอบหรือการวัดความแตกต่าง , , เป็นบทสรุปเกลาของพารามิเตอร์และข้อมูลที่ถูกนำมาใช้เป็นมาตรฐานเมื่อเปรียบเทียบข้อมูลแบบจำลองการคาดการณ์ ปริมาณการทดสอบมีบทบาทในการตรวจสอบตัวแบบเบย์ที่สถิติการทดสอบมีบทบาทในการทดสอบแบบดั้งเดิม เรากำหนดสัญกรณ์สำหรับสถิติการทดสอบซึ่งเป็นปริมาณการทดสอบที่ขึ้นอยู่กับข้อมูลเท่านั้น ในบริบทของเบย์เราสามารถสรุปสถิติการทดสอบเพื่อให้สามารถพึ่งพาพารามิเตอร์ของโมเดลภายใต้การแจกแจงหลังT ( y )T( y, θ )T( y)
คลาสสิกที่ p-value สำหรับการทดสอบทางสถิติเป็น
ที่น่าจะถูกนำมา มากกว่าการกระจายของกับคงที่p C = Pr ( T ( y rep ) ≥ T ( y ) | θ ) y rep θT( y)
พีC= Pr ( T( yตัวแทน) ≥ T( y) | θ )
Yตัวแทนθ
จากมุมมองของเบย์การขาดความพอดีของข้อมูลที่เกี่ยวกับการแจกแจงการทำนายหลังสามารถวัดได้จากความน่าจะเป็นพื้นที่หางหรือ p-value ของปริมาณการทดสอบและคำนวณโดยใช้การจำลองหลังของ{ตัวแทน}}) ในวิธีการแบบเบย์ปริมาณการทดสอบสามารถใช้เป็นฟังก์ชันของพารามิเตอร์ที่ไม่รู้จักเช่นเดียวกับข้อมูลเนื่องจากปริมาณการทดสอบจะถูกประเมินมากกว่าการดึงจากการกระจายหลังของพารามิเตอร์ที่ไม่รู้จัก( θ , yตัวแทน)
ตอนนี้เราสามารถกำหนด Bayesian p-value (PPPs) เป็นความน่าจะเป็นที่ข้อมูลที่ถูกจำลองอาจมีความรุนแรงมากกว่าข้อมูลที่สังเกตได้ซึ่งวัดจากปริมาณการทดสอบ:
โดยที่ความน่าจะเป็นนำไปสู่การกระจายหลังของและการกระจายการทำนายหลังของ (นั่น คือการกระจายข้อต่อ, ):
ที่คือฟังก์ชันตัวบ่งชี้ ในทางปฏิบัติเรามักจะคำนวณการแจกแจงการทำนายหลังโดยใช้แบบจำลอง
พีB= Pr ( T( yตัวแทน, θ ) ≥ T( y, θ ) | Y)
θyrepp(θ,yrep|y)ผมpB=∬ΘIT(yrep,θ)≥T(y|θ)p(yrep|θ)p(θ|y)dyrepdθ,
I
ถ้าเรามีอยู่แล้วพูดว่าจำลองจากการกระจายหลังของจากนั้นเราก็สามารถวาดหนึ่งจากการกระจายการทำนายสำหรับแต่ละจำลอง ; ตอนนี้เรามีดึงออกมาจากการกระจายหลังร่วมy) การตรวจสอบการทำนายหลังคือการเปรียบเทียบระหว่างปริมาณการทดสอบตระหนักและปริมาณการทดสอบทำนายL) ค่า p-value โดยประมาณเป็นเพียงสัดส่วนของการจำลองเหล่านี้ซึ่งปริมาณการทดสอบเท่ากับหรือสูงกว่ามูลค่าที่รับรู้ นั่นคือสิ่งที่θ y rep θ L p ( y rep , θ | y ) T ( y , θ l ) T ( y rep l , θ l ) L T ( y rep l , θ l ) ≥ T ( y , θ l ) l = 1 , . . , ลLθyrepθLp(yrep,θ|y)T(y,θl)T(yrepl,θl)L
T(yrepl,θl)≥T(y,θl)
สำหรับ L
l=1,...,L
ตรงกันข้ามกับวิธีคลาสสิกการตรวจสอบโมเดลเบย์ไม่จำเป็นต้องใช้วิธีพิเศษในการจัดการ "พารามิเตอร์ที่น่ารำคาญ" โดยใช้แบบจำลองหลังเราเฉลี่ยโดยปริยายพารามิเตอร์ทั้งหมดในรูปแบบ
แหล่งที่มาเพิ่มเติม Andrew Gelman ยังมีกระดาษที่ดีมากใน PPP ที่นี่:
http://www.stat.columbia.edu/~gelman/research/unpublished/ppc_understand2.pdf