อะไรคือสิ่งที่เทียบเท่าแบบเบย์ของความดีทั่วไปของการทดสอบแบบเต็ม?


25

ฉันมีชุดข้อมูลสองชุดชุดหนึ่งจากชุดการสังเกตการณ์ทางกายภาพ (อุณหภูมิ) และอีกชุดจากชุดตัวเลข ฉันกำลังทำการวิเคราะห์แบบจำลองที่สมบูรณ์แบบสมมติว่าชุดรูปแบบแสดงตัวอย่างที่แท้จริงอิสระและการตรวจสอบเพื่อดูว่าการสังเกตนั้นมาจากการแจกแจงนั้นหรือไม่ สถิติที่ฉันคำนวณได้ถูกทำให้เป็นมาตรฐานและในทางทฤษฎีควรจะมีการแจกแจงแบบปกติมาตรฐาน แน่นอนว่ามันไม่สมบูรณ์แบบดังนั้นฉันต้องการทดสอบความดีที่ลงตัว

ด้วยการใช้เหตุผลแบบประจำฉันสามารถคำนวณสถิติCramér-von Mises (หรือ Kolmogorov-Smirnov ฯลฯ ) หรือที่คล้ายกันและค้นหาค่าในตารางเพื่อรับค่า p เพื่อช่วยฉันตัดสินใจว่าค่าที่ฉันไม่น่าจะเป็นไปได้คืออะไร เห็นคือให้สังเกตเป็นแบบเดียวกับที่

สิ่งที่เทียบเท่ากับ Bayesian ของกระบวนการนี้จะเป็นอย่างไร นั่นคือฉันจะวัดความแข็งแกร่งของความเชื่อของฉันได้อย่างไรว่าการแจกแจงสองแบบนี้ (สถิติที่คำนวณได้และมาตรฐานทั่วไป) แตกต่างกันอย่างไร


บางสิ่งเช่นนี้อาจเหมาะกับใบเสร็จ
สีฟ้า

คำตอบ:


23

ฉันอยากจะแนะนำหนังสือการวิเคราะห์ข้อมูลแบบเบส์เป็นแหล่งข้อมูลที่ยอดเยี่ยมสำหรับการตอบคำถามนี้ (โดยเฉพาะตอนที่ 6) และทุกสิ่งที่ฉันจะพูด แต่หนึ่งในวิธีปกติที่ Bayesians โจมตีปัญหานี้คือการใช้ Posterior Predictive P (PPPs) ก่อนที่ฉันจะข้ามไปยังวิธี PPPs จะแก้ปัญหานี้ให้ฉันก่อนกำหนดสัญกรณ์ต่อไปนี้:

ให้เป็นข้อมูลที่สังเกตได้และเป็นเวกเตอร์ของพารามิเตอร์ เรากำหนดเป็นจำลองแบบข้อมูลที่จะได้รับการปฏิบัติหรือจะคิด predictively เป็นข้อมูลที่เราจะเห็นในวันพรุ่งนี้ถ้าการทดลองที่ผลิตวันนี้ถูกจำลองแบบที่มีรูปแบบเดียวกันและเหมือนกัน ค่าของที่สร้างข้อมูลที่สังเกตได้θ y rep y θyθyrepyθ

หมายเหตุเราจะกำหนดการแจกแจงของเนื่องจากสถานะปัจจุบันของความรู้กับการกระจายการทำนายหลัง P ( Y ตัวแทน | Y ) = Θ P ( Y ตัวแทน | θ ) P ( θ | Y ) d θyrep

p(yrep|y)=Θp(yrep|θ)p(θ|y)dθ

ตอนนี้เราสามารถวัดความคลาดเคลื่อนระหว่างแบบจำลองและข้อมูลโดยการกำหนดปริมาณการทดสอบลักษณะของข้อมูลที่เราต้องการตรวจสอบ ปริมาณการทดสอบหรือการวัดความแตกต่าง , , เป็นบทสรุปเกลาของพารามิเตอร์และข้อมูลที่ถูกนำมาใช้เป็นมาตรฐานเมื่อเปรียบเทียบข้อมูลแบบจำลองการคาดการณ์ ปริมาณการทดสอบมีบทบาทในการตรวจสอบตัวแบบเบย์ที่สถิติการทดสอบมีบทบาทในการทดสอบแบบดั้งเดิม เรากำหนดสัญกรณ์สำหรับสถิติการทดสอบซึ่งเป็นปริมาณการทดสอบที่ขึ้นอยู่กับข้อมูลเท่านั้น ในบริบทของเบย์เราสามารถสรุปสถิติการทดสอบเพื่อให้สามารถพึ่งพาพารามิเตอร์ของโมเดลภายใต้การแจกแจงหลังT ( y )T(y,θ)T(y)

คลาสสิกที่ p-value สำหรับการทดสอบทางสถิติเป็น ที่น่าจะถูกนำมา มากกว่าการกระจายของกับคงที่p C = Pr ( T ( y rep ) T ( y ) | θ ) y rep θT(y)

pC=Pr(T(yrep)T(y)|θ)
yrepθ

จากมุมมองของเบย์การขาดความพอดีของข้อมูลที่เกี่ยวกับการแจกแจงการทำนายหลังสามารถวัดได้จากความน่าจะเป็นพื้นที่หางหรือ p-value ของปริมาณการทดสอบและคำนวณโดยใช้การจำลองหลังของ{ตัวแทน}}) ในวิธีการแบบเบย์ปริมาณการทดสอบสามารถใช้เป็นฟังก์ชันของพารามิเตอร์ที่ไม่รู้จักเช่นเดียวกับข้อมูลเนื่องจากปริมาณการทดสอบจะถูกประเมินมากกว่าการดึงจากการกระจายหลังของพารามิเตอร์ที่ไม่รู้จัก(θ,yrep)

ตอนนี้เราสามารถกำหนด Bayesian p-value (PPPs) เป็นความน่าจะเป็นที่ข้อมูลที่ถูกจำลองอาจมีความรุนแรงมากกว่าข้อมูลที่สังเกตได้ซึ่งวัดจากปริมาณการทดสอบ: โดยที่ความน่าจะเป็นนำไปสู่การกระจายหลังของและการกระจายการทำนายหลังของ (นั่น คือการกระจายข้อต่อ, ): ที่คือฟังก์ชันตัวบ่งชี้ ในทางปฏิบัติเรามักจะคำนวณการแจกแจงการทำนายหลังโดยใช้แบบจำลอง

pB=Pr(T(yrep,θ)T(y,θ)|y)
θyrepp(θ,yrep|y)ผม
pB=ΘIT(yrep,θ)T(y|θ)p(yrep|θ)p(θ|y)dyrepdθ,
I

ถ้าเรามีอยู่แล้วพูดว่าจำลองจากการกระจายหลังของจากนั้นเราก็สามารถวาดหนึ่งจากการกระจายการทำนายสำหรับแต่ละจำลอง ; ตอนนี้เรามีดึงออกมาจากการกระจายหลังร่วมy) การตรวจสอบการทำนายหลังคือการเปรียบเทียบระหว่างปริมาณการทดสอบตระหนักและปริมาณการทดสอบทำนายL) ค่า p-value โดยประมาณเป็นเพียงสัดส่วนของการจำลองเหล่านี้ซึ่งปริมาณการทดสอบเท่ากับหรือสูงกว่ามูลค่าที่รับรู้ นั่นคือสิ่งที่θ y rep θ L p ( y rep , θ | y ) T ( y , θ l ) T ( y rep l , θ l ) L T ( y rep l , θ l ) T ( y , θ l ) l = 1 , . . , LθyrepθLp(yrep,θ|y)T(y,θl)T(yrepl,θl)L

T(yrepl,θl)T(y,θl)
สำหรับ L l=1,...,L

ตรงกันข้ามกับวิธีคลาสสิกการตรวจสอบโมเดลเบย์ไม่จำเป็นต้องใช้วิธีพิเศษในการจัดการ "พารามิเตอร์ที่น่ารำคาญ" โดยใช้แบบจำลองหลังเราเฉลี่ยโดยปริยายพารามิเตอร์ทั้งหมดในรูปแบบ

แหล่งที่มาเพิ่มเติม Andrew Gelman ยังมีกระดาษที่ดีมากใน PPP ที่นี่: http://www.stat.columbia.edu/~gelman/research/unpublished/ppc_understand2.pdf


3

ความเป็นไปได้ที่ง่ายอย่างหนึ่ง: การทดสอบอย่างนุ่มนวลของความดีของความพอดีเช่น [1] - ซึ่งเฟรมทางเลือกในแง่ของการเบี่ยงเบนอย่างราบรื่นจากโมฆะที่สร้างโดยพหุนามแบบฉากมุมฉาก ส่งต่อไปยังกรอบ Bayesian เนื่องจากค่าสัมประสิทธิ์ของพหุนามมีรูปแบบการขยายที่ยืดหยุ่น แต่พารามิเตอร์ของโมฆะ

[1]: เรย์เนอร์ JCW และดีเจที่ดีที่สุด (1990),
"มูทดสอบความสอดคล้อง: ภาพรวม"
รีวิวสถิติระหว่างประเทศ , 58 : 1. (APR), PP 9-17

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.