อัตราส่วนความน่าจะเป็นเทียบกับปัจจัย Bayes


61

ฉันค่อนข้างเป็นผู้เผยแพร่ศาสนาที่เกี่ยวกับการใช้อัตราส่วนโอกาสในการเป็นตัวแทนหลักฐานวัตถุประสงค์สำหรับ / ต่อปรากฏการณ์ที่กำหนด อย่างไรก็ตามเมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ว่าปัจจัย Bayes ทำหน้าที่คล้ายกันในบริบทของวิธีการแบบเบย์ (เช่นอัตนัยก่อนหน้านี้รวมกับปัจจัย Bayes เป้าหมายเพื่อให้ได้สถานะความเชื่อทางอัตวิสัยที่อัปเดตอย่างเป็นกลาง) ตอนนี้ฉันพยายามที่จะเข้าใจความแตกต่างของการคำนวณและปรัชญาระหว่างอัตราส่วนความน่าจะเป็นและปัจจัยของเบย์

ในระดับการคำนวณฉันเข้าใจว่าในขณะที่อัตราส่วนความน่าจะเป็นมักจะคำนวณโดยใช้ความน่าจะเป็นที่เป็นไปได้สูงสุดสำหรับแต่ละพารามิเตอร์ของแต่ละรุ่น (เช่นการประเมินโดยการตรวจสอบความถูกต้อง ความน่าจะเป็นที่แสดงถึงความน่าจะเป็นของแต่ละรุ่นที่รวมอยู่ในนั้นคือพื้นที่พารามิเตอร์ทั้งหมด (กล่าวคือไม่ใช่ที่ MLE) โดยทั่วไปแล้วการบูรณาการนี้ประสบความสำเร็จได้อย่างไร? มีใครลองทำการคำนวณความน่าจะเป็นที่แต่ละตัวอย่างสุ่มจากหลายพัน (ล้าน?) จากพื้นที่พารามิเตอร์หรือมีวิธีการวิเคราะห์เพื่อรวมความน่าจะเป็นในพื้นที่พารามิเตอร์หรือไม่? นอกจากนี้เมื่อคำนวณปัจจัย Bayes

นอกจากนี้อะไรคือความแตกต่างทางปรัชญาระหว่างอัตราส่วนความน่าจะเป็นและปัจจัย Bayes (หมายเหตุ: ฉันไม่ได้ถามเกี่ยวกับความแตกต่างทางปรัชญาระหว่างอัตราส่วนความน่าจะเป็นและวิธีการแบบเบย์โดยทั่วไป แต่ปัจจัย Bayes เป็นตัวแทนของ เราจะอธิบายลักษณะของความหมายของปัจจัย Bayes ได้อย่างไรเมื่อเทียบกับอัตราส่วนความน่าจะเป็น


5

1
หนังสือของChen, Shao และ Ibrahim (2000)อุทิศให้กับการคำนวณ Monte Carlo ของ Bayes factor
ซีอาน

คำตอบ:


36

เห็นได้ชัดว่าปัจจัยของ Bayes ใช้ความน่าจะเป็นที่แสดงถึงความน่าจะเป็นของแต่ละรุ่นที่รวมอยู่ในพื้นที่พารามิเตอร์ทั้งหมด (เช่นไม่ใช่ที่ MLE) โดยทั่วไปแล้วการบูรณาการนี้ประสบความสำเร็จได้อย่างไร? มีใครลองทำการคำนวณความน่าจะเป็นที่แต่ละตัวอย่างสุ่มจากหลายพัน (ล้าน?) จากพื้นที่พารามิเตอร์หรือมีวิธีการวิเคราะห์เพื่อรวมความน่าจะเป็นในพื้นที่พารามิเตอร์หรือไม่?

ก่อนอื่นสถานการณ์ใด ๆ ที่คุณพิจารณาคำเช่นสำหรับข้อมูลDและรุ่นMถือเป็นแบบจำลองความน่าจะเป็น นี่มักจะเป็นขนมปังและเนยของการวิเคราะห์ทางสถิติบ่อยครั้งหรือเบย์และนี่คือส่วนที่การวิเคราะห์ของคุณตั้งใจจะแนะนำคือแบบที่ดีหรือไม่ดี ดังนั้นเบย์จึงไม่ได้ทำสิ่งใดที่แตกต่างจากอัตราส่วนความน่าจะเป็นP(D|M)DM

การใส่ปัจจัยเบย์ไว้ในตำแหน่งที่ถูกต้องเป็นสิ่งสำคัญ เมื่อคุณมีสองรุ่นพูดและคุณแปลงจากความน่าจะเป็นเป็นอัตราต่อรองปัจจัย Bayes ทำหน้าที่เหมือนโอเปอเรเตอร์ตามความเชื่อเดิม:

PosteriorOdds=BayesFactorPriorOdds
P(M1|D)P(M2|D)=B.F.×P(M1)P(M2)

ความแตกต่างที่แท้จริงคืออัตราส่วนความน่าจะเป็นที่ถูกกว่าในการคำนวณและง่ายต่อการระบุแนวคิด ความน่าจะเป็นที่ MLE เป็นเพียงการประมาณค่าจุดของตัวคูณตัวประกอบของ Bayes และตัวหารตามลำดับ เช่นเดียวกับสิ่งปลูกสร้างที่พบบ่อยที่สุดมันสามารถถูกมองว่าเป็นกรณีพิเศษของการวิเคราะห์แบบเบย์โดยมีการวางแผนล่วงหน้ามาก่อนซึ่งยากที่จะเข้าถึง แต่ส่วนใหญ่มันเกิดขึ้นเพราะมันง่ายต่อการวิเคราะห์และง่ายต่อการคำนวณ (ในยุคก่อนที่วิธีการคำนวณแบบเบย์จะเกิดขึ้น)

จนถึงการคำนวณใช่: คุณจะประเมินความเป็นไปได้ที่อินทิกรัลอินทิเกรชั่นในการตั้งค่าแบบเบย์ด้วยกระบวนการมอนติคาร์โลขนาดใหญ่ในเกือบทุกกรณีที่น่าสนใจ มีตัวจำลองพิเศษบางอย่างเช่น GHK ซึ่งทำงานได้ถ้าคุณสมมติว่ามีการแจกแจงบางอย่างและถ้าคุณตั้งสมมติฐานเหล่านี้บางครั้งคุณอาจพบปัญหาที่สามารถแก้ไขได้ซึ่งสามารถวิเคราะห์ได้ซึ่งมีปัจจัยการวิเคราะห์แบบเบย์อย่างครบถ้วน

แต่ไม่มีใครใช้สิ่งเหล่านี้ ไม่มีเหตุผลที่จะ ด้วยตัวอย่างที่ดีที่สุดของ Metropolis / Gibbs และวิธีการ MCMC อื่น ๆ มันสามารถจัดการปัญหาเหล่านี้ได้อย่างสมบูรณ์แบบในการขับเคลื่อนข้อมูลอย่างสมบูรณ์และคำนวณอินทิกรัลของคุณเป็นตัวเลข ในความเป็นจริงเรามักจะทำตามลำดับชั้นและรวมผลลัพธ์มากกว่า meta-priors ที่เกี่ยวข้องกับกลไกการเก็บข้อมูลการออกแบบการทดลองที่ไม่น่าสนใจ ฯลฯ

ฉันแนะนำหนังสือการวิเคราะห์ข้อมูลแบบเบส์สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ แม้ว่าผู้เขียน Andrew Gelman ดูเหมือนว่าจะไม่สนใจปัจจัยเบย์มากนัก นอกจากนี้ฉันเห็นด้วยกับ Gelman หากคุณกำลังจะไป Bayesian แล้วใช้ประโยชน์จากด้านหลังเต็มรูปแบบ การเลือกแบบจำลองด้วยวิธีเบย์นั้นเปรียบเสมือนการแฮนดิแคปเพราะการเลือกแบบจำลองเป็นวิธีการอนุมานที่อ่อนแอและไร้ประโยชน์ส่วนใหญ่ ฉันอยากรู้ว่าการกระจายตัวเลือกโมเดลถ้าฉันทำได้ ... ใครจะสนใจปริมาณมันลงไปที่ "model A ดีกว่า model B" เรียงลำดับงบเมื่อคุณไม่ต้อง?

นอกจากนี้เมื่อคำนวณปัจจัย Bayes จะใช้การแก้ไขสำหรับความซับซ้อน (โดยอัตโนมัติผ่านการตรวจสอบความน่าจะเป็นหรือการวิเคราะห์ผ่าน AIC) โดยอัตโนมัติเช่นเดียวกับอัตราส่วนความน่าจะเป็นหรือไม่

M1M2d1d2d1<d2N

B1,2M1M1NB1,2

B1,2=O(N12(d2d1))

ฉันคุ้นเคยกับที่มานี้และการสนทนาจากหนังสือFinite Mixture และ Markov Switching Modelsโดย Sylvia Frühwirth-Schnatter แต่มีแนวโน้มว่าจะมีสถิติทางบัญชีโดยตรงที่ดำดิ่งลงไปในญาณวิทยาพื้นฐานมากกว่า

ฉันไม่ทราบรายละเอียดที่ดีพอที่จะให้พวกเขาที่นี่ แต่ฉันเชื่อว่ามีการเชื่อมโยงทางทฤษฎีที่ค่อนข้างลึกซึ้งระหว่างสิ่งนี้กับการได้มาของ AIC หนังสือ The Information Theory โดย Cover และ Thomas บอกใบ้อย่างน้อย

นอกจากนี้อะไรคือความแตกต่างทางปรัชญาระหว่างอัตราส่วนความน่าจะเป็นและปัจจัย Bayes (หมายเหตุ: ฉันไม่ได้ถามเกี่ยวกับความแตกต่างทางปรัชญาระหว่างอัตราส่วนความน่าจะเป็นและวิธีการแบบเบย์โดยทั่วไป แต่ปัจจัย Bayes เป็นตัวแทนของ เราจะอธิบายลักษณะของความหมายของปัจจัย Bayes ได้อย่างไรเมื่อเทียบกับอัตราส่วนความน่าจะเป็น

ส่วนบทความวิกิพีเดียเกี่ยวกับ "การตีความ"ทำได้ดีในการอภิปรายเรื่องนี้ (โดยเฉพาะแผนภูมิแสดงความแข็งแกร่งของระดับหลักฐานของ Jeffreys)

ตามปกติไม่มีอะไรมากไปกว่าความแตกต่างพื้นฐานทางปรัชญาระหว่างวิธีเบย์และวิธีการที่ใช้บ่อย (ซึ่งคุณคุ้นเคยอยู่แล้ว)

สิ่งสำคัญคืออัตราส่วนความน่าจะเป็นไม่สอดคล้องกันในความหมายของหนังสือภาษาดัตช์ คุณสามารถปรุงสถานการณ์ที่การอนุมานการเลือกแบบจำลองจากอัตราส่วนความน่าจะเป็นจะนำไปสู่การยอมรับการเดิมพันที่เสีย วิธีการแบบเบย์นั้นเชื่อมโยงกัน แต่ดำเนินการมาก่อนซึ่งอาจแย่มากและต้องถูกเลือก ข้อตกลงการค้า

FWIW ฉันคิดว่าการเลือกรูปแบบที่มีพารามิเตอร์มากชนิดนี้ไม่ใช่การอนุมานที่ดีมาก ฉันชอบวิธีการแบบเบย์และฉันชอบที่จะจัดระเบียบแบบลำดับชั้นให้มากขึ้นและฉันต้องการการอนุมานเพื่อมุ่งเน้นไปที่การกระจายหลังแบบเต็มถ้ามันเป็นไปได้ที่จะคำนวณได้ ฉันคิดว่าปัจจัยของ Bayes มีคุณสมบัติทางคณิตศาสตร์ที่ประณีต แต่ในฐานะของตัวเองแบบเบย์ฉันไม่ประทับใจพวกเขา พวกเขาปกปิดส่วนที่เป็นประโยชน์จริงๆของการวิเคราะห์แบบเบย์ซึ่งมันบังคับให้คุณจัดการกับนักบวชของคุณในที่โล่งแทนที่จะกวาดพวกมันไว้ใต้พรมและช่วยให้คุณสามารถอนุมานผู้โพสต์เต็มรูปแบบ


"เหมือนปกติไม่มีอะไรมากไปกว่าความแตกต่างทางปรัชญาพื้นฐานระหว่างวิธีเบย์และวิธีการแบบประจำ (ซึ่งคุณคุ้นเคยอยู่แล้ว) สิ่งสำคัญคือการทดสอบอัตราส่วนความน่าจะเป็น ... " แค่ประเด็นที่ชัดเจนฉันไม่ได้ ไม่ต้องการเปรียบเทียบปัจจัย Bayes กับการทดสอบอัตราส่วนความน่าจะเป็น แต่มีอัตราส่วนความน่าจะเป็นของตัวเองโดยไม่มีสัมภาระทดสอบสมมติฐานประจำ / null
Mike Lawrence

จากการชี้แจงของฉันข้างต้น: ดังนั้นฉันคิดว่าความแตกต่างที่ยิ่งใหญ่ระหว่าง BF และ LRs ก็คืออย่างที่คุณพูดว่าอดีตอัตโนมัติถูกต้องสำหรับความซับซ้อน แต่ต้องใช้การคำนวณจำนวนมากในขณะที่หลังต้องใช้การคำนวณน้อยกว่ามาก สำหรับความซับซ้อนของแบบจำลอง (ไม่ว่าจะใช้ AIC ซึ่งรวดเร็วในการคำนวณหรือการตรวจสอบข้ามซึ่งเป็นค่าใช้จ่ายในการคำนวณค่อนข้างมาก)
Mike Lawrence

ขออภัยการทดสอบอัตราส่วนความน่าจะเป็นเป็นตัวพิมพ์ผิดควรเป็นเพียงอัตราส่วนความน่าจะเป็น ฉันคิดว่าคุณพูดถูกที่สุด แต่คุณก็ยังคิดถึงภาพที่ใหญ่กว่านั้นอัตราส่วนความน่าจะเป็นเป็นเพียงการประมาณ มันจะมีประโยชน์ก็ต่อเมื่อการแจกแจงความน่าจะเป็นพื้นฐานนั้นทำตัวได้ดีถึงการประมาณกำลังสองในละแวก MLE .. ปัจจัย Bayes ไม่จำเป็นต้องสนใจคุณสมบัติการกระจายแบบเชิงเส้นเช่นนี้ มันsubsumes MLE-based อนุมานแบบเลือก
ely

1
เพื่อให้เป็นอีกวิธีหนึ่ง MLE สามารถถูกมองว่าเป็นตัวประมาณค่า posteriori (MAP) สูงสุดเพียง แต่ไม่ถูกต้องก่อนหน้านี้ (เมื่อการรวมเข้าด้วยกันทำให้เรื่องนี้) และ MAP เป็นการประเมินที่น่าสนใจมากขึ้นเนื่องจากมันรวมข้อมูลก่อนหน้า ทีนี้แทนที่จะแค่เลือกโหมดของคนหลัง ... ทำไมไม่รวมค่าทั้งหมดของคนหลังตามความน่าจะเป็นก่อนหน้า มันจะไม่ให้การประมาณค่าพารามิเตอร์กับคุณ แต่ส่วนใหญ่คนมักไม่ต้องการการประมาณจุด การกระจายมากกว่าพารามิเตอร์มักจะมีประโยชน์มากกว่าการประมาณการจุดเมื่อคุณสามารถที่จะได้รับพวกเขา
ely

11

ในการทำความเข้าใจความแตกต่างระหว่างอัตราส่วนความน่าจะเป็นและปัจจัยของ Bayes จะเป็นประโยชน์ในการพิจารณาคุณลักษณะสำคัญหนึ่งอย่างของปัจจัย Bayes โดยละเอียด:

ปัจจัยของ Bayes จะจัดการบัญชีที่ซับซ้อนโดยอัตโนมัติอย่างไร

มุมมองหนึ่งของคำถามนี้คือการพิจารณาวิธีการอนุมานโดยประมาณที่กำหนดขึ้น Variational Bayes เป็นวิธีหนึ่งดังกล่าว มันอาจไม่เพียง แต่ลดความซับซ้อนในการคำนวณของการประมาณแบบสุ่ม (เช่นการสุ่มตัวอย่าง MCMC) Variational Bayes ยังให้ความเข้าใจได้ง่ายในสิ่งที่ประกอบเป็นปัจจัย Bayes

จำครั้งแรกที่ปัจจัย Bayes ขึ้นอยู่กับรูปแบบของหลักฐานการแข่งขันสองรุ่น

BF1,2=p(dataM1)p(dataM2),

ซึ่งรูปแบบของหลักฐานแต่ละตัวจะต้องมีการคำนวณโดยอินทิกรัลที่ซับซ้อน:

p(dataMi)=p(dataθ,Mi) p(θMi) dθ

p(θdata,Mi)

q(θ)p(θdata,Mi)

F

F=เข้าสู่ระบบพี(ข้อมูล|Mผม)-KL[Q(θ)||พี(θ|ข้อมูล,Mผม)]

Q(θ)พี(θ|ข้อมูล,Mผม)F

ตอนนี้เราสามารถย้อนกลับไปที่คำถามดั้งเดิมว่าปัจจัยของ Bayes สร้างความสมดุลของความพอดีและความซับซ้อนของแบบจำลองที่เกี่ยวข้องโดยอัตโนมัติอย่างไร ปรากฎว่าพลังงานอิสระเชิงลบสามารถเขียนใหม่ได้ดังนี้

F=พี(ข้อมูล|θ,Mผม)Q-KL[Q(θ)||พี(θ|Mผม)]

เทอมแรกคือความน่าจะเป็นของข้อมูลที่คาดว่าจะได้รับภายใต้หลังประมาณ; มันแสดงให้เห็นถึงความดีของพอดี (หรือความถูกต้อง ) ของรูปแบบ คำที่สองคือความแตกต่างของ KL ระหว่างด้านหลังโดยประมาณกับก่อนหน้า มันแสดงถึงความซับซ้อนของแบบจำลองภายใต้มุมมองที่ว่าแบบจำลองที่เรียบง่ายเป็นแบบที่สอดคล้องกับความเชื่อของเราก่อนหน้าหรือภายใต้มุมมองที่แบบจำลองที่เรียบง่ายไม่จำเป็นต้องยืดออกมากพอที่จะรองรับข้อมูล

การประมาณพลังงานอิสระต่อหลักฐานของแบบจำลองบันทึกแสดงให้เห็นว่าแบบจำลองหลักฐานประกอบด้วยการแลกเปลี่ยนระหว่างการสร้างแบบจำลองข้อมูล (เช่นความดีของความพอดี) และยังคงสอดคล้องกับความซับซ้อนในอดีตของเรา (เช่นความเรียบง่ายหรือความซับซ้อนเชิงลบ)

ปัจจัย Bayes (ตรงกันข้ามกับอัตราส่วนความน่าจะเป็น) จึงกล่าวได้ว่าแบบจำลองการแข่งขันสองแบบใดที่ดีกว่าในการให้คำอธิบายที่เรียบง่ายและแม่นยำของข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.