ทำไมต้องใช้ Normalizing Factor ในทฤษฎีบทของเบย์


20

Bayes theorem ไป

P(model|data)=P(model)×P(data|model)P(data)

ทั้งหมดนี้เป็นเรื่องปกติ แต่ฉันได้อ่านที่ไหนสักแห่ง:

โดยพื้นฐานแล้ว P (data) คืออะไรนอกจากค่าคงที่ normalizing คือค่าคงที่ที่ทำให้ความหนาแน่นของด้านหลังรวมเข้าเป็นหนึ่งเดียว

เรารู้ว่า0P(model)1และ0P(data|model)1 1

ดังนั้นP(model)×P(data|model)ต้องอยู่ระหว่าง 0 ถึง 1 เช่นกัน ในกรณีเช่นนี้เหตุใดเราจึงต้องมีค่าคงที่ normalizing เพื่อทำให้ส่วนหลังเข้ากันเป็นหนึ่งเดียว


4
เมื่อคุณทำงานกับความหนาแน่นของความน่าจะเป็นดังที่กล่าวไว้ในโพสต์นี้คุณจะไม่สามารถสรุปได้อีกต่อไป0 <= P(model) <= 1หรือ0 <= P(data/model) <= 1เพราะ (หรือทั้งสองอย่าง!) ของจำนวนเหล่านั้นอาจเกิน (และไม่มีที่สิ้นสุด) ดูstats.stackexchange.com/questions/4220 1
whuber

1
ไม่ใช่ในกรณีที่เนื่องจากสัญกรณ์ที่คลุมเครือนี้แสดงถึงความน่าจะเป็นแบบบูรณาการของข้อมูลไม่ใช่ความน่าจะเป็น
P(data|model)1
ซีอาน

คำตอบ:


15

ครั้งแรก , หนึ่งของ "ความน่าจะเป็น x ก่อน" ไม่ necesserely 1

มันไม่เป็นความจริงว่าถ้า:

และ 0 P ( data | model ) 10P(แบบ)10P(ข้อมูล|แบบ)1

ดังนั้นส่วนประกอบของผลิตภัณฑ์นี้ที่เกี่ยวกับแบบจำลอง (พารามิเตอร์ของโมเดลจริง ๆ ) คือ 1

สาธิต. ลองนึกภาพความหนาแน่นสองแบบไม่ต่อเนื่อง:

P(แบบ)=[0.5,0.5] (สิ่งนี้เรียกว่า "ก่อนหน้า")P(ข้อมูล | แบบ)=[0.80,0.2] (สิ่งนี้เรียกว่า "ความน่าจะเป็น")

หากคุณคูณพวกเขาทั้งคู่คุณจะได้รับ: ซึ่งไม่ใช่ความหนาแน่นที่ถูกต้องเนื่องจากมันไม่ได้รวมเข้ากับหนึ่ง: 0.40 + 0.25 = 0.65

[0.40,0.25]
0.40+0.25=0.65

Σmodel_paramsP(แบบ)P(ข้อมูล | แบบ)=Σmodel_paramsP(รูปแบบข้อมูล)=P(ข้อมูล)=0.65

(ขออภัยเกี่ยวกับสัญกรณ์ที่ไม่ดีฉันเขียนสำนวนที่แตกต่างกันสามข้อสำหรับสิ่งเดียวกันเนื่องจากคุณอาจเห็นพวกเขาทั้งหมดในวรรณกรรม)

ประการที่สอง , ว่า "โอกาส" สามารถเป็นอะไรก็ได้และถึงแม้ว่ามันจะเป็นความหนาแน่นก็สามารถมีค่าสูงกว่า 1

ดังที่ @whuber กล่าวว่าปัจจัยนี้ไม่จำเป็นต้องอยู่ระหว่าง 0 ถึง 1 พวกเขาต้องการให้อินทิกรัล (หรือผลรวม) เป็น 1

ประการที่สาม [พิเศษ] "คอนจูเกต" เป็นเพื่อนของคุณเพื่อช่วยคุณหาคง

P(แบบ|ข้อมูล)αP(ข้อมูล|แบบ)P(แบบ)

+1 นี่คือคำตอบเดียวที่จริงที่อยู่ในคำถามเดิมว่าทำไมคงฟื้นฟูเป็นสิ่งจำเป็นที่จะทำให้หลังบูรณาการอย่างใดอย่างหนึ่ง สิ่งที่คุณทำกับหลังภายหลัง (เช่นการอนุมาน MCMC หรือการคำนวณความน่าจะเป็นสัมบูรณ์) เป็นเรื่องที่แตกต่าง
Pedro Mediano

P(ม.โอdอีล.)=[0.5,0.5]σ2=1μP(μ)=[0.5,0.5]

μ

12

คำตอบสั้น ๆ สำหรับคำถามของคุณคือถ้าไม่มีตัวส่วนการแสดงออกทางด้านขวาเป็นเพียงโอกาสไม่ใช่ความน่าจะเป็นซึ่งจะอยู่ในช่วงตั้งแต่ 0 ถึง 1 ค่า "normalizing constant" ทำให้เราได้ความน่าจะเป็นสำหรับ การเกิดขึ้นของเหตุการณ์มากกว่าความเป็นไปได้ของเหตุการณ์นั้นเมื่อเทียบกับเหตุการณ์อื่น


8

คุณมีคำตอบที่ถูกต้องสองข้อ แต่ให้ฉันเพิ่มสองเซ็นต์ของฉัน

ทฤษฎีบทของเบย์มักถูกนิยามเป็น:

P(แบบ | ข้อมูล)αP(แบบ)×P(ข้อมูล | แบบ)

เพราะเหตุผลเดียวที่คุณต้องการค่าคงที่คือมันรวมเข้ากับ 1 (ดูคำตอบของผู้อื่น) สิ่งนี้ไม่จำเป็นในการจำลองแบบ MCMC ส่วนใหญ่ในการวิเคราะห์แบบเบย์และด้วยเหตุนี้ค่าคงที่จึงลดลงจากสมการ ดังนั้นสำหรับการจำลองส่วนใหญ่ไม่จำเป็นต้องมีแม้แต่

ฉันชอบคำอธิบายของKruschke : ลูกสุนัขตัวสุดท้าย (คงที่) ง่วงเพราะเขาไม่มีอะไรทำในสูตร

ป้อนคำอธิบายรูปภาพที่นี่

นอกจากนี้ยังมีบางอย่างเช่นแอนดรู Gelman พิจารณาคงเป็น "มุขตลก" และ "พื้นความหมายเมื่อมีคนใช้ไพรเออร์แบน" (ตรวจสอบการอภิปรายที่นี่ )


9
+1 เพื่อแนะนำลูกสุนัข "ไม่มีสัตว์ถูกทำร้ายในการเขียนของคำตอบนี้" :)
อัลแบร์โต
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.