ความน่าจะเป็นและการกระจายแบบมีเงื่อนไขสำหรับการวิเคราะห์แบบเบย์


13

เราสามารถเขียนทฤษฎีบทของเบย์ได้

p(θ|x)=f(X|θ)p(θ)θf(X|θ)p(θ)dθ

โดยที่คือด้านหลังคือการแจกแจงแบบมีเงื่อนไขและเป็นค่าก่อนหน้าp(θ|x)f(X|θ)p(θ)

หรือ

p(θ|x)=L(θ|x)p(θ)θL(θ|x)p(θ)dθ

โดยที่คือด้านหลังเป็นฟังก์ชันความน่าจะเป็นและเป็นหน้าที่ก่อนp(θ|x)L(θ|x)p(θ)

คำถามของฉันคือ

  1. ทำไมการวิเคราะห์แบบเบย์ทำโดยใช้ฟังก์ชันความน่าจะเป็นและไม่ใช่การแจกแจงแบบมีเงื่อนไข
  2. คุณสามารถพูดด้วยคำพูดว่าโอกาสและการแจกแจงแบบมีเงื่อนไขแตกต่างกันอย่างไร? ฉันรู้ว่าโอกาสไม่ได้เป็นการกระจายความน่าจะเป็นและtheta)L(θ|x)f(X|θ)

1
ไม่มีความแตกต่าง! ความน่าจะเป็นคือการแจกแจงแบบมีเงื่อนไขก็เป็นไปตามสัดส่วนซึ่งเป็นสิ่งที่สำคัญ f(X|θ)
kjetil b halvorsen

1
พารามิเตอร์ก่อนมีความหนาแน่นtheta) ถ้าสำนึกของมีค่าขณะที่เป็นค่าสังเกตของตัวแปรสุ่มแล้วค่าของฟังก์ชั่นความน่าจะเป็นเป็นอย่างแม่นยำค่า ความหนาแน่นเงื่อนไขของxแตกต่างก็คือสำหรับทุกความเข้าใจของ\อย่างไรก็ตามเป็นฟังก์ชั่นของΘpΘ(θ)ΘθxXL(θx) f(xθ)fXΘ(xΘ=θ)X
fXΘ(xΘ=θ)dx=1
Θθ(และคง )คือไม่ได้ความหนาแน่น:xL(θx)
L(θx)dθ1
ดิลลิป Sarwate

คำตอบ:


11

สมมติว่าคุณมีตัวแปรสุ่ม (ซึ่งจะสังเกตเห็นค่าในการทดสอบของคุณ) ซึ่งมีความเป็นอิสระตามเงื่อนไขเนื่องจากมีความหนาแน่นตามเงื่อนไขสำหรับ n นี้เป็นของคุณ (สมมติฐาน) สถิติ (เงื่อนไข) รูปแบบและความหนาแน่นเงื่อนไขด่วนสำหรับแต่ละค่าที่เป็นไปได้ของ (สุ่ม) พารามิเตอร์ความไม่แน่นอนของคุณเกี่ยวกับค่าของ 's, ก่อนที่คุณจะสามารถเข้าถึงใด ๆ ข้อมูลจริง ด้วยความช่วยเหลือของความหนาแน่นตามเงื่อนไขคุณสามารถคำนวณความน่าจะเป็นตามเงื่อนไขเช่น X1,,XnΘ=θฉัน= 1 , ... , n θ Θ X ฉัน P { X 1B 1 , ... , X nB n | Θ = θ } = B 1 × × B n n Πฉัน= 1X iΘ ( x iθ )fXiΘ(θ)i=1,,nθΘXi

P{X1B1,,XnBnΘ=θ}=B1××Bni=1nfXiΘ(xiθ)dx1dxn,
สำหรับแต่ละ\θ

หลังจากที่คุณสามารถเข้าถึงตัวอย่างจริงของค่า (การรับรู้) ของที่ได้รับการสังเกตในการทดสอบครั้งเดียวของคุณการเปลี่ยนแปลงสถานการณ์: ไม่มีความไม่แน่นอนอีกต่อไปเกี่ยวกับ, สมมติว่าสุ่มถือว่าค่าในพื้นที่พารามิเตอร์บาง\ตอนนี้คุณกำหนดสำหรับค่าที่ทราบ (คงที่)ฟังก์ชั่น โดย โปรดทราบว่าหรือที่เรียกว่า "ฟังก์ชันความน่าจะเป็น" เป็นฟังก์ชันของ(x1,,xn)XiX1,,XnΘΠ(x1,,xn)

Lx1,,xn:ΠR
Lx1,,xn(θ)=i=1nfXiΘ(xiθ).
Lx1,,xnθ\ในสถานการณ์ "หลังจากที่คุณมีข้อมูล" ความน่าจะเป็นสำหรับแบบจำลองตามเงื่อนไขที่เรากำลังพิจารณาข้อมูลทั้งหมดเกี่ยวกับพารามิเตอร์อยู่ในตัวอย่างนี้x_n) ในความเป็นจริงมันเกิดขึ้นที่เป็นสถิติที่เพียงพอสำหรับ\Lx1,,xnΘ(x1,,xn)Lx1,,xnΘ

ตอบคำถามของคุณเพื่อทำความเข้าใจความแตกต่างระหว่างแนวคิดของความหนาแน่นของเงื่อนไขและความเป็นไปได้โปรดจำไว้ว่าคำจำกัดความทางคณิตศาสตร์ของพวกเขา (ซึ่งแตกต่างกันอย่างชัดเจน: พวกเขาเป็นวัตถุทางคณิตศาสตร์ที่แตกต่างกันด้วยคุณสมบัติที่แตกต่างกัน) ตัวอย่าง "วัตถุ / แนวคิดในขณะที่ความน่าจะเป็นคือ" after-sample " ฉันหวังว่าทั้งหมดนี้จะช่วยให้คุณตอบว่าทำไมการอนุมานแบบเบย์ (ใช้วิธีการวางซึ่งฉันไม่คิดว่าเหมาะ) จะทำ "ใช้ฟังก์ชันความน่าจะเป็นและไม่ใช่การแจกแจงแบบมีเงื่อนไข": เป้าหมายของการอนุมานแบบเบส์คือ เพื่อคำนวณการแจกแจงหลังและเพื่อให้เป็นไปตามเงื่อนไขของข้อมูลที่สังเกตได้


ฉันคิดว่า Zen นั้นถูกต้องเมื่อเขาบอกว่าโอกาสและความน่าจะเป็นตามเงื่อนไขนั้นแตกต่างกัน ในฟังก์ชันความน่าจะเป็นθไม่ใช่ตัวแปรสุ่มดังนั้นจึงแตกต่างจากความน่าจะเป็นแบบมีเงื่อนไข
Martine

2

สัดส่วนถูกนำมาใช้เพื่อลดความซับซ้อนของการวิเคราะห์

โดยทั่วไปการวิเคราะห์แบบเบส์จะกระทำผ่านคำแถลงที่ง่ายขึ้นของทฤษฎีบทของเบย์ซึ่งเราทำงานเฉพาะในแง่ของสัดส่วนที่เกี่ยวข้องกับพารามิเตอร์ของผลประโยชน์ สำหรับโมเดล IID มาตรฐานที่มีความหนาแน่นของการสุ่มตัวอย่างเราสามารถแสดงสิ่งนี้เป็น:f(X|θ)

p(θ|x)Lx(θ)p(θ)Lx(θ)i=1nf(xi|θ).

งบคชกรรมปรับปรุงนี้จะทำงานในแง่ของสัดส่วนที่เกี่ยวกับพารามิเตอร์\มันใช้สองการทำให้ง่ายขึ้นตามสัดส่วน: หนึ่งในการใช้ฟังก์ชั่นความน่าจะเป็น (สัดส่วนกับความหนาแน่นของการสุ่มตัวอย่าง) และหนึ่งในด้านหลัง (สัดส่วนกับผลิตภัณฑ์ของความน่าจะเป็นและก่อนหน้า) เนื่องจากด้านหลังเป็นฟังก์ชันความหนาแน่น (ในกรณีต่อเนื่อง) กฎบรรทัดฐานจึงกำหนดค่าคงที่การคูณที่จำเป็นในการให้ความหนาแน่นที่ถูกต้อง (เช่นเพื่อรวมเข้ากับหนึ่ง)θ

การใช้วิธีการนี้ได้สัดส่วนมีประโยชน์ในการช่วยให้เราสามารถละเลยองค์ประกอบคูณใด ๆ ของฟังก์ชั่นที่ไม่ได้ขึ้นอยู่กับพารามิเตอร์\สิ่งนี้มีแนวโน้มที่จะทำให้ปัญหาง่ายขึ้นโดยอนุญาตให้เราปัดส่วนที่ไม่จำเป็นของคณิตศาสตร์ออกไปและรับคำสั่งที่ง่ายขึ้นของกลไกการอัพเดต นี่ไม่ใช่ข้อกำหนดทางคณิตศาสตร์ (เนื่องจากกฎของเบย์ทำงานในรูปแบบที่ไม่เป็นสัดส่วนด้วย) แต่มันทำให้สิ่งต่าง ๆง่ายขึ้นสำหรับสมองสัตว์เล็ก ๆ ของเราθ

ตัวอย่างการประยุกต์ใช้:พิจารณารูปแบบการ IID กับข้อมูลที่สังเกต1) เพื่อความสะดวกในการวิเคราะห์ของเราเราได้กำหนดสถิติและซึ่งเป็นช่วงเวลาตัวอย่างสองช่วงแรก สำหรับรุ่นนี้เรามีการสุ่มตัวอย่างความหนาแน่น:X1,...,XnIID N(θ,1)x¯=1ni=1nxix¯¯=1ni=1nxi2

f(x|θ)=i=1nf(xi|θ)=i=1nN(xi|θ,1)=i=1n12πexp(12(xiθ)2)=(2π)n/2exp(12i=1n(xiθ)2).=(2π)n/2exp(n2(θ22x¯θ+x¯¯))=(2π)n/2exp(nx¯¯2)exp(n2(θ22x¯θ))

ตอนนี้เราสามารถทำงานโดยตรงกับความหนาแน่นของการสุ่มตัวอย่างนี้หากเราต้องการ แต่แจ้งให้ทราบว่าทั้งสองเป็นครั้งแรกในแง่ความหนาแน่นนี้คงคูณที่ไม่ได้ขึ้นอยู่กับ\มันเป็นเรื่องที่น่ารำคาญที่ต้องติดตามคำศัพท์เหล่านี้ดังนั้นเราจะต้องกำจัดมันออกไปดังนั้นเราจึงมีฟังก์ชั่นความน่าจะเป็น:θ

Lx(θ)=exp(n2(θ22x¯θ)).

นั่นทำให้สิ่งต่าง ๆ ง่ายขึ้นเล็กน้อยเนื่องจากเราไม่จำเป็นต้องติดตามคำศัพท์เพิ่มเติม ตอนนี้เราสามารถใช้กฎของเบย์โดยใช้สมการฉบับเต็มรวมถึงตัวส่วนที่เป็นส่วนประกอบ แต่อีกครั้งสิ่งนี้ทำให้เราต้องติดตามค่าคงที่ทวีคูณที่น่ารำคาญที่ไม่ได้ขึ้นอยู่กับ (น่ารำคาญกว่าเพราะเราต้องแก้ปัญหาอินทิกรัลเพื่อให้ได้) ดังนั้นลองใช้กฎของเบย์ในรูปแบบสัดส่วน การใช้คอนจูเกตก่อนหน้า , ด้วยพารามิเตอร์ความแม่นยำที่รู้จักบางอย่าง , เราจะได้ผลลัพธ์ดังต่อไปนี้ (โดยทำตารางให้สมบูรณ์ ):θθN(0,λ0)λ0>0

p(θ|x)Lx(θ)p(θ)=exp(n2(θ22x¯θ))N(θ|0,λ0)exp(n2(θ22x¯θ))exp(λ02θ2)=exp(12(nθ22nx¯θ+λ0θ2))=exp(12((n+λ0)θ22nx¯θ))=exp(n+λ02(θ22nx¯n+λ0θ))exp(n+λ02(θnn+λ0x¯)2)N(θ|nn+λ0x¯,n+λ0).

จากการทำงานนี้เราจะเห็นได้ว่าการกระจายตัวด้านหลังเป็นสัดส่วนกับความหนาแน่นปกติ ตั้งแต่หลังจะต้องเป็นความหนาแน่นนี้หมายความว่าหลังเป็นที่หนาแน่นปกติ:

p(θ|x)=N(θ|nn+λ0x¯,n+λ0).

ด้วยเหตุนี้เราจะเห็นว่าพารามิเตอร์ส่วนหลังพารามิเตอร์นั้นถูกกระจายด้วยค่าเฉลี่ยหลังและความแปรปรวนที่กำหนดโดยθ

E(θ|x)=nn+λ0x¯V(θ|x)=1n+λ0.

ทีนี้การกระจายตัวด้านหลังที่เราได้มานั้นมีการรวมตัวกันอย่างต่อเนื่องที่ด้านหน้า (ซึ่งเราสามารถหาได้ง่ายโดยมองหารูปแบบของการแจกแจงแบบปกติ ) แต่สังเกตว่าเราไม่ต้องกังวลเกี่ยวกับค่าคงที่ทวีคูณ - ค่าคงที่การคูณของเราลบออก (หรือนำเข้า) ค่าคงที่การคูณเมื่อใดก็ตามที่ทำให้คณิตศาสตร์ง่ายขึ้น ผลลัพธ์เดียวกันสามารถรับได้ในขณะที่ติดตามค่าคงที่แบบหลายค่า แต่นี่คือสิ่งที่ยุ่งเหยิงมาก


0

ฉันคิดว่าคำตอบของ Zen จะบอกคุณจริงๆว่าแนวคิดเรื่องฟังก์ชันความน่าจะเป็นและความหนาแน่นของค่าของตัวแปรสุ่มแตกต่างกันอย่างไร ทางคณิตศาสตร์ในฐานะที่เป็นฟังก์ชันของทั้ง xและθพวกมันเหมือนกันและในแง่นั้นโอกาสที่จะถูกมองว่าเป็นความหนาแน่นของความน่าจะเป็น ความแตกต่างที่คุณชี้ไปในสูตรสำหรับการแจกแจงหลังเบย์เป็นเพียงความแตกต่างที่น่าสังเกต แต่ความละเอียดอ่อนของความแตกต่างนั้นได้ถูกอธิบายไว้อย่างดีในคำตอบของเซนi

ปัญหานี้เกิดขึ้นในคำถามอื่น ๆ ที่กล่าวถึงในเว็บไซต์นี้เกี่ยวกับฟังก์ชั่นความน่าจะเป็น นอกจากนี้ความคิดเห็นอื่น ๆ โดย kjetil และ Dilip ก็ดูเหมือนจะสนับสนุนสิ่งที่ฉันพูด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.