ฉันสามารถตัวอย่างชุดข้อมูลขนาดใหญ่ที่การทำซ้ำ MCMC ทุกครั้งได้หรือไม่


8

ปัญหา:ฉันต้องการทำการสุ่มตัวอย่างของกิ๊บส์เพื่อสรุปหลังชุดข้อมูลขนาดใหญ่ โชคไม่ดีโมเดลของฉันไม่ง่ายนักและการสุ่มตัวอย่างช้าเกินไป ฉันจะพิจารณาแนวทางที่หลากหลายหรือขนาน แต่ก่อนที่จะไปไกล ...

คำถาม:ฉันต้องการทราบว่าฉันสามารถสุ่มตัวอย่างตัวอย่าง (พร้อมการแทนที่) จากชุดข้อมูลของฉันที่การวนซ้ำของกิ๊บส์ทุกครั้งหรือไม่

สัญชาตญาณของฉันคือแม้ว่าฉันจะเปลี่ยนตัวอย่างฉันจะไม่เปลี่ยนความหนาแน่นของความน่าจะเป็นและดังนั้นตัวอย่างกิ๊บส์ไม่ควรสังเกตเห็นเคล็ดลับ ฉันถูกไหม? มีผู้อ้างอิงบางคนที่ทำสิ่งนี้หรือไม่?


1
ในฐานะที่เป็นกัน: ความคิดอื่นจะทำการวิเคราะห์หลายชุดย่อยสุ่มของชุดข้อมูลขนาดใหญ่ ด้วยวิธีนี้คุณสามารถตรวจสอบข้ามได้
คาดเดา

2
ฉันไม่สามารถตอบคำถามที่ถูกต้องของคุณได้ด้วยสิทธิ์ใด ๆ (แม้ว่าความสงสัยของฉันคือคุณจะเพิ่มข้อผิดพลาดโดยประมาณที่มาพร้อมกับ Monte Carlo) ความจริงที่น่าเศร้าก็คือนี่เป็นเพียงแง่มุมที่โชคร้ายของการวิเคราะห์ MCMC แบบเบส์ เเพง. @ ข้อคิดเห็นเกี่ยวกับความคิดเห็นเป็นความคิดที่ดี แต่ไม่ได้เป็นหัวใจของปัญหา: มันแพงเกินไปที่จะดึงตัวอย่างเหล่านั้นทั้งหมดสำหรับแต่ละคน คำแนะนำของฉันคือการเขียนรหัส C ของคุณเองสำหรับงานหนัก (Rcpp ใน R, Cython ใน Python และอื่น ๆ ) และยังขนาน (เมื่อไม่มีการพึ่งพาสาขา)

1
@conjectures ฟังดูเหมือนกระเป๋าบูตเล็ก ๆ ของ Michael Jordan
jaradniemi

1
ฉันขอแนะนำให้เปลี่ยนตัวอย่างของคุณเพื่อหลีกเลี่ยงการเพิ่มตัวแปรแฝงทั้งหมด คุณจะไม่มีตัวอย่างกิ๊บส์อีกต่อไป แต่อัลกอริทึม Metropolis-Hastings พร้อมข้อเสนอที่อิงจากการประมาณค่าปกติกับโอกาสที่จะใช้งานได้ดี ดูส่วนที่ 16.4 ของการวิเคราะห์ข้อมูลแบบเบย์รุ่นที่ 2
jaradniemi

6
นี่เป็นส่วนของการวิจัยเชิงรุกที่ฉันไม่รู้ดีพอที่จะสรุปให้คุณได้อย่างถูกต้อง ดูตัวอย่างjmlr.org/proceedings/papers/v32/bardenet14.pdfและarxiv.org/pdf/1304.5299v4.pdf
Andrew M

คำตอบ:


1

เกี่ยวกับกลวิธีการสุ่มตัวอย่าง: ยกตัวอย่างเช่นให้พิจารณาว่ามีการสังเกตสองแบบ X1~ยังไม่มีข้อความ(μ1,σ12) และ X2~ยังไม่มีข้อความ(μ2,σ22)และพิจารณาให้นักบวชบางคนอยู่ในค่าเฉลี่ยและความแปรปรวน ปล่อยθ=(μ1,μ2,σ12,σ22)ด้านหลังที่เราต้องการประเมินคือ

(θ|X1,X2)α(X1|θ)(X2|θ)(θ)
ตอนนี้ COnsider เป็นตัวแปรทวินาม δ~B(0.5). ถ้าδ=0 เราเลือก X1ถ้า δ=1 เราเลือก X2หลังใหม่คือ
(θ,δ|X1,X2)α(X1,X2|δ,θ)(θ)(δ)
ที่ไหน (X1,X2|δ,θ)=(X1|θ)δ(X2|θ)1-δ และ (δ)=0.5. ตอนนี้ถ้าคุณต้องการตัวอย่างδ ด้วยขั้นตอนของกิ๊บส์คุณต้องคำนวณ (X1|θ) และ (X2|θ) เพราะ P(δ=1)=(X1|θ)(X1|θ)+(X2|θ). หากคุณใช้ Metropolis Hastings เป็นอย่างอื่นคุณต้องเสนอสถานะใหม่δ* * * * และคุณต้องคำนวณเพียงอย่างเดียว (X1|θ) และ (X2|θ)สิ่งที่เกี่ยวข้องกับสถานะที่เสนอ แต่คุณต้องคำนวณหาค่าระหว่าง (X1|θ) และ (X2|θ) แม้สำหรับสถานะที่ยอมรับล่าสุดของ δ. ถ้าอย่างนั้นฉันก็ไม่แน่ใจว่าเมืองนั้นจะให้ประโยชน์แก่เจ้าบ้าง ยิ่งกว่านั้นที่นี่เรากำลังพิจารณากระบวนการ bivariate แต่ด้วยกระบวนการหลายตัวแปรในการสุ่มตัวอย่างของδมีความซับซ้อนมากกับเมืองใหญ่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.