การคำนวณความเป็นไปได้ที่จะเกิดจากกลุ่มตัวอย่าง MCMC


24

นี่เป็นคำถามที่เกิดขึ้น (ดูโพสต์นี้ , โพสต์นี้และโพสต์นี้ ) แต่ฉันมีสปินที่แตกต่างกัน

สมมติว่าฉันมีกลุ่มตัวอย่างจากตัวอย่าง MCMC ทั่วไป สำหรับแต่ละตัวอย่างθฉันรู้ค่าของการบันทึกความเป็นไปได้เข้าสู่ระบบ(x|θ)และเข้าสู่ระบบก่อนเข้าสู่ระบบ(θ) ) ถ้ามันช่วยได้ฉันก็รู้ค่าของความน่าจะเป็นของการบันทึกต่อจุดข้อมูล, เข้าสู่ระบบ(xผม|θ) (ข้อมูลนี้ช่วยในวิธีการบางอย่างเช่น WAIC และ PSIS-LOO)

ฉันต้องการที่จะได้รับ (น้ำมันดิบ) ประมาณการของโอกาสร่อแร่เพียงกับกลุ่มตัวอย่างที่ฉันมีและอาจจะไม่กี่การประเมินผลการทำงานอื่น ๆ ( แต่ไม่ rerunning เฉพาะกิจ MCMC)

ก่อนอื่นมาล้างตารางกันก่อน เราทุกคนรู้ว่าตัวประมาณค่าฮาร์มอนิกเป็นตัวประมาณที่แย่ที่สุดที่เคยมีมา ไปกันเถอะ หากคุณกำลังทำตัวอย่างกิ๊บส์กับนักบวชและผู้โพสต์ในรูปแบบปิดคุณสามารถใช้วิธีการของ Chib ; แต่ฉันไม่แน่ใจว่าจะพูดคุยกันนอกเรื่องเหล่านี้ได้อย่างไร นอกจากนี้ยังมีวิธีการที่ต้องการให้คุณปรับเปลี่ยนขั้นตอนการสุ่มตัวอย่าง (เช่นผ่านทางโปสเตอร์ที่มีอารมณ์ ) แต่ฉันไม่สนใจที่นี่

วิธีการที่ฉันคิดประกอบด้วยการประมาณการกระจายพื้นฐานด้วยรูปร่าง (หรือ nonparametric) รูปร่างก.(θ) , แล้วหาค่าคงที่การทำให้เป็นมาตรฐานZเป็นปัญหาการหาค่าเหมาะที่สุดแบบ 1-D (เช่นZที่ลดข้อผิดพลาดบางอย่างระหว่างZก.(θ)และ(x|θ)(θ)ประเมินจากตัวอย่าง) ในกรณีที่ง่ายที่สุดสมมติว่าด้านหลังเป็นตัวแปรหลายคร่าวๆฉันสามารถใส่ก.(θ)เป็นหลายตัวแปรปกติและได้สิ่งที่คล้ายกับการประมาณ Laplace (ฉันอาจต้องการใช้การประเมินฟังก์ชั่นเพิ่มเติมบางอย่างเพื่อปรับแต่งตำแหน่งของโหมด) แต่ผมสามารถใช้เป็นก.(θ)ครอบครัวมีความยืดหยุ่นมากขึ้นเช่นมีส่วนผสมแปรผันของหลายตัวแปรเสื้อกระจาย

ฉันขอขอบคุณที่วิธีนี้ใช้งานได้เฉพาะเมื่อZก.(θ)เป็นค่าประมาณที่เหมาะสมกับ(x|θ)(θ)แต่มีเหตุผลหรือเหตุผลเรื่องเตือนว่าทำไมมันถึงไม่ฉลาดนักที่จะทำอย่างนั้น? การอ่านใด ๆ ที่คุณอยากจะแนะนำ?

วิธีการที่ไม่ใช่พารามิเตอร์ทั้งหมดใช้บางครอบครัวที่ไม่ใช่พารามิเตอร์เช่นกระบวนการแบบเกาส์ (GP), เพื่อประมาณf ( x | θ ) + บันทึกf ( θ )เข้าสู่ระบบ(x|θ)+เข้าสู่ระบบ(θ) (หรือการแปลงแบบไม่เชิงเส้นอื่น ๆ เช่นรากที่สอง) และBayesian การสร้างพื้นที่สี่เหลี่ยมจัตุรัสเพื่อรวมเข้ากับเป้าหมายพื้นฐานโดยนัย (ดูที่นี่และที่นี่ ) สิ่งนี้ดูเหมือนจะเป็นวิธีทางเลือกที่น่าสนใจ แต่ก็คล้าย ๆ กับในใจ


6
ฉันคิดว่า Chib, S. และ Jeliazkov, I. 2001 "ความเป็นไปได้ส่วนเล็กน้อยจาก Metropolis - Hastings output" เป็นการทั่วไปที่เอาท์พุท MCMC ปกติ - จะสนใจฟังประสบการณ์ด้วยวิธีนี้ สำหรับ GP - โดยทั่วไปแล้วสิ่งนี้ทำให้เกิดการลอกเลียนแบบของคนหลังซึ่งคุณอาจพิจารณาถึงปัญหาอื่น ๆ ฉันเดาว่าปัญหาคือคุณไม่แน่ใจเกี่ยวกับคุณภาพของการประมาณ สิ่งที่ฉันสงสัยเช่นกันคือถ้าตัวอย่าง MCMC นั้นเหมาะสำหรับรุ่น GP หรือคุณควรลงทุนในหางมากขึ้น
Florian Hartig

2
(+1) ขอบคุณสำหรับการอ้างอิงดูจุด - ฉันจะตรวจสอบออก ฉันยอมรับว่าวิธีการที่ใช้แบบจำลองทั้งหมดอาจเป็นปัญหาได้ (สิ่งที่ดีกับการสร้างพื้นที่สี่เหลี่ยมจัตุรัส Bayesian คือคุณได้รับการประเมินความไม่แน่นอนแม้ว่าจะไม่แน่ใจว่ามันถูกปรับเทียบแล้วก็ตาม) ในขณะที่เป้าหมายที่เรียบง่ายของฉันคือการทำสิ่งที่ "ดีกว่าการประมาณลาปลาซ"
lacerbi

คำตอบ:


26

การขยายโดยChib และ Jeliazkov (2001)โชคไม่ดีที่ได้รับค่าใช้จ่ายสูงหรือแปรผันอย่างรวดเร็วซึ่งเป็นเหตุผลว่าทำไมมันไม่ได้ถูกนำมาใช้มากนอกกรณีการสุ่มตัวอย่างของกิ๊บส์

ขณะที่มีหลายรูปแบบและวิธีการฟื้นฟูอย่างต่อเนื่องปัญหาการประมาณค่า (ตามภาพประกอบโดยพูดถึงความหลากหลายมากในการประชุมเชิงปฏิบัติการอย่างต่อเนื่องประมาณเราวิ่งสัปดาห์ที่ผ่านมาที่มหาวิทยาลัย Warwick ภาพนิ่งใช้ได้มี ) แก้ปัญหาบางอย่างไม่ใช้ประโยชน์โดยตรงเอาท์พุท MCMC .Z

  1. ดังที่คุณกล่าวไว้ตัวประมาณค่าเฉลี่ยฮาร์มอนิกของนิวตันและ Raftery (1994) นั้นแทบจะไม่ดีเท่าที่ควรสำหรับความแปรปรวนอนันต์ แต่มีวิธีการหลีกเลี่ยงคำสาปแปรปรวนอนันต์โดยใช้แทนเป้าหมาย จำกัด สนับสนุนในตัวตนเฉลี่ยประสาน โดยการเลือกαเป็นตัวบ่งชี้ของภูมิภาค HPD สำหรับคนหลัง สิ่งนี้ทำให้มั่นใจได้ถึงความแปรปรวนอัน จำกัด โดยการเอาก้อยในค่าเฉลี่ยฮาร์มอนิก (รายละเอียดสามารถพบได้ในกระดาษที่ฉันเขียนกับ Darren Wraithและในบทเกี่ยวกับค่าคงที่ normalizing ที่เขียนด้วย Jean-Michel Marin) ในระยะสั้นวิธีการรีไซเคิลเอาต์พุต MCMCθ1,,θMโดยการระบุident( 20% พูด) ค่าที่ใหญ่ที่สุดของเป้าหมายπ(θ)f(x|θ)และการสร้างα

    α(θ)π(θ)(x|θ)dπ(θ|x)=1Z
    αθ1,...,θMβπ(θ)(x|θ)αเป็นเครื่องแบบกว่าสหภาพของลูกศูนย์กลางที่ผู้มีความหนาแน่นที่ใหญ่ที่สุด (HPD) จำลองและมีรัศมีρความหมายประมาณการของ normalizing คงที่Zจะได้รับจาก Z - 1 = 1θผม0ρZ ถ้าdเป็นมิติของθ(การแก้ไขใช้สำหรับการตัดบอล) และถ้าρมีขนาดเล็กพอสำหรับลูกบอลที่จะไม่ตัดกัน (หมายความว่าตัวบ่งชี้ที่ดีที่สุดเพียงลูกเดียวคือ แตกต่างจากศูนย์) คำอธิบายสำหรับตัวหารαM2คือนี่เป็นผลรวมสองเท่าของคำศัพท์βM2: 1
    Z^-1=1βM2Σม.=1Mผลรวมคู่มากกว่าβM ศูนย์ลูก θผม0และ M การจำลอง θม.ผม(0,ρ)(นาทีผม||θม.-θผม0||){π(θม.)(x|θม.)}-1/πd/2ρdΓ(d/2+1)-1ปริมาตรของลูกที่มีรัศมี ρβMα(θม.)π(θม.)(x|θม.)
    dθραM2βM2 ที่มีระยะเวลาในแต่ละθเมตรการบูรณาการเพื่อZ-1
    1βMΣผม=1βM1MΣม.=1Mยู(θผม0,ρ)(θม.)เช่นเดียวกับ นาที×1π(θม.)(x|θม.)
    θม.Z-1
  2. อีกวิธีคือเปลี่ยนค่าคงที่ normalizing ให้เป็นพารามิเตอร์ มันฟังดูเป็นสถิติเชิงบาป แต่บทความของGuttmann และHyvärinen (2012)ทำให้ฉันมั่นใจในสิ่งที่ตรงกันข้าม โดยไม่ได้รับมากเกินไปเข้าไปในรายละเอียดความคิดที่เรียบร้อยในนั้นคือการเปิดสังเกตล็อกโอกาส n Σฉัน= 1 F ( x ฉัน| θ ) - n เข้าสู่ระบบประสบการณ์( x | θ ) d x เข้าร่วมเข้าสู่ระบบความน่าจะเป็น n i = 1 [ fZ

    Σผม=1n(xผม|θ)-nเข้าสู่ระบบประสบการณ์(x|θ)dx
    ซึ่งเป็นบันทึกความน่าจะเป็นของกระบวนการปัวซองด้วยฟังก์ชันความเข้ม exp { f ( x | θ ) + ν + เข้าสู่ระบบn }
    Σผม=1n[(xผม|θ)+ν]-nประสบการณ์[(x|θ)+ν]dx
    ประสบการณ์{(x|θ)+ν+เข้าสู่ระบบn}
    นี่เป็นแบบจำลองทางเลือกว่าโอกาสดั้งเดิมจะไม่ปรากฏเป็นขอบ เฉพาะโหมดที่เกิดขึ้นพร้อมกับโหมดเงื่อนไขในνให้ค่าคงที่ปกติ ในทางปฏิบัติความเป็นไปได้ของกระบวนการปัวซงข้างต้นไม่สามารถใช้งานได้และGuttmann และHyvärinen (2012)เสนอการประมาณค่าโดยวิธีการถดถอยแบบโลจิสติกส์ ในการเชื่อมต่อที่ดียิ่งขึ้นกับคำถามของคุณการประมาณการของ Geyer เป็น MLE ดังนั้นวิธีการแก้ไขปัญหาการขยายให้ใหญ่สุด
  3. π(θ|x)π(θ|x)ก.(θ)π(θ|x)ก.(θ)) เมื่อ regressors เป็นค่าของความหนาแน่นทั้งสองจะทำให้เป็นมาตรฐานหรือไม่ สิ่งนี้เกิดขึ้นกับการเชื่อมโยงโดยตรงกับการสุ่มตัวอย่างแบบ Gelman และ Meng (1997) ซึ่งจะทำการสุ่มตัวอย่างจากเป้าหมายที่แตกต่างกัน และรุ่นที่ใหม่กว่าเช่น MLE ของ Meng
  4. วิธีการที่แตกต่างกันว่ากองกำลังหนึ่งในการทำงานที่เฉพาะเจาะจง MCMC ตัวอย่างคือการสุ่มตัวอย่างที่ซ้อนกันหลากหลายของ ในขณะที่ฉัน [และคนอื่น ๆ ] มีการจองบางอย่างเกี่ยวกับประสิทธิภาพของวิธีการที่เป็นที่นิยมมากใน astrostatistics และจักรวาลที่มีซอฟต์แวร์ที่สามารถใช้ได้เช่นmultinest
  5. H0:θ=θ0ξπ1(θ)π2(ξ)H0
    B01(x)=πθ(θ0|x)π1(θ0)
    πθ(θ0|x)θθ0H0:θ=θ0
    ม.0(x)=Ξ(x|θ0,ξ)π2(ξ)dξ
    ม.a(x)=Θ×Ξ(x|θ,ξ)π1(θ)π2(ξ)dθdξ

[นี่คือชุดของภาพนิ่งที่ฉันเขียนเกี่ยวกับการประเมินค่าคงที่ normalizing สำหรับการประชุมเชิงปฏิบัติการ NIPS เมื่อเดือนธันวาคมที่ผ่านมา]


2
(+1) คำตอบที่สมบูรณ์อย่างไม่น่าเชื่อขอบคุณ มันจะมีประโยชน์สำหรับฉันและฉันคิดว่าคนอื่น ๆ อีกมากมาย ฉันจะใช้เวลาสักครู่เพื่อดูวิธีการต่างๆแล้วฉันจะกลับมาพร้อมคำถามเฉพาะ
lacerbi

2
เริ่มจากจุด (1) ... ฉันอ่านบทความที่เกี่ยวข้อง "การแก้ไข" ประมาณการค่าเฉลี่ยฮาร์โมนิดูเหมือนว่าสิ่งที่ผมกำลังมองหา มันเป็นระเบียบและง่ายต่อการคำนวณเมื่อให้เอาต์พุต MCMC ดังนั้น ... อะไรที่จับได้? ดูเหมือนว่าวิธีการนี้จะใช้กันอย่างแพร่หลายโดยตัดสินจากการค้นหาอย่างรวดเร็วใน Google Scholar ข้อ จำกัด ของมันคืออะไร? (นอกเหนือจากความจำเป็นในการระบุภูมิภาค HPD ซึ่งฉันคิดว่าอาจกลายเป็นปัญหาสำหรับผู้โปสเตอร์ที่ซับซ้อนมากในมิติสูง) แน่นอนฉันจะลองดู - แต่ฉันสงสัยว่ามีบางสิ่งที่ฉันต้องระวัง
lacerbi

2
ฉันได้เพิ่มรายละเอียดเพิ่มเติมอีกเล็กน้อย: ปัญหาในการใช้เครื่องแบบ HPD คือการหาค่าประมาณที่เหมาะสมสำหรับภูมิภาค HPD ตัวเรือนูนของจุดที่มีค่าหลังสูงนั้นยากที่จะกำหนด (NP?) ในขณะที่ลูกบอลที่อยู่ตรงจุดนั้นอาจตัดกัน
ซีอาน

2
@ ซีอาน: มีประโยชน์มากขอบคุณ! ฉันขอถาม: จากวิธีการทั้งหมดที่กล่าวถึงสิ่งที่จะเป็นคำแนะนำของคุณในขณะนี้หากมองหาวิธีการทั่วไปที่มีแนวโน้มที่จะทำงานออกจากกล่อง ฉันสนใจโดยเฉพาะอย่างยิ่งในกรณีของแบบจำลองที่มีพารามิเตอร์ต่ำ (<50) จำนวนผู้โพสต์ที่ไม่ธรรมดาและความสัมพันธ์ที่แข็งแกร่งระหว่างพารามิเตอร์
Florian Hartig

1
Z
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.