ABC และ MCMC ต่างกันอย่างไรในแอปพลิเคชันของพวกเขา


15

เพื่อความเข้าใจของฉันการคำนวณแบบเบย์โดยประมาณ (ABC) และมาร์คอฟเชนมอนติคาร์โล (MCMC) มีจุดมุ่งหมายที่คล้ายกันมาก ด้านล่างฉันอธิบายความเข้าใจของฉันเกี่ยวกับวิธีการเหล่านี้และฉันเข้าใจความแตกต่างในการนำไปใช้กับข้อมูลในชีวิตจริงได้อย่างไร

การคำนวณแบบเบย์โดยประมาณ

เอบีซีประกอบด้วยที่สุ่มตัวอย่างพารามิเตอร์จากก่อนผ่านตัวเลขการจำลองการคำนวณสถิติx ฉันซึ่งเป็นเมื่อเทียบกับบางสังเกตx o s จากอัลกอริธึมการปฏิเสธx iถูกเก็บไว้หรือปฏิเสธ รายการสะสมx ฉัน s ทำให้การกระจายหลังθxixobsxixi

มาร์คอฟเชนมอนติคาร์โล

MCMC ประกอบด้วยที่สุ่มตัวอย่างกระจายก่อนของพารามิเตอร์θใช้ตัวอย่างแรกθ 1คำนวณP ( x o b s | θ 1 ) P ( θ 1 )แล้วข้าม (ตามกฎบางอย่าง) ไปยังค่าใหม่θ 2ซึ่งP ( x o b s | θ 2 )คำนวณP ( θ 2 )อีกครั้ง อัตราส่วนP ( x o b sθθ1P(xobs|θ1)P(θ1)θ2P(xobs|θ2)P(θ2)ถูกคำนวณและขึ้นอยู่กับค่าเกณฑ์บางอย่างการกระโดดครั้งต่อไปจะเกิดขึ้นจากตำแหน่งแรกหรือตำแหน่งที่สอง การสำรวจθค่าไปอีกหนึ่งและเป็นหนึ่งและในตอนท้ายของการกระจายของสะสมθค่าคือการกระจายหลังP(θ|x)(สำหรับเหตุผลที่ว่ายังไม่ทราบค่ะ)P(xโอs|θ2)P(θ2)P(xโอs|θ1)P(θ1)θθP(θ|x)

ฉันรู้ว่าคำอธิบายของฉันพลาดที่จะแสดงความหลากหลายของวิธีการที่มีอยู่ภายใต้ข้อกำหนดเหล่านี้แต่ละข้อ (โดยเฉพาะอย่างยิ่งสำหรับ MCMC)

ABC กับ MCMC (ข้อดีและข้อเสีย)

ABC มีข้อได้เปรียบที่ไม่จำเป็นต้องสามารถวิเคราะห์ได้ ด้วยเหตุนี้ ABC จึงสะดวกสำหรับรุ่นที่ซับซ้อนที่ MCMC ไม่สามารถทำได้P(x|θ)P(θ)

MCMC อนุญาตให้ทำการทดสอบทางสถิติ (การทดสอบอัตราส่วนความน่าจะเป็น, การทดสอบ G, ... ) ในขณะที่ฉันไม่คิดว่านี่เป็นไปได้ด้วย ABC

ตอนนี้ฉันถูกไหม?

คำถาม

  • ABC และ MCMC ต่างกันอย่างไรในแอปพลิเคชันของพวกเขา เราตัดสินใจใช้ประโยชน์จากวิธีใดวิธีหนึ่งได้อย่างไร

1
"MCMC ประกอบด้วยการสุ่มตัวอย่างการแจกแจงก่อนหน้าของพารามิเตอร์θ" ในขณะที่เราสามารถทำสิ่งนี้ได้อย่างแน่นอนไม่จำเป็นหรือไม่เป็นที่พึงปรารถนาในกรณีส่วนใหญ่ สำหรับแอปพลิเคชัน MCMC จำนวนมากเราสุ่มตัวอย่างθ2จากการแจกแจงผู้สมัครที่มีศูนย์กลางอยู่ที่θ1 (เช่น gaussian ที่มีค่าเบี่ยงเบนมาตรฐานเล็กน้อย) จากนั้นคำนวณอัตราส่วนการยอมรับ / ปฏิเสธตามที่คุณกล่าวถึงข้างต้น สิ่งนี้ตรงกันข้ามกับ ABC ซึ่งเราสุ่มตัวอย่างจากก่อนหน้า (และนี่เป็นวิธีเดียวในการรวมข้อมูลก่อนหน้านี้ใน ABC โดยทั่วไป)
z_dood

คำตอบ:


12

ความเห็นเพิ่มเติมบางประการเกี่ยวกับคำตอบของBjörn:

  1. ABC ได้รับการแนะนำครั้งแรกโดย Rubin (1984) เป็นคำอธิบายถึงลักษณะของการอนุมานแบบเบย์มากกว่าเพื่อวัตถุประสงค์ในการคำนวณ ในบทความนี้เขาอธิบายว่าการกระจายตัวตัวอย่างและการกระจายก่อนหน้านั้นมีผลต่อการสร้างการกระจายตัวด้านหลังอย่างไร

  2. อย่างไรก็ตามเอบีซีถูกนำไปใช้เป็นหลักในการคำนวณ นักพันธุศาสตร์ประชากรเกิดขึ้นกับวิธีการในแบบจำลองที่ใช้ต้นไม้ซึ่งโอกาสของตัวอย่างที่สังเกตได้ยาก รูปแบบ MCMC (การเพิ่มข้อมูล) ที่มีอยู่ในการตั้งค่าดังกล่าวไม่มีประสิทธิภาพอย่างมากและมีการสุ่มตัวอย่างที่สำคัญแม้จะมีพารามิเตอร์ของมิติเดียว ... ที่แกนหลักของ ABC คือวิธีทดแทน Monte Carlo เช่น MCMC หรือ PMC เมื่อ สิ่งเหล่านี้ไม่สามารถใช้ได้กับทุกวัตถุประสงค์ เมื่อพร้อมใช้งาน ABC จะปรากฏขึ้นเป็นพร็อกซีที่อาจใช้ในการปรับเทียบหากทำงานเร็วขึ้น

  3. ในมุมมองที่ทันสมัยยิ่งขึ้นฉันคิดว่า ABC เป็นวิธีการอนุมานโดยประมาณแทนที่จะใช้เทคนิคการคำนวณ ด้วยการสร้างแบบจำลองโดยประมาณเราสามารถอนุมานพารามิเตอร์ที่น่าสนใจได้โดยไม่จำเป็นต้องอาศัยโมเดลที่แม่นยำ แม้ว่าการตรวจสอบความถูกต้องในระดับหนึ่งนั้นมีความจำเป็นในการตั้งค่านี้ แต่ก็ไม่ถูกต้องน้อยกว่าการใช้แบบจำลองเฉลี่ยหรือไม่ใช่พารามิเตอร์ ในความเป็นจริง ABC สามารถถูกมองว่าเป็นสถิติแบบเบส์แบบไม่อิงพารามิเตอร์แบบพิเศษ

  4. นอกจากนี้ยังสามารถแสดงให้เห็นว่า (เสียงดัง) ABC เป็นวิธีการแบบเบส์ที่กำหนดไว้อย่างสมบูรณ์หากมีใครมาแทนที่รูปแบบเดิมและข้อมูลด้วยเสียงที่ดัง เช่นนี้จะช่วยให้การอนุมานแบบเบย์ทั้งหมดสามารถคิดได้ รวมถึงการทดสอบ การป้อนข้อมูลของเราในการอภิปรายเกี่ยวกับ ABC และการทดสอบสมมติฐานคือโมเดลต้นแบบพื้นฐาน ABC อาจจบลงด้วยคุณภาพที่ไม่ดีพอที่จะประเมินความเกี่ยวข้องของสมมติฐานที่ได้รับจากข้อมูล แต่ไม่จำเป็นซึ่งเป็นเพียงการประยุกต์ใช้ ABC ในประชากรส่วนใหญ่ พันธุศาสตร์เกี่ยวข้องกับการเลือกรูปแบบ

  5. ในมุมมองที่ใหม่กว่านี้เราสามารถเห็น ABC เป็นแบบอนุมานทางอ้อมแบบเบย์ซึ่งพารามิเตอร์ของตัวแบบสถิตินั้นสัมพันธ์กับช่วงเวลาของสถิติที่กำหนดล่วงหน้า หากสถิตินี้เพียงพอ (หรือเพียงพอในภาษาพื้นถิ่น) เพื่อระบุพารามิเตอร์เหล่านี้ ABC สามารถแสดงให้เห็นถึงการลู่เข้าสู่มูลค่าที่แท้จริงของพารามิเตอร์ด้วยจำนวนการสังเกต


2
ฉันตรวจสอบคำตอบนี้แล้ว แต่ต้องการแนะนำให้อ่านคำตอบของ @ Björnก่อน (+1) จากนั้นคำตอบของซีอาน
Remi.b

12

P(x|θ)θข้อมูลจำลองบ่อยที่สุด (โดยประมาณ) ตรงกับข้อมูลที่สังเกต (ด้วยค่าที่เสนอเช่นวาดแบบสุ่มจากก่อนหน้า) สำหรับกรณีง่าย ๆ เช่นตัวแปรสุ่มแบบทวินามเดียวที่มีขนาดตัวอย่างไม่ใหญ่เกินไปคุณสามารถต้องการการจับคู่ที่แน่นอนและในกรณีเหล่านั้นไม่มีอะไรที่คุณไม่สามารถทำได้กับตัวอย่างหลังเหล่านี้ซึ่งคุณไม่สามารถทำได้ด้วย ตัวอย่าง MCMC มาตรฐาน สำหรับสถานการณ์ที่ซับซ้อนมากขึ้นที่มีอย่างต่อเนื่อง (แม้กระทั่งผลลัพธ์หลายตัวแปรแบบต่อเนื่อง) และผลลัพธ์หลายตัวแปรที่อาจต้องใช้การจับคู่แบบตรงไม่สามารถทำได้อีกต่อไป

ในความเป็นจริงแล้วมีเวอร์ชัน ABC ของ MCMC ซึ่งแก้ไขปัญหาที่ว่าหากคุณมีรุ่นก่อนหน้าซึ่งไม่ได้มีลักษณะคล้ายกับหลัง (เช่นเพราะก่อนหน้านี้ไม่มีความรู้เรื่องตัวอย่างมาก) โดยการวาดจากรุ่นก่อนจะไม่มีประสิทธิภาพมากนัก รับการจับคู่อย่างใกล้ชิดระหว่างข้อมูลที่สังเกตและข้อมูลจำลอง

P(x|θ)P(x|θ)P(x|θ)ไม่สามารถวิเคราะห์ได้ แน่นอนว่าอาจมีตัวเลือกอื่น ๆ ที่เป็นไปได้ในกรณีดังกล่าว (เช่น INLA, การประมาณกำลังสองเพื่อโอกาส ฯลฯ ) ที่อาจมีประสิทธิภาพมากกว่า / ประสบความสำเร็จสำหรับปัญหาเฉพาะ ในทางหนึ่งข้อ จำกัด ใด ๆ ที่คุณสามารถทำได้กับตัวอย่างหลังจาก ABC มาจากต้องการการจับคู่แบบ aproximate ระหว่างข้อมูลจริงและข้อมูลจำลอง (ถ้าคุณต้องการการจับคู่แบบตรงทั้งหมดจะไม่มีปัญหาเลย) มีเอกสารเกริ่นนำที่ดีหลายอย่างเช่นบทความนี้โดยMarin และคณะ (2012) อย่างน้อยหนึ่งในผู้เขียนร่วม (@ ซีอาน) เป็นผู้มีส่วนร่วมที่นี่และฉันก็ชอบที่นี่ความคิดของเขาเช่นกัน - ฉันเชื่อว่าเขาอาจจะพูดมากขึ้นในหัวข้อการทดสอบ


ฉันหวังว่าฉันสามารถแก้ไขลิงก์ได้ในขณะนี้ (ใช้งานได้สำหรับฉัน)
Björn

1
(+1) คะแนนดีมาก!
ซีอาน

1
"เมื่อ P (x | θ) พร้อมใช้งานเชิงวิเคราะห์ฉันคิดว่ามันจะดีกว่าถ้าใช้ MCMC มาตรฐาน" เกือบ แต่ไม่เสมอไป ลองนึกภาพหนึ่งมีขนาดตัวอย่างขนาดใหญ่มาก (10 ^ 9) รวมกับพารามิเตอร์หลายตัว มันมีราคาแพงมากในการคำนวณความน่าจะเป็นสำหรับพารามิเตอร์แต่ละชุด ด้วย ABC มีเทคนิคมากมายที่สามารถใช้เพื่อเร่งความเร็วนี้ ด้วย MCMC ไม่มาก
z_dood

2
@z_dood: เมื่อมีข้อสังเกตมากมายเกินกว่าที่จะคำนวณความเป็นไปได้อย่างแท้จริงเช่นเมื่อพวกเขาจำเป็นต้องจัดเก็บไว้ในคอมพิวเตอร์ที่แตกต่างกัน
ซีอาน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.