มาตรฐานประสิทธิภาพสำหรับ MCMC


14

เคยมีการศึกษาขนาดใหญ่ของวิธีการ MCMC ที่เปรียบเทียบประสิทธิภาพของอัลกอริทึมที่แตกต่างกันหลายชุดในชุดทดสอบความหนาแน่นหรือไม่? ฉันกำลังคิดถึงบางสิ่งที่เทียบเท่ากับกระดาษของ Rios และ Sahinidis (2013) ซึ่งเป็นการเปรียบเทียบอย่างละเอียดเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพกล่องดำแบบไร้อนุพันธ์จำนวนมากในฟังก์ชั่นการทดสอบหลายชั้น

สำหรับ MCMC สามารถประเมินประสิทธิภาพได้เช่นจำนวนตัวอย่างที่มีประสิทธิภาพ (ESS) ต่อการประเมินความหนาแน่นหรือตัวชี้วัดอื่น ๆ ที่เหมาะสม

ความคิดเห็นไม่กี่:

  • ฉันขอขอบคุณที่ประสิทธิภาพจะขึ้นอยู่กับรายละเอียดของเป้าหมาย PDF แต่ข้อโต้แย้งที่คล้ายกัน (อาจไม่เหมือนกัน) สำหรับการเพิ่มประสิทธิภาพและยังมีฟังก์ชั่นมาตรฐานห้องสวีทการแข่งขันเอกสารและอื่น ๆ ที่เกี่ยวข้องกับการเพิ่มประสิทธิภาพการเปรียบเทียบ อัลกอริทึม

  • นอกจากนี้มันเป็นความจริงที่ MCMC แตกต่างจากการปรับให้เหมาะสมเมื่อเปรียบเทียบกับการดูแลและปรับแต่งที่จำเป็นจากผู้ใช้ อย่างไรก็ตามขณะนี้มีวิธีการ MCMC หลายวิธีที่ต้องการการปรับแต่งเพียงเล็กน้อยหรือไม่มีเลย: วิธีการปรับตัวในเฟสเบิร์นอิน, ในระหว่างการสุ่มตัวอย่าง, หรือหลายรัฐ (หรือเรียกว่าensemble ) วิธีการ (เช่นEmcee ) ข้อมูลจากโซ่อื่น ๆ เพื่อเป็นแนวทางในการสุ่มตัวอย่าง

  • ฉันสนใจเป็นพิเศษในการเปรียบเทียบระหว่างวิธีมาตรฐานและหลายรัฐ (aka ensemble) สำหรับคำจำกัดความของหลายรัฐโปรดดูมาตรา 30.6 ของหนังสือของ MacKay :

ในวิธีการหลายรัฐจะมีการปรับปรุงพารามิเตอร์หลายเวกเตอร์พวกเขาพัฒนาเป็นรายบุคคลภายใต้การเคลื่อนไหวเช่น Metropolis และ Gibbs; นอกจากนี้ยังมีปฏิสัมพันธ์ระหว่างเวกเตอร์x

  • คำถามนี้มาจากที่นี่

ปรับปรุง

คำตอบ:


5

หลังจากการค้นหาออนไลน์ฉันได้รับความประทับใจว่าเกณฑ์มาตรฐานที่ครอบคลุมของวิธีการ MCMC ที่จัดตั้งขึ้นซึ่งคล้ายกับสิ่งที่เราสามารถพบได้ในวรรณคดีการเพิ่มประสิทธิภาพไม่มีอยู่จริง (ฉันยินดีที่จะผิดที่นี่)

เป็นการง่ายในการค้นหาการเปรียบเทียบวิธี MCMC สองสามรายการกับปัญหาเฉพาะภายในโดเมนที่ใช้ สิ่งนี้จะไม่เป็นไรหากเราสามารถรวบรวมข้อมูลนี้ได้อย่างไรก็ตามคุณภาพของการวัดมาตรฐานดังกล่าวมักจะไม่เพียงพอ (เช่นเนื่องจากการขาดตัวชี้วัดที่รายงานหรือตัวเลือกการออกแบบที่ไม่ดี)

ในเรื่องต่อไปนี้ฉันจะโพสต์สิ่งที่ฉันเชื่อว่าเป็นผลงานที่มีค่าเมื่อฉันพบพวกเขา:

  • Nishihara, Murray และ Adams, MCMC แบบขนานพร้อมการสุ่มตัวอย่าง Slice Elliptical สุ่มตัวอย่าง JMLR (2014) ผู้เขียนเสนอวิธีการแบบหลายรัฐนวนิยาย GESS และดำเนินการเปรียบเทียบกับวิธีการรัฐเดี่ยวและรัฐอื่น ๆ อีก 6 วิธีในการทดสอบฟังก์ชั่น 7 รายการ พวกเขาประเมินประสิทธิภาพเป็น ESS (ขนาดตัวอย่างที่มีประสิทธิภาพ) ต่อวินาทีและต่อการประเมินฟังก์ชั่น

  • SamplerCompareเป็นแพ็คเกจ R ที่มีเป้าหมายในการเปรียบเทียบอัลกอริทึม MCMC - สิ่งที่ฉันถามในคำถามเดิมของฉันคืออะไร น่าเสียดายที่แพ็คเกจนี้มีฟังก์ชั่นการทดสอบเพียงเล็กน้อยเท่านั้น กระดาษที่แนบมารายงานไม่มีมาตรฐานที่แท้จริง (เป็นเพียงตัวอย่างเล็ก ๆ ); และดูเหมือนว่าจะไม่มีการติดตาม

Thompson, Madeleine B. "รู้เบื้องต้นเกี่ยวกับ Sampler เปรียบเทียบ" วารสารซอฟต์แวร์สถิติ 43.12 (2011): 1-10 ( ลิงก์ )


ลิงค์ที่สองของคุณเสียชีวิตคุณสามารถเปลี่ยนเป็นลิงค์ที่ใช้งานได้หรือไม่?
ทิม

คุณอาจต้องการดูรายงานฉบับเดือนธันวาคม 2560 นี้: Ryan Turner & Brady Neal ตัวอย่างของคุณทำงานได้ดีแค่ไหน? ดูเหมือนว่าจะมีวิธีการแก้ปัญหาที่เป็นระเบียบสำหรับปัญหานี้ในการหาเกณฑ์มาตรฐานที่ดีสำหรับอัลกอริทึม MCMC
Carl

2

ฉันจะเห็นด้วยกับการประเมินของคุณว่าไม่มีเกณฑ์มาตรฐานครอบคลุมสำหรับวิธีการ MCMC นี่เป็นเพราะทุกตัวอย่าง MCMC มีข้อดีข้อเสียและเป็นปัญหาที่เฉพาะเจาะจงอย่างยิ่ง

ในการตั้งค่าการสร้างแบบจำลองแบบเบย์ทั่วไปคุณสามารถเรียกใช้ตัวอย่างเดียวกันด้วยอัตราการผสมที่หลากหลายเมื่อข้อมูลแตกต่างกัน ฉันจะไปบอกว่าถ้าในอนาคตมีการศึกษาเปรียบเทียบที่ครอบคลุมของตัวอย่าง MCMC ต่างๆฉันจะไม่ไว้วางใจผลลัพธ์ที่จะนำมาใช้นอกตัวอย่างที่แสดง

เกี่ยวกับการใช้ ESS เพื่อประเมินคุณภาพการสุ่มตัวอย่างเป็นสิ่งที่ควรค่าแก่การกล่าวถึงว่า ESS ขึ้นอยู่กับปริมาณที่จะประมาณจากตัวอย่าง ถ้าคุณต้องการหาค่าเฉลี่ยของตัวอย่าง ESS ที่ได้รับจะแตกต่างจากถ้าคุณต้องการประมาณควอนไทล์ที่ 25 ต้องบอกว่าถ้าปริมาณของดอกเบี้ยคงที่ ESS เป็นวิธีที่เหมาะสมในการเปรียบเทียบแซมเพลอร์ บางทีความคิดที่ดีกว่าคือ ESS ต่อหน่วยเวลา

หนึ่งข้อบกพร่องกับ ESS คือสำหรับปัญหาการประเมินหลายตัวแปร ESS ส่งคืนขนาดตัวอย่างที่มีประสิทธิภาพสำหรับแต่ละองค์ประกอบแยกกันโดยไม่สนใจความสัมพันธ์ข้ามทั้งหมดในกระบวนการประมาณ ในนี้กระดาษเมื่อเร็ว ๆ นี้ ESS หลายตัวแปรได้รับการเสนอและดำเนินการในRแพคเกจผ่านฟังก์ชั่นmcmcse multiESSมันไม่ชัดเจนว่าวิธีนี้เปรียบเทียบกับ ESS ของcodaแพคเกจได้อย่างไรในตอนแรกดูเหมือนว่ามีเหตุผลมากกว่าวิธีการที่ไม่เปลี่ยนแปลง ESS


2
(+1) ขอบคุณสำหรับคำตอบ ฉันเห็นด้วยกับบางประเด็นของคุณ แต่ฉันยังคงคิดว่าข้อมูลบางอย่างอาจได้รับจากเกณฑ์มาตรฐานดังกล่าว วิธีหนึ่งใช้ผลลัพธ์ของการวัดประสิทธิภาพดังกล่าวเพื่อเป็นแนวทางในการเลือกอนาคตขึ้นอยู่กับพวกเขา - แต่หลักฐานบางอย่างดีกว่าไม่มีหลักฐาน ข้อดีของ ESS โดยหลายรัฐฉันหมายถึงหลายรัฐ (หรือหลายห่วงโซ่หากคุณต้องการ) ไม่ใช่แค่หลายตัวแปร - ดูคำพูดจากหนังสือของ MacKay ในคำถามเดิมของฉัน
lacerbi

2
โดยทั่วไปแล้วตัวอย่างบางตัวนั้นมีประสิทธิภาพในการกระจายสัญญาณแบบหลากหลาย (MH, Gibbs) และบางตัวก็ไม่ดีสำหรับการรองรับแบบไม่นูน (MC MC มิลโตเนียน) ในทางกลับกันสำหรับปัญหามิติสูงมิลโตเนียน MC ทำงานได้ดีและสำหรับการกระจายแบบหลายมิติจำลองการแบ่งเบาบรรเทาอารมณ์เป็นสิ่งที่ดี ในการทำการเปรียบเทียบใด ๆหนึ่งอาจต้องกำหนดคลาสแบบกว้าง ๆ ของการแจกแจงเป้าหมาย (แบบเอ็กซ์โปเนนเชียลย่อย, บันทึกเว้า ฯลฯ ) เพื่อให้สามารถตีความได้
Greenparker

1
ใช่นั่นคือจุดรวมของการสร้างมาตรฐานสำหรับคลาสอัลกอริทึม ดูตัวอย่างนี้สำหรับการเพิ่มประสิทธิภาพทั่วโลก เห็นได้ชัดว่าเกณฑ์มาตรฐานสำหรับ MCMC ไม่สามารถยืมสิ่งที่มีอยู่เพื่อการเพิ่มประสิทธิภาพเท่านั้น ไม่จำเป็นต้องมุ่งเน้นไปที่คุณสมบัติของความหนาแน่นเป้าหมายที่เฉพาะเจาะจงทั่วไปและน่าสนใจสำหรับปัญหา MCMC ดังที่คุณกล่าวถึง
lacerbi
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.