ประเมินข้อมูลเอนโทรปีจากการสุ่มตัวอย่าง Monte Carlo


10

ฉันกำลังมองหาวิธีการที่ช่วยให้การประเมินค่าเอนโทรปีของการกระจายข้อมูลเมื่อวิธีการสุ่มตัวอย่างเชิงปฏิบัติเพียงวิธีเดียวจากการกระจายนั้นคือวิธีมอนติคาร์โล

ปัญหาของฉันไม่เหมือนกับโมเดล Ising มาตรฐานที่โดยทั่วไปใช้เป็นตัวอย่างเบื้องต้นสำหรับการสุ่มตัวอย่าง Metropolis – Hastings ฉันมีการกระจายมากกว่าชุดเช่นฉันมีสำหรับแต่ละA องค์ประกอบเป็นลักษณะเชิงผสมเช่นรัฐไอซิ่งและมีจำนวนสูงมาก ซึ่งหมายความว่าในทางปฏิบัติฉันไม่เคยได้รับตัวอย่างเดียวกันสองครั้งเมื่อสุ่มตัวอย่างจากการแจกจ่ายนี้บนคอมพิวเตอร์ ไม่สามารถคำนวณได้โดยตรง (เนื่องจากไม่รู้ปัจจัยการทำให้ปกติ) แต่อัตราส่วนนั้นง่ายต่อการคำนวณp ( a ) a A a A p ( a ) p ( a 1 ) / p ( a 2 )Ap(a)aAaAพี(a)พี(a1)/พี(a2)

ฉันต้องการประเมินข้อมูลเอนโทรปีของการแจกแจงนี้

S=-ΣaAพี(a)LNพี(a).

อีกทางหนึ่งฉันต้องการประเมินความแตกต่างของเอนโทรปีระหว่างการแจกแจงนี้กับค่าที่ได้จากการ จำกัด ให้เซตย่อย (และแน่นอนว่าการทำให้เป็นมาตรฐานปกติ)aA1A

คำตอบ:


3

หากฉันเข้าใจว่าคุณมีข้อมูลใดอยู่สิ่งที่คุณต้องการไม่สามารถทำได้: ข้อมูลที่คุณมีไม่เพียงพอที่จะกำหนดเอนโทรปี มันไม่เพียงพอที่จะประมาณค่าเอนโทรปี

มันดูเหมือนว่าคุณมีวิธีการตัวอย่างจากการกระจายและคุณมีวิธีการคำนวณอัตราส่วนที่P ( 1 ) / P ( 2 )สำหรับคู่ขององค์ประกอบใด ๆ1 , 2ที่คุณได้รับ ผ่านการสุ่มตัวอย่าง แต่คุณไม่มีข้อมูลอื่น ๆ ถ้าเป็นเช่นนั้นปัญหาของคุณไม่สามารถแก้ไขได้พี()พี(a1)/พี(a2)a1,a2

โดยเฉพาะอย่างยิ่งเราสามารถหาคู่ของการแจกแจงที่มีเอนโทรปีต่างกัน แต่ไม่สามารถแยกแยะได้โดยใช้ข้อมูลที่คุณมี พิจารณาก่อนการกระจายชุดบน (สุ่ม) ชุดของขนาด 200 พิจารณาต่อไปการกระจายชุดบน (สุ่ม) ชุดของขนาด2 300 สิ่งเหล่านี้มีเอนโทรปีต่างกัน (200 บิตเทียบกับ 300 บิต) อย่างไรก็ตามเมื่อคุณได้รับข้อมูลที่มีอยู่คุณไม่มีทางรู้ได้ว่าคุณกำลังทำงานร่วมกับการแจกแจงสองแบบใด โดยเฉพาะอย่างยิ่งในทั้งสองกรณีอัตราส่วนp ( a 1 ) / p ( a 2 )22002300พี(a1)/พี(a2)จะเป็น 1 เสมอดังนั้นอัตราส่วนจะไม่ช่วยให้คุณแยกความแตกต่างระหว่างการแจกแจงสองแบบ และเนื่องจากความขัดแย้งในวันเกิดคุณสามารถสุ่มตัวอย่างได้มากเท่าที่คุณต้องการ แต่คุณจะไม่ได้รับค่าเดิมสองเท่า (ไม่ใช่ภายในอายุการใช้งานของคุณยกเว้นความน่าจะเป็นที่น้อยมาก) ดังนั้นค่าที่คุณได้รับจากการสุ่มตัวอย่าง คะแนนสุ่มและไม่มีข้อมูลที่เป็นประโยชน์

ดังนั้นเพื่อแก้ปัญหาของคุณคุณจะต้องรู้อะไรมากกว่านี้ ตัวอย่างเช่นหากคุณรู้อะไรเกี่ยวกับโครงสร้างของการแจกแจงนั่นอาจทำให้คุณสามารถแก้ปัญหาได้พี()


พี(a)พี(a)αประสบการณ์(θE(a))Eaθ

1
พี(a)

2

สำหรับส่วนที่สองของคำถามของคุณ (การประมาณค่าความแตกต่างของเอนโทรปีระหว่างการแจกแจง) คุณอาจสามารถใช้เอกลักษณ์ที่E เป็นพลังงานเฉลี่ยTคืออุณหภูมิ (เป็นสัดส่วนกับθในp e θ E ) และSคือเอนโทรปี สำหรับรายละเอียดโปรดดู: Jaynes, E. (1957) ทฤษฎีข้อมูลและกลศาสตร์สถิติ การทบทวนทางกายภาพ, 106 (4), 620–630 http://doi.org/10.1103/PhysRev.106.620

F=E-TS,
ETθพีαอีθES

ΔFΔSΔFΔEA1AEA1

ต่อไปนี้เป็นข้อมูลอ้างอิงเพิ่มเติมสองประการเกี่ยวกับอัลกอริทึมสำหรับการคำนวณพลังงานฟรี:

Lelièvre, T. , Rousset, M. , & Stoltz, G. (2010) การคำนวณพลังงานฟรี สำนักพิมพ์วิทยาลัยอิมพีเรียล http://doi.org/10.1142/9781848162488

Chipot, C. , & Pohorille, A. (2007) การคำนวณพลังงานฟรี (C. Chipot & A. Pohorille, Eds.) (ฉบับที่ 86) เบอร์ลิน, ไฮเดลเบิร์ก: สปริงเกอร์เบอร์ลินไฮเดลเบิร์ก http://doi.org/10.1007/978-3-540-38448-9


คุณสามารถให้การอ้างอิงเชิงปฏิบัติมากขึ้นสำหรับการคำนวณความแตกต่างของพลังงานได้ฟรี วิกินั้นไม่ไกลมาก
Charles Wells

เสร็จสิ้น ฉันเพิ่มการอ้างอิงอีกสองรายการและชี้ไปที่ลิงก์ในแถบด้านข้างของวิกิ
Juan M. Bello-Rivas
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.