ทำไมคนหลัง Bayesian จึงมุ่งไปที่ตัวย่อของ KL divergence?


9

พิจารณาคชกรรมหลังX asymptotically, สูงสุดเกิดขึ้นใน MLE ประมาณการที่เพิ่งเพิ่มโอกาส(X)θ|Xθ^argminθθ(X)

แนวคิดทั้งหมดเหล่านี้ - นักบวชชาว Bayesian, เพิ่มความเป็นไปได้สูงสุด - ให้เสียงที่ดีเลิศและไม่เป็นไปตามอำเภอใจ ไม่มีการลงชื่อเข้าใช้

แต่ MLE จะลดความแตกต่างของ KL ให้น้อยที่สุดระหว่างการกระจายจริงและเช่นจะย่อเล็กสุด~θ(x)

KL(~θ)=-+~(x)[เข้าสู่ระบบ~(x)-เข้าสู่ระบบθ(x)]dx

ว้าว - บันทึกเหล่านี้มาจากไหน ทำไม KL แตกต่างกันเป็นพิเศษ?

ยกตัวอย่างเช่นทำไมการลดความแตกต่างที่แตกต่างไม่ตรงกับแนวคิดที่มีหลักการและแรงบันดาลใจมากที่สุดของการตกแต่งโปสเตอร์ของเบย์และการเพิ่มโอกาสสูงสุดด้านบน?

ดูเหมือนจะมีบางสิ่งที่พิเศษเกี่ยวกับ KL divergence และ / หรือบันทึกในบริบทนี้ แน่นอนว่าเราสามารถโยนมือของเราขึ้นไปในอากาศและบอกว่าเป็นวิธีคณิตศาสตร์ แต่ฉันสงสัยว่าอาจมีสัญชาตญาณหรือการเชื่อมต่อที่ลึกกว่าที่จะเปิดเผย


คุณสามารถค้นหาแนวคิดบางอย่างได้ที่นี่: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen

@kjetilbhalvorsen ชื่อก่อนหน้านี้ฟังดูเหมือนซ้ำซ้อน ฉันขอโทษ. ฉันได้ทำการแก้ไขแล้วและควรชัดเจนว่าทำไมคำถามนี้ไม่ซ้ำกัน
Yatharth Agarwal

คำถามอื่น ๆ ถามว่า "KL แตกต่างกันอย่างไรและทำไมจึงไม่สมมาตรกัน" คำตอบอธิบายแนวคิดของความแตกต่างและข้อมูลบางอย่างเกี่ยวกับ KL ในทางตรงกันข้ามคำถามนี้ถามว่า“ ทำไมคนหลังเบส์ถึงมีสมาธิรอบตัวเล็กที่สุดของ KL divergence?” เพียงอธิบายว่าการแตกต่างไม่จำเป็นต้องสมมาตรและการอธิบาย KL และการระบุ KL เชื่อมต่อกับ MLE ล้มเหลวในการตอบคำถามที่นี่: เหตุใด KL ที่แตกต่างกันหลายประการโดยเฉพาะการเชื่อมต่อกับ Bayesian ด้านหลังเป็นพิเศษ มันสมเหตุสมผลหรือไม่
Yatharth Agarwal

ใช่มันสมเหตุสมผล แต่ก็ยังมีปัญหาอยู่ ด้านหลังยังขึ้นอยู่กับก่อนหน้านี้และหากมีความแข็งแกร่งด้านหลังจะมีระยะห่างจากจุดสูงสุด แต่ก่อนหน้านี้จะหายไปจากคำถามของคุณ
kjetil b halvorsen

@kjetilbhalversen ฉันหมายถึง asymptotically กับตัวอย่าง IID มากขึ้นและมากขึ้นและภายใต้เงื่อนไข (เข้มงวด) ซึ่งก่อนหน้านี้ไม่สำคัญกับ asymptotically!
Yatharth Agarwal

คำตอบ:


5

การใช้งานของลอการิทึมในการคำนวณเช่นนี้มาจากทฤษฎีสารสนเทศ ในกรณีที่เฉพาะเจาะจงของ KL divergence การวัดสามารถตีความได้ว่าเป็นข้อมูลที่สัมพันธ์กันของการแจกแจงสองแบบ:

KL(~θ)=-~(x)(เข้าสู่ระบบ~(x)-เข้าสู่ระบบθ(x)) dx=(--~(x)เข้าสู่ระบบθ(x) dxH(~,θ))-(--~(x)เข้าสู่ระบบ~(x) dxH(~)),

ที่เป็นเอนโทรปีของและเป็นข้ามเอนโทรปีของและf_เอนโทรปีถือได้ว่าเป็นมาตรการของอัตราเฉลี่ยของความหนาแน่น (คิดว่าข้าม - เอนโทรปีมีความซับซ้อนมากขึ้น) การลดความแตกต่างของ KL ให้เหลือน้อยที่สุดสำหรับค่าคงที่ (ในปัญหาที่คุณพูดถึง) เทียบเท่ากับการลดการข้ามเอนโทรปีและการเพิ่มประสิทธิภาพนี้สามารถทำให้เกิดการตีความข้อมูลเชิงทฤษฎีH(~)~H(~,θ)~θ~

ฉันไม่สามารถให้ทฤษฎีบัญชีข้อมูลที่ดีและคุณสมบัติของมาตรการข้อมูลได้ในระยะสั้น อย่างไรก็ตามฉันขอแนะนำให้ดูที่ฟิลด์เนื่องจากมีการเชื่อมต่อกับสถิติอย่างใกล้ชิด มาตรการทางสถิติมากมายที่เกี่ยวข้องกับอินทิกรัลและผลรวมของลอการิทึมของความหนาแน่นเป็นการรวมกันอย่างง่ายของมาตรการข้อมูลมาตรฐานที่ใช้ในทฤษฎีการวัดและในกรณีเช่นนั้นพวกเขาสามารถตีความในแง่ของระดับข้อมูลพื้นฐานในความหนาแน่นต่าง ๆ เป็นต้น


กำลังมองหาทฤษฎีข้อมูลข่าวสารที่มีแนวโน้ม! ขอบคุณที่ชี้นำฉัน
Yatharth Agarwal

เห็นได้ชัดว่าคุณไม่สามารถอธิบายเขตข้อมูลทางคณิตศาสตร์ทั้งหมดในโพสต์ StackExchange ได้ แต่คุณจะมีการอ้างอิงเฉพาะใด ๆ กับบันทึกเหล่านั้นหรือไม่
Yatharth Agarwal

ฉันแค่คิดว่ามันมีสัญชาตญาณลึก ๆ ว่าทำไมพูดอีอยู่ในสมการของออยเลอร์และเช่นนั้นมีสัญชาตญาณคล้ายซุ่มซ่อน บางทีผลิตภัณฑ์ที่ทำให้เกิดลอการิทึมธรรมชาติเกิดขึ้น ฉันไม่แน่ใจ.
Yatharth Agarwal

@ Yatharth the ลอการิทึมเกิดขึ้นที่นี่เพราะมันมีบทบาทสำคัญในความหมายของเอนโทรปีของแชนนอน สำหรับ "ทำไม" ลอการิทึมที่เหมาะสมสำหรับการวัดข้อมูลเมื่อเทียบกับฟังก์ชั่นอื่นให้ดูที่บทที่ 2 ใน "ทฤษฎีทางคณิตศาสตร์ของการสื่อสาร" ของแชนนอน นอกจากนี้ "ทฤษฎีข้อมูลและสถิติเชิงสถิติ" ของเจย์นีก็เป็นสิ่งที่น่าสนใจเช่นกัน
เนทสมเด็จพระสันตะปาปา
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.