การทำคลัสเตอร์: ฉันควรใช้ Jensen-Shannon Divergence หรือจตุรัสของมันหรือไม่?


15

ฉันจัดกลุ่มการแจกแจงความน่าจะเป็นโดยใช้อัลกอริธึมการขยายความสัมพันธ์และฉันวางแผนที่จะใช้ Jensen-Shannon Divergence เป็นตัวชี้วัดระยะทางของฉัน

มันถูกต้องหรือไม่ที่จะใช้ JSD เป็นระยะทางหรือ JSD กำลังสอง? ทำไม? ความแตกต่างอะไรจะเป็นผลมาจากการเลือกอย่างใดอย่างหนึ่ง?

คำตอบ:


20

ฉันคิดว่ามันขึ้นอยู่กับวิธีการใช้งาน

สำหรับการอ้างอิงสำหรับผู้อ่านรายอื่นเท่านั้นหากและQเป็นมาตรการความน่าจะเป็นดังนั้น Jensen-Shannon Divergence คือ J ( P , Q ) = 1PQ โดยที่R=1

J(P,Q)=12(D(P||R)+D(Q||R))
เป็นจุดกึ่งกลางและD()คือ Kullback-Leibler divergenceR=12(P+Q)D(||)

ตอนนี้ฉันจะถูกล่อลวงให้ใช้สแควร์รูทของ Jensen-Shannon Divergence เพราะมันเป็นตัวชี้วัดนั่นคือมันตอบสนองทุกคุณสมบัติ "สัญชาตญาณ" ของการวัดระยะทาง

สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับสิ่งนี้โปรดดู

Endres และ Schindelin, เมตริกใหม่สำหรับการแจกแจงความน่าจะเป็น , IEEE ทรานส์ บนข้อมูล ของเจ้า ฉบับ 49, ไม่มี 3 ก.ค. 2003 หน้า 1858-1860

แน่นอนในบางแง่มันขึ้นอยู่กับสิ่งที่คุณต้องการ หากสิ่งที่คุณใช้เพื่อประเมินค่าการวัดแบบคู่บางอย่างการแปลงแบบโมโนสโทนิกของ JSD จะทำงานได้ หากคุณกำลังมองหาบางสิ่งที่ใกล้เคียงกับ "กำลังสองระยะ" แล้ว JSD เองก็เป็นปริมาณที่คล้ายกัน

อนึ่งคุณอาจสนใจคำถามก่อนหน้านี้และคำตอบและการสนทนาที่เกี่ยวข้อง


เยี่ยมฉันจะอ่าน "ตัวชี้วัดใหม่สำหรับการแจกแจงความน่าจะเป็น" โดยเร็วที่สุด Txh
ocram

ขอบคุณ! ฉันไม่ทราบว่า JSD นั้นคล้ายกับ dist ** 2
AlcubierreDrive

ขอบคุณสำหรับคำอธิบายที่ดี! แค่คำถามด่วน ฉันรู้ว่า J-Divergence J(P,Q) = J(Q,P)สมมาตรในการที่ ฉันอ่านว่า JS divergence นั้นสมมาตรใน P และ Q. นี่หมายถึงJS(P,Q) = JS(Q,P)อะไร? ผมขอให้เรื่องนี้เพราะผมใช้KLdivฟังก์ชั่นจากแพคเกจในflexmix Rสำหรับการแจกแจงสองแบบของฉันเอาท์พุทเมทริกซ์จาก KLdiv นั้นไม่สมมาตร ฉันคาดหวังว่า JS จะแก้ไขสิ่งนี้ แต่เอาต์พุตจาก JS (คำนวณโดยใช้ KL) ไม่ได้เป็นแบบสมมาตร
ตำนาน

1
PQ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.