Kullback – Leibler vs Kolmogorov-Smirnov ระยะทาง


37

ฉันเห็นได้ว่ามีความแตกต่างอย่างเป็นทางการระหว่าง Kullback – Leibler กับ Kolmogorov-Smirnov อย่างไรก็ตามทั้งสองถูกใช้เพื่อวัดระยะห่างระหว่างการแจกแจง

  • มีสถานการณ์ทั่วไปที่ควรใช้อย่างใดอย่างหนึ่งแทนอีกสถานการณ์หนึ่งหรือไม่?
  • เหตุผลที่ต้องทำคืออะไร?

คำถามที่เกี่ยวข้อง: stats.stackexchange.com/questions/4/…
GaBorgulya

คำตอบ:


23

KL-divergence โดยทั่วไปจะใช้ในการตั้งค่าข้อมูลเชิงทฤษฎีหรือแม้แต่การตั้งค่าแบบเบย์เพื่อวัดการเปลี่ยนแปลงข้อมูลระหว่างการแจกแจงก่อนและหลังการใช้การอนุมาน มันไม่ใช่ระยะทางในความหมายทั่วไป (ตัวชี้วัด) เนื่องจากการขาดความสมมาตรและความไม่เท่าเทียมกันของรูปสามเหลี่ยมและดังนั้นจึงใช้ในสถานที่ที่ทิศทางมีความหมาย

โดยทั่วไปแล้ว KS-distance จะใช้ในบริบทของการทดสอบแบบไม่มีพารามิเตอร์ ในความเป็นจริงฉันไม่ค่อยเห็นว่ามันใช้เป็น "ระยะห่างระหว่างการแจกแจง" ทั่วไปโดยที่ระยะทางระยะทาง Jensen-Shannon และระยะทางอื่น ๆ เป็นเรื่องธรรมดา1


5
X1,X2,p0p1Tn=n1i=1nlog(p1(Xi)/p0(Xi))Tnp0TnD(p0||p1)p1TnD(p1||p0)D(||)Tn>0p0

จริง นั่นเป็นตัวอย่างที่ยอดเยี่ยม และในความเป็นจริงรุ่นทั่วไปส่วนใหญ่ของขอบเขตท้ายของ Chernoff-Hoeffding ใช้ KL-divergence
Suresh Venkatasubramanian

2

อีกวิธีหนึ่งในการระบุสิ่งเดียวกันกับคำตอบก่อนหน้านี้ในแง่คนธรรมดามากขึ้น:

KL Divergence - จริง ๆ แล้วให้การวัดความแตกต่างใหญ่สองการกระจายจากกัน ดังที่ได้กล่าวไว้ในคำตอบก่อนหน้านี้การวัดนี้ไม่ได้เป็นตัวชี้วัดระยะทางที่เหมาะสมเนื่องจากไม่สมมาตร ระยะห่างระหว่างการแจกแจง A และ B คือค่าที่แตกต่างจากระยะห่างระหว่างการแจกแจง B และ A

Kolmogorov-Smirnov Test - นี่คือการวัดผลการประเมินที่ดูการแยกที่ยิ่งใหญ่ที่สุดระหว่างการแจกแจงสะสมของการแจกแจงการทดสอบเทียบกับการแจกแจงอ้างอิง นอกจากนี้คุณสามารถใช้ตัวชี้วัดนี้ได้เช่นเดียวกับคะแนน z เทียบกับการแจกแจง Kolmogorov เพื่อทำการทดสอบสมมุติฐานว่าการแจกแจงการทดสอบนั้นเป็นการแจกแจงแบบเดียวกันกับการอ้างอิงหรือไม่ การวัดนี้สามารถใช้เป็นฟังก์ชันระยะทางได้เนื่องจากมีความสมมาตร Ie การแยกที่ยิ่งใหญ่ที่สุดระหว่าง CDF ของ A กับ CDF ของ B นั้นเหมือนกับการแยกที่ยิ่งใหญ่ที่สุดระหว่าง CDF ของ B กับ CDF ของ A

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.