ฉันเห็นได้ว่ามีความแตกต่างอย่างเป็นทางการระหว่าง Kullback – Leibler กับ Kolmogorov-Smirnov อย่างไรก็ตามทั้งสองถูกใช้เพื่อวัดระยะห่างระหว่างการแจกแจง
- มีสถานการณ์ทั่วไปที่ควรใช้อย่างใดอย่างหนึ่งแทนอีกสถานการณ์หนึ่งหรือไม่?
- เหตุผลที่ต้องทำคืออะไร?
ฉันเห็นได้ว่ามีความแตกต่างอย่างเป็นทางการระหว่าง Kullback – Leibler กับ Kolmogorov-Smirnov อย่างไรก็ตามทั้งสองถูกใช้เพื่อวัดระยะห่างระหว่างการแจกแจง
คำตอบ:
KL-divergence โดยทั่วไปจะใช้ในการตั้งค่าข้อมูลเชิงทฤษฎีหรือแม้แต่การตั้งค่าแบบเบย์เพื่อวัดการเปลี่ยนแปลงข้อมูลระหว่างการแจกแจงก่อนและหลังการใช้การอนุมาน มันไม่ใช่ระยะทางในความหมายทั่วไป (ตัวชี้วัด) เนื่องจากการขาดความสมมาตรและความไม่เท่าเทียมกันของรูปสามเหลี่ยมและดังนั้นจึงใช้ในสถานที่ที่ทิศทางมีความหมาย
โดยทั่วไปแล้ว KS-distance จะใช้ในบริบทของการทดสอบแบบไม่มีพารามิเตอร์ ในความเป็นจริงฉันไม่ค่อยเห็นว่ามันใช้เป็น "ระยะห่างระหว่างการแจกแจง" ทั่วไปโดยที่ระยะทางระยะทาง Jensen-Shannon และระยะทางอื่น ๆ เป็นเรื่องธรรมดา
อีกวิธีหนึ่งในการระบุสิ่งเดียวกันกับคำตอบก่อนหน้านี้ในแง่คนธรรมดามากขึ้น:
KL Divergence - จริง ๆ แล้วให้การวัดความแตกต่างใหญ่สองการกระจายจากกัน ดังที่ได้กล่าวไว้ในคำตอบก่อนหน้านี้การวัดนี้ไม่ได้เป็นตัวชี้วัดระยะทางที่เหมาะสมเนื่องจากไม่สมมาตร ระยะห่างระหว่างการแจกแจง A และ B คือค่าที่แตกต่างจากระยะห่างระหว่างการแจกแจง B และ A
Kolmogorov-Smirnov Test - นี่คือการวัดผลการประเมินที่ดูการแยกที่ยิ่งใหญ่ที่สุดระหว่างการแจกแจงสะสมของการแจกแจงการทดสอบเทียบกับการแจกแจงอ้างอิง นอกจากนี้คุณสามารถใช้ตัวชี้วัดนี้ได้เช่นเดียวกับคะแนน z เทียบกับการแจกแจง Kolmogorov เพื่อทำการทดสอบสมมุติฐานว่าการแจกแจงการทดสอบนั้นเป็นการแจกแจงแบบเดียวกันกับการอ้างอิงหรือไม่ การวัดนี้สามารถใช้เป็นฟังก์ชันระยะทางได้เนื่องจากมีความสมมาตร Ie การแยกที่ยิ่งใหญ่ที่สุดระหว่าง CDF ของ A กับ CDF ของ B นั้นเหมือนกับการแยกที่ยิ่งใหญ่ที่สุดระหว่าง CDF ของ B กับ CDF ของ A