มีหลายวิธีในการวัดความคล้ายคลึงกันของการแจกแจงความน่าจะเป็นสองแบบ ในบรรดาวิธีการที่ได้รับความนิยม (ในแวดวงที่แตกต่างกัน) คือ:
ระยะ Kolmogorov: ระยะทางระหว่างฟังก์ชันการกระจาย;
ระยะทาง Kantorovich-Rubinstein: ความแตกต่างสูงสุดระหว่างความคาดหวังของ wrt ทั้งสองของการแจกแจงฟังก์ชันกับค่าคงที่ Lipschitz ซึ่งกลายเป็นระยะทางระหว่างฟังก์ชันการแจกแจง
ล้อมรอบ-Lipschitz ระยะทาง: เช่นระยะ KR แต่ฟังก์ชั่นนอกจากนี้ยังจะต้องมีค่าสัมบูรณ์ที่มากที่สุด1
สิ่งเหล่านี้มีข้อดีและข้อเสียต่างกัน การบรรจบกันในความหมายของ 3. จริง ๆ แล้วสอดคล้องกับการบรรจบกันในการกระจาย; การบรรจบกันในความหมายของ 1 หรือ 2 นั้นโดยทั่วไปแข็งแกร่งขึ้นเล็กน้อย (โดยเฉพาะถ้ามีความน่าจะเป็นจากนั้นจะแปลงเป็นในการแจกแจง แต่ไม่ใช่ในระยะ Kolmogorov อย่างไรก็ตามหากการกระจายขีด จำกัด นั้นต่อเนื่องดังนั้นพยาธิวิทยานี้จะไม่เกิดขึ้น)
จากมุมมองของความน่าจะเป็นเบื้องต้นหรือทฤษฎีการวัด 1. มีความเป็นธรรมชาติมากเพราะมันเปรียบเทียบความน่าจะเป็นของการอยู่ในบางชุด ในทางกลับกันมุมมองความน่าจะเป็นที่ซับซ้อนมากขึ้นมีแนวโน้มที่จะมุ่งเน้นไปที่ความคาดหวังมากกว่าความน่าจะเป็น นอกจากนี้จากมุมมองของการวิเคราะห์การทำงานระยะทางเช่น 2 หรือ 3 ขึ้นอยู่กับความเป็นคู่กับพื้นที่ฟังก์ชั่นบางอย่างน่าสนใจมากเพราะมีเครื่องมือทางคณิตศาสตร์จำนวนมากสำหรับการทำงานกับสิ่งต่าง ๆ
อย่างไรก็ตามความประทับใจของฉัน (แก้ไขฉันถ้าฉันผิด!) คือในสถิติระยะทาง Kolmogorov เป็นวิธีที่นิยมใช้ในการวัดความคล้ายคลึงกันของการแจกแจง ฉันเดาได้ว่าเหตุผลข้อหนึ่ง: หากการแจกแจงอย่างใดอย่างหนึ่งไม่ต่อเนื่องโดยมีการสนับสนุน จำกัด - โดยเฉพาะถ้าเป็นการกระจายของข้อมูลในโลกแห่งความจริง - จากนั้นระยะทาง Kolmogorov กับการกระจายแบบจำลองนั้นง่ายต่อการคำนวณ (ระยะทาง KR นั้นจะยากกว่าในการคำนวณเล็กน้อยและระยะทาง BL อาจเป็นไปไม่ได้ในแง่ของการใช้งานจริง)
ดังนั้นคำถามของฉัน (ในที่สุด) คือมีเหตุผลอื่นไม่ว่าจะเป็นในทางปฏิบัติหรือทางทฤษฎีเพื่อสนับสนุนระยะทาง Kolmogorov (หรือระยะทางอื่น ๆ ) เพื่อวัตถุประสงค์ทางสถิติ