สำหรับเอกสารข้อความเวกเตอร์คุณลักษณะสามารถมีมิติสูงและเบาบางได้ภายใต้การนำเสนอมาตรฐานใด ๆ (ถุงคำหรือ TF-IDF เป็นต้น) การวัดระยะทางโดยตรงภายใต้การนำเสนอดังกล่าวอาจไม่น่าเชื่อถือเนื่องจากเป็นความจริงที่ทราบกันว่าในมิติที่สูงมากระยะห่างระหว่างจุดสองจุดใด ๆ จะเริ่มเหมือนกัน วิธีหนึ่งในการจัดการกับสิ่งนี้คือการลดมิติข้อมูลโดยใช้PCAหรือ LSA ( การวิเคราะห์ความหมายแฝงซึ่งเรียกอีกอย่างว่าการทำดัชนีความหมายแฝง ) และจากนั้นวัดระยะทางในพื้นที่ใหม่ การใช้บางอย่างเช่น LSA บน PCA นั้นมีประโยชน์เนื่องจากสามารถให้ความหมายที่เป็นตัวแทนในแง่ของ "แนวคิดเชิงความหมาย" นอกเหนือจากการวัดระยะทางในพื้นที่มิติที่ต่ำกว่า
การเปรียบเทียบเอกสารตามการแจกแจงความน่าจะเป็นมักจะเกิดจากการคำนวณการแจกแจงหัวข้อของแต่ละเอกสารเป็นครั้งแรก (ใช้บางอย่างเช่นการปันส่วน Dirichlet แบบแฝง ) จากนั้นคำนวณการแตกต่างบางอย่าง (เช่น KL divergence) ระหว่างการแจกแจงหัวข้อของเอกสาร ในทางกลับกันมันคล้ายกับการทำ LSA ก่อนแล้วจึงวัดระยะทางในอวกาศ LSA โดยใช้ KL-divergence ระหว่างเวกเตอร์ (แทนที่จะเป็นความคล้ายคลึงโคไซน์)
KL-divergence เป็นการวัดระยะทางสำหรับการเปรียบเทียบการกระจายดังนั้นมันอาจจะดีกว่าถ้าการแทนเอกสารอยู่ในรูปของการแจกแจงบางอย่าง (ซึ่งมักจะเป็นกรณีจริง ๆ - เช่นเอกสารที่แสดงในรูปแบบการกระจายในหัวข้อต่างๆเช่น LDA) นอกจากนี้โปรดทราบว่าภายใต้การนำเสนอดังกล่าวรายการในเวกเตอร์คุณลักษณะจะรวมเป็นหนึ่ง (เนื่องจากคุณปฏิบัติต่อเอกสารเป็นการกระจายข้ามหัวข้อหรือแนวคิดเชิงความหมาย)
นอกจากนี้ยังเห็นหัวข้อที่เกี่ยวข้องที่นี่