เหมือนความหมายว่ามันจะให้ผลลัพธ์ที่เหมือนกันสำหรับการจัดอันดับระหว่างเวกเตอร์คล้ายคลึงกันยูและชุดของเวกเตอร์V
ฉันมีแบบจำลองเวกเตอร์สเปซซึ่งมีการวัดระยะทาง (ระยะทางแบบยุคลิด, ความเหมือนโคไซน์) และเทคนิคการทำให้เป็นมาตรฐาน (ไม่มี, l1, l2) เป็นพารามิเตอร์ จากความเข้าใจของฉันผลลัพธ์จากการตั้งค่า [โคไซน์ไม่มี] ควรจะเหมือนกันหรืออย่างน้อยก็คล้ายกับ [euclidean, l2] จริง ๆ แต่ก็ไม่เหมือนกัน
มีโอกาสที่ดีจริง ๆ ที่ระบบยังมีข้อผิดพลาด - หรือฉันมีบางสิ่งบางอย่างผิดปกติเกี่ยวกับเวกเตอร์?
แก้ไข: ฉันลืมที่จะพูดถึงว่าเวกเตอร์จะขึ้นอยู่กับจำนวนคำจากเอกสารในคลังข้อมูล รับเอกสารแบบสอบถาม (ซึ่งฉันยังแปลงในเวกเตอร์นับจำนวนคำ) ฉันต้องการค้นหาเอกสารจากคลังข้อมูลของฉันซึ่งคล้ายกับมันมากที่สุด
การคำนวณระยะทางแบบยุคลิดของพวกเขานั้นเป็นเพียงการวัดแบบตรงไปข้างหน้า แต่ในงานประเภทที่ฉันทำงานความคล้ายคลึงของโคไซน์มักเป็นที่ต้องการในฐานะตัวบ่งชี้ความคล้ายคลึงกันเพราะเวกเตอร์ที่มีความยาวต่างกันเท่านั้น เอกสารที่มีความคล้ายคลึงกันของระยะทาง / โคไซน์น้อยที่สุดถือว่าคล้ายกันมากที่สุด