ความคล้ายคลึงกันของ Jaccard นั้นมอบโดย
sij=pp+q+r
ที่ไหน
p = # ของคุณลักษณะที่เป็นบวกสำหรับทั้งวัตถุ
q = # ของคุณลักษณะ 1 สำหรับฉันและ 0 สำหรับ j
r = # ของคุณลักษณะ 0 สำหรับฉันและ 1 สำหรับ j
ในขณะที่ความคล้ายโคไซน์ = A⋅B∥A∥∥B∥โดยที่ A และ B เป็นเวกเตอร์วัตถุ
ในความคล้ายคลึงกันแบบโคไซน์จำนวนของแอ็ตทริบิวต์ทั่วไปจะถูกหารด้วยจำนวนทั้งหมดของคุณลักษณะที่เป็นไปได้ ในขณะที่ความคล้ายคลึงกันของ Jaccard จำนวนแอตทริบิวต์ทั่วไปจะถูกหารด้วยจำนวนของแอตทริบิวต์ที่มีอยู่ในวัตถุอย่างน้อยหนึ่งในสองวัตถุ
และมีมาตรการอื่น ๆ ที่คล้ายคลึงกันซึ่งแต่ละอย่างมีความผิดปกติของตัวเอง เมื่อตัดสินใจว่าจะใช้อันไหนลองนึกถึงตัวแทนคดีสักสองสามรายและหาว่าดัชนีใดที่จะให้ผลลัพธ์ที่ใช้งานได้มากที่สุดเพื่อให้บรรลุวัตถุประสงค์ของคุณ
ดัชนีโคไซน์สามารถใช้เพื่อระบุการลอกเลียนแบบ แต่จะไม่เป็นดัชนีที่ดีในการระบุไซต์มิเรอร์บนอินเทอร์เน็ต ในขณะที่ดัชนี Jaccard จะเป็นดัชนีที่ดีในการระบุไซต์มิเรอร์ แต่ไม่ดีนักในการคัดลอกการลอกเลียนแบบพาสต้า (ภายในเอกสารที่มีขนาดใหญ่กว่า)
เมื่อใช้ดัชนีเหล่านี้คุณต้องคิดถึงปัญหาของคุณอย่างถี่ถ้วนและหาวิธีกำหนดความคล้ายคลึงกัน เมื่อคุณมีคำจำกัดความแล้วคุณสามารถเลือกซื้อดัชนีได้
แก้ไข:
ก่อนหน้านี้ฉันมีตัวอย่างรวมอยู่ในคำตอบนี้ซึ่งในที่สุดก็ไม่ถูกต้อง ขอบคุณผู้ใช้หลายคนที่ชี้ให้เห็นว่าฉันได้ลบตัวอย่างที่ผิดพลาด