มีค่าสัมประสิทธิ์ดังกล่าวจำนวนมาก (ส่วนใหญ่แสดงที่นี่ ) แค่ลองนั่งสมาธิว่าอะไรคือผลของความแตกต่างในสูตรโดยเฉพาะอย่างยิ่งเมื่อคุณคำนวณเมทริกซ์ของสัมประสิทธิ์
ลองจินตนาการถึงตัวอย่างเช่นว่าวัตถุ 1 และ 2 คล้ายกันเช่นเดียวกับวัตถุ 3 และ 4 แต่ 1 และ 2 มีแอตทริบิวต์จำนวนมากในรายการในขณะที่ 3 และ 4 มีแอตทริบิวต์น้อยมาก ในกรณีนี้ Russell-Rao (สัดส่วนของคุณลักษณะร่วมกับจำนวนคุณลักษณะทั้งหมดที่อยู่ระหว่างการพิจารณา) จะสูงสำหรับคู่ 1-2 และต่ำสำหรับคู่ 3-4 แต่ Jaccard (สัดส่วนของ co-attribute กับจำนวนรวมของคุณสมบัติทั้งสองวัตถุนั้นมีความเป็นไปได้ = ว่าหากวัตถุใดมีคุณสมบัติจากนั้นทั้งสองมีมัน) จะสูงสำหรับทั้งคู่ 1-2 และ 3-4
การปรับระดับฐานนี้ของ "saturation by attributes" ทำให้Jaccardเป็นที่นิยมและมีประโยชน์มากกว่าRussell-Raoเช่นในการวิเคราะห์คลัสเตอร์หรือการปรับขนาดแบบหลายมิติ คุณอาจปรับแต่งการปรับด้านบนเพิ่มเติมโดยเลือกการวัด Kulczynski-2ซึ่งเป็นความน่าจะเป็นทางคณิตศาสตร์ที่น่าจะเป็นถ้าหากวัตถุหนึ่งมีแอตทริบิวต์วัตถุอื่นก็มีเช่นกัน:
( กa + b+ aa + c) / 2
ที่นี่ฐาน (หรือเขตข้อมูล) ของแอตทริบิวต์สำหรับวัตถุทั้งสองนั้นไม่ได้รับการรวบรวมเช่นเดียวกับใน Jaccard แต่มีไว้สำหรับวัตถุทั้งสอง ดังนั้นหากวัตถุแตกต่างกันอย่างมากกับจำนวนของคุณลักษณะที่พวกเขามีและคุณลักษณะทั้งหมดที่ "ยากจน" วัตถุร่วมกับหนึ่ง "ยิ่งขึ้น" หนึ่ง Kulczynski จะสูงในขณะที่ Jaccard จะปานกลาง
หรือคุณอาจต้องการคำนวณความน่าจะเป็นทางเรขาคณิตว่าถ้าวัตถุหนึ่งมีคุณลักษณะวัตถุอื่นก็มีเช่นกันซึ่งให้ผลการวัดOchiai :
เนื่องจากผลิตภัณฑ์เพิ่มขึ้นอ่อนแอกว่าผลรวมเมื่อมีเพียงหนึ่งในเงื่อนไขที่เพิ่มขึ้น Ochiai จะสูงจริง ๆ เท่านั้นหากทั้งสองสัดส่วน (ความน่าจะเป็น) มีค่าสูงซึ่งหมายความว่า Ochiai จะต้องถือว่าสิ่งเดียวกันนั้นมีความคล้ายคลึงกัน การแบ่งปันคุณสมบัติของพวกเขา ในระยะสั้น Ochiai curbs ความคล้ายคลึงกันถ้าและไม่เท่ากัน ในความเป็นจริงแล้ว Ochiai ก็คือการวัดความคล้ายคลึงกันของโคไซน์ (และรัสเซล - ราวก็คือความคล้ายคลึงกันของผลิตภัณฑ์ดอท)
aa + baa + c---------√
ขค
PS
เป็นเพราะชุดข้อมูลบางตัวการขาดคุณสมบัติทั้งสองอย่างพร้อมกัน (d) ไม่ได้นำเสนอข้อมูลใด ๆ
เมื่อพูดถึงมาตรการความคล้ายคลึงกันเราไม่ควรผสมแอตทริบิวต์โดมิโนเล็กน้อย (เช่นเพศหญิงเพศชาย) ด้วยคุณลักษณะไบนารี (ปัจจุบันเทียบกับที่ขาด) แอตทริบิวต์ไบนารี่ไม่ได้เป็นแบบสมมาตร (โดยทั่วไป) - ถ้าคุณและฉันแบ่งปันคุณลักษณะเป็นพื้นฐานสำหรับการโทรหาเราที่คล้ายกัน หากคุณและฉันทั้งสองขาดคุณสมบัติอาจเป็นหรือไม่ได้รับการพิจารณาหลักฐานของความคล้ายคลึงกันขึ้นอยู่กับบริบทของการศึกษา ดังนั้นการรักษาที่แตกต่างกันของเป็นไปได้d
โปรดทราบด้วยว่าหากคุณต้องการคำนวณความคล้ายคลึงกันระหว่างออบเจ็กต์ที่มีแอตทริบิวต์1+ (ไดโพโตแมคหรือโพลีโทมัส) ให้ทำการถอดรหัสแต่ละตัวแปรดังกล่าวในชุดของตัวแปรไบนารีจำลอง จากนั้นการวัดความคล้ายคลึงกันที่แนะนำในการคำนวณจะเป็นลูกเต๋า ( ซึ่งเมื่อคำนวณสำหรับตัวแปรดัมมี่ 1+ ชุดเทียบเท่ากับ Ochiai และ Kulczynski-2)