ฉันมีกลุ่มของชุด n ชุดซึ่งฉันต้องการคำนวณค่าของ "ไม่เหมือนใคร" หรือ "ความคล้ายคลึงกัน" ฉันตัดสินดัชนี Jaccardเป็นตัวชี้วัดที่เหมาะสม น่าเสียดายที่ดัชนี Jaccard ทำงานได้ครั้งละสองชุดเท่านั้น ในการคำนวณความคล้ายคลึงกันระหว่างชุดทั้งหมดชุดจะต้องมีการคำนวณตามลำดับ Jaccard
(ถ้าช่วยได้มักจะอยู่ระหว่าง 10 ถึง 10,000 และแต่ละชุดมีองค์ประกอบโดยเฉลี่ย 500 ชุดในท้ายที่สุดฉันไม่สนใจว่าชุดสองชุดใดที่คล้ายกัน - แต่ฉันสนใจสิ่งที่มีความคล้ายคลึงกันภายใน ของกลุ่มทั้งหมดของชุดคือ (กล่าวอีกนัยหนึ่งคือค่าเฉลี่ย (หรืออย่างน้อยก็ประมาณค่าความถูกต้องที่เพียงพอเพียงพอของดัชนี Jaccard ทั้งหมดในกลุ่ม))
สองคำถาม:
- มีวิธีที่จะใช้ดัชนี Jaccard โดยไม่มีความซับซ้อนหรือไม่?
- มีวิธีที่ดีกว่าในการคำนวณความเหมือน / ไม่เหมือนกันของชุดในกลุ่มของชุดกว่าวิธีที่ฉันแนะนำข้างต้นหรือไม่