จับคู่รายการที่คล้ายกันจากชุด


10

ฉันพยายามจับคู่สิ่งของ เมื่อได้ชุดของรายการฉันสามารถจัดอันดับจากระดับ 0 ถึง 100 ของความคล้ายคลึงกัน ตัวอย่างเช่นหากรายการเป็นนมและรายการเป็นนมเช่นกันความคล้ายคลึงกันระหว่างและจะเท่ากับ 100% ถ้าเป็นโซดาความคล้ายคลึงกันระหว่างและก็อาจจะเป็น 80% และอื่น ๆnn1n2n1n2n3n1n3

ฉันกำลังพยายามหาวิธีจัดกลุ่มรายการเป็นกลุ่มของรายการที่คล้ายกัน แต่มันเป็นปัญหาที่ท้าทาย ฉันพบปัญหาต่อไปนี้: ม้าคล้ายกับวัวซึ่งคล้ายกับแพะซึ่งคล้ายกันในส่วนของชีสแพะซึ่งคล้ายกับชีสซึ่งมีความสัมพันธ์กับแครกเกอร์ อย่างไรก็ตามฉันไม่คิดว่าม้าจะอยู่ในกลุ่มเดียวกับแคร็กเกอร์ แต่ละรายการอาจมีความสัมพันธ์คู่กัน แต่จุดเริ่มต้นและจุดสิ้นสุดอาจไม่ใช่n

ความคิดใด ๆ


ในชีววิทยาวิวัฒนาการผลของการจัดกลุ่มแบบคู่นั้นเรียกว่าต้นไม้ไฟโตเจนต์ดังนั้นคุณอาจเพิ่มคำนั้นลงในชุดคำค้นหาที่มีประโยชน์ของคุณ
hardmath

คำตอบ:


7

สิ่งที่คุณต้องการทำที่นี่คือการสังเกตพาร์ติชัน N ในกลุ่ม K ที่แสดงคุณสมบัติที่คล้ายกัน นี้เรียกว่าการจัดกลุ่มและคุณสามารถหาข้อมูลเพิ่มเติมได้ที่นี่

เนื่องจากคุณมีการวัดความคล้ายคลึงกันเป็นตัวเลขอยู่แล้วสิ่งนี้ทำให้ฉันคิดถึงการใช้อัลกอริทึมK-Meansซึ่งคุณทำงานในหลายขั้นตอน:

  • เริ่มต้นกลุ่ม centroids แบบสุ่ม
  • มอบหมายการสังเกตแต่ละครั้งให้กับคลัสเตอร์ที่สอดคล้องกับเซนทรอยด์ที่ใกล้เคียงที่สุด
  • อัพเดต centroids เป็นค่าเฉลี่ยใหม่ขององค์ประกอบในคลัสเตอร์

คุณสามารถตรวจสอบลู่เข้าได้เมื่อเซนทรอยด์หยุดเคลื่อนไหวหรืออยู่ในช่วงที่กำหนด

สิ่งนี้จะช่วยให้มั่นใจได้ว่ารายการในแต่ละคลัสเตอร์มีความสัมพันธ์กันบ้างและคุณสามารถมีกลุ่มที่ละเอียดยิ่งขึ้นโดยการเพิ่มจำนวนกลุ่มในอัลกอริทึม ("K") การค้นหาจำนวนกลุ่มขึ้นอยู่กับแต่ละปัญหาและฉันขอแนะนำให้คุณลองใช้ค่าสำหรับปัญหาของคุณดูสิ่งที่จัดกลุ่มออกมารวมกันและดูว่ามีเหตุผลอะไร

หวังว่าจะช่วย


5

ฉันคิดว่าสิ่งที่คุณกำลังมองหาเรียกว่า "การวิเคราะห์กลุ่ม" หรือ "การจัดกลุ่ม" มีอัลกอริธึมที่แตกต่างกันมากมาย ในกรณีของคุณคุณต้องการ "การจัดกลุ่มการเชื่อมต่อ" คือองค์ประกอบกลุ่มร่วมกันโดยยึดตามคุณสมบัติที่เชื่อมโยงกัน

ดูที่อัลกอริทึมการจัดกลุ่มใน scikits.learn (รหัส Python) และการอ้างอิงที่กล่าวถึงที่นั่น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.