ฉันมีปัญหาต่อไปนี้: ฉันมีรายการคำที่ยาวมากอาจเป็นชื่อนามสกุล ฯลฯ ฉันต้องจัดกลุ่มรายการคำศัพท์นี้เช่นคำที่คล้ายกันเช่นคำที่มีการแก้ไขที่คล้ายกัน (Levenshtein) ระยะทางปรากฏใน คลัสเตอร์เดียวกัน ตัวอย่างเช่น "อัลกอริทึม" และ "alogrithm" ควรมีโอกาสสูงที่จะปรากฏในคลัสเตอร์เดียวกัน
ฉันตระหนักดีถึงวิธีการจัดกลุ่มแบบไม่ได้รับการสนับสนุนแบบคลาสสิกเช่นการจัดกลุ่ม k-mean, การจัดกลุ่ม EM ในวรรณคดีการจดจำรูปแบบ ปัญหานี่คือวิธีการเหล่านี้ทำงานในจุดที่อยู่ในพื้นที่เวกเตอร์ ฉันมีคำพูดในมืออยู่ที่นี่ ดูเหมือนว่าคำถามของวิธีการแสดงสตริงในพื้นที่เวกเตอร์ที่เป็นตัวเลขและการคำนวณ "หมายถึง" ของกลุ่มสตริงนั้นยังไม่ได้รับคำตอบที่เพียงพอตามความพยายามในการสำรวจของฉันจนถึงตอนนี้ วิธีการที่ไร้เดียงสาในการโจมตีปัญหานี้คือการรวมกลุ่ม k-Means กับระยะทาง Levenshtein แต่คำถามยังคงเป็น "วิธีการแสดง" หมายถึง "ของสตริงหรือไม่? มีน้ำหนักที่เรียกว่าน้ำหนัก TF-IDF แต่ดูเหมือนว่าส่วนใหญ่เกี่ยวข้องกับพื้นที่ของการจัดกลุ่ม "เอกสารข้อความ" ไม่ใช่สำหรับการจัดกลุ่มคำเดียว http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf
การค้นหาของฉันในพื้นที่นี้ยังดำเนินต่อไป แต่ฉันต้องการได้แนวคิดจากที่นี่เช่นกัน คุณจะแนะนำอะไรในกรณีนี้มีใครรู้วิธีการใด ๆ สำหรับปัญหาประเภทนี้บ้าง
It seems that there are some special string clustering algorithms
. หากคุณมาจากเขตการขุดเฉพาะข้อความไม่ใช่การวิเคราะห์สถิติ / ข้อมูลคำสั่งนี้รับประกัน อย่างไรก็ตามหากคุณได้เรียนรู้การจัดกลุ่มสาขาเนื่องจากเป็นคุณจะพบว่าไม่มีอัลกอริทึม "พิเศษ" สำหรับข้อมูลสตริง "พิเศษ" เป็นวิธีที่คุณประมวลผลข้อมูลดังกล่าวก่อนที่คุณจะป้อนลงในการวิเคราะห์กลุ่ม