ฉันไม่แน่ใจว่าคำถามนี้เป็นของที่นี่และฉันขอโทษถ้าไม่ได้ สิ่งที่ฉันต้องการทำคือการพัฒนาวิธีการเขียนโปรแกรมที่ฉันสามารถตรวจสอบความน่าจะเป็นว่าสตริงที่กำหนด "เป็น" ในถุงของสตริง ตัวอย่างเช่นถ้าฉันมีชื่อเมือง 10,000 ชื่อในอเมริกาและมีสตริง "ฟิลาเดลเฟีย" ฉันต้องการวัดเชิงปริมาณของโอกาสที่ 'ฟิลาเดลเฟีย' เป็นชื่อเมืองในสหรัฐอเมริกาตามชื่อเมืองที่ฉันรู้จัก ในขณะที่ฉันรู้ว่าฉันจะไม่สามารถแยกชื่อเมืองจริงออกจากชื่อเมืองปลอมในบริบทนี้อย่างน้อยฉันก็คาดหวังว่าจะมีสตริงเช่น "123.75" และ "สุนัขจิ้งจอกสีแดงอย่างรวดเร็วกระโดดข้ามสุนัขสีน้ำตาลขี้เกียจ" ยกเว้น เกณฑ์บางอย่าง
ในการเริ่มต้นฉันดูที่ Levenshtein Distance และแหย่เล็กน้อยเกี่ยวกับวิธีการนำไปใช้กับปัญหาอย่างน้อยค่อนข้างคล้ายกับที่ฉันพยายามแก้ไข แอปพลิเคชั่นที่น่าสนใจอย่างหนึ่งที่ฉันค้นพบคือการตรวจจับการลอกเลียนแบบโดยมีกระดาษหนึ่งเล่มอธิบายว่าระยะทางของ Levenshtein ถูกนำไปใช้กับอัลกอริทึม Smith-Waterman ที่แก้ไขเพื่อทำคะแนนเอกสารได้อย่างไร คำถามของฉันคือถ้าใครสามารถชี้ให้ฉันไปในทิศทางที่ถูกต้องกับอัลกอริทึมหรือวิธีการอื่นที่อาจช่วยฉันได้ ฉันรู้สึกว่านี่อาจเป็นปัญหาที่บางคนในอดีตพยายามแก้ไข แต่จนถึงตอนนี้ Google-fu ของฉันก็ล้มเหลวฉัน