คำถามติดแท็ก levenshtein-distance

11
รับการจับคู่สตริงที่ใกล้เคียงที่สุด
ฉันต้องการวิธีเปรียบเทียบหลาย ๆ สายกับสตริงทดสอบและคืนค่าสตริงที่มีความใกล้เคียงกับมันมากขึ้น: TEST STRING: THE BROWN FOX JUMPED OVER THE RED COW CHOICE A : THE RED COW JUMPED OVER THE GREEN CHICKEN CHOICE B : THE RED COW JUMPED OVER THE RED COW CHOICE C : THE RED FOX JUMPED OVER THE BROWN COW (ถ้าฉันทำอย่างถูกต้อง) สตริงที่ใกล้เคียงกับ "TEST STRING" …

2
การเปรียบเทียบสตริงฟัซซีประสิทธิภาพสูงใน Python ให้ใช้ Levenshtein หรือ difflib [ปิด]
ปิด . คำถามนี้เป็นคำถามความคิดเห็นตาม ขณะนี้ยังไม่ยอมรับคำตอบ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบได้ด้วยข้อเท็จจริงและการอ้างอิงโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ปรับปรุงคำถามนี้ ฉันกำลังทำการฟื้นฟูข้อความทางคลินิก (ตรวจการสะกด) ซึ่งฉันตรวจสอบแต่ละคำเทียบกับพจนานุกรมทางการแพทย์ 900,000 คำ ฉันกังวลมากขึ้นเกี่ยวกับความซับซ้อนของเวลา / ประสิทธิภาพ ฉันต้องการเปรียบเทียบสตริงที่คลุมเครือ แต่ฉันไม่แน่ใจว่าควรใช้ไลบรารีใด ตัวเลือกที่ 1: import Levenshtein Levenshtein.ratio('hello world', 'hello') Result: 0.625 ทางเลือกที่ 2: import difflib difflib.SequenceMatcher(None, 'hello world', 'hello').ratio() Result: 0.625 ในตัวอย่างนี้ทั้งสองให้คำตอบเดียวกัน คุณคิดว่าทั้งคู่ทำงานเหมือนกันในกรณีนี้หรือไม่?

5
อัลกอริทึมใดให้คำแนะนำในตัวตรวจสอบการสะกด
โดยทั่วไปจะใช้อัลกอริทึมใดในการใช้งานตัวตรวจสอบการสะกดที่มาพร้อมกับคำแนะนำ ตอนแรกฉันคิดว่ามันสมเหตุสมผลแล้วที่จะตรวจสอบคำใหม่แต่ละคำที่พิมพ์ (หากไม่พบในพจนานุกรม) เทียบกับระยะทาง Levenshteinจากทุกคำในพจนานุกรมและส่งคืนผลลัพธ์อันดับต้น ๆ อย่างไรก็ตามดูเหมือนว่าจะไม่มีประสิทธิภาพอย่างมากเนื่องจากต้องประเมินพจนานุกรมซ้ำทั้งเล่ม โดยทั่วไปแล้วจะทำอย่างไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.