มีวิธีการบางอย่างที่จะทำงานได้ดีขึ้นสำหรับบางภาษากว่าคนอื่น ๆ ตัวอย่างเช่นsoundex (และคำอธิบายอื่นที่ฉันชอบ ) ได้รับการออกแบบสำหรับการออกเสียงชื่อภาษาอังกฤษ ด้วย soundex Michaelกลายเป็น M240 มีหลายขั้นตอน:
- ตัวอักษรตัวแรกถูกแยก (
Mและichael)
- สระทั้งหมดจะถูกลบออกจากส่วนที่เหลือ (
Mและchl)
- พยัญชนะถูกแทนที่
- ศูนย์แผ่นด้านซ้าย
การจัดกลุ่มของการแปลงพยัญชนะอยู่บนพื้นฐานของความคล้ายคลึงกันการออกเสียงของพวกเขา - B, F, Pและทั้งหมดของแผนที่จะV1
และมีรูปแบบในช่วงเวลานี้ มันมีประโยชน์อย่างยิ่งในลำดับวงศ์ตระกูลที่การสะกดชื่ออาจเปลี่ยนไปตามกาลเวลา แต่การออกเสียงยังคงเหมือนเดิม
นอกจากนี้ยังมีวิธีการเช่นคะแนนการแข่งขันที่พัฒนาโดยสายการบินสำหรับชื่อ (มากกว่าลำดับวงศ์ตระกูลอเมริกัน)
การเข้ารหัสของวิธีการให้คะแนนการแข่งขัน (MRA) คือ:
- ลบสระที่ไม่เป็นผู้นำทั้งหมด (
Michaelกลายเป็นMchlและAnthonyกลายเป็นAnthny)
- ลบค่าคงที่ที่สองของคู่ใด ๆ
- หากสตริงยาวกว่า 6 อักขระให้ลดสตริงที่เหลือเป็น 6 ตัวอักษรโดยใช้สามตัวแรกและสามตัวสุดท้าย
ข้อมูลจำเพาะทั้งหมดนี้สามารถพบได้ในarchive.org - โปรดทราบว่ามันเป็น "ไม่เล็ก" (แบบฟอร์มที่พิมพ์คือ 214 หน้า)
การเปรียบเทียบมีเกณฑ์การจับคู่ตามระยะเวลาของข้อความ
มีขั้นตอนวิธีการออกเสียงอื่น ๆ ด้วย
ดังนั้นสิ่งที่ฉันอยากจะแนะนำให้คุณทำอย่างใดอย่างหนึ่งใช้ Soundex เป็นคือใช้วิธีการให้คะแนนการแข่งขันที่เป็นอยู่หรือปรับเปลี่ยน Soundex ตามพยัญชนะโรมาเนียและพยัญชนะโปแลนด์
โปรดจำไว้ว่ามี Soundex พยัญชนะที่มีการจัดกลุ่ม (ในโปแลนด์m, n, ɲมีทั้งหมดเสียงพยัญชนะนาสิกจะถูกจัดกลุ่มและคุณจะมีแนวโน้มที่กลุ่มริมฝีปาก, ทันตกรรม, และถุงออกเสียง - ไม่ว่าจะเป็นใบ้หรือเปล่งออกมาร่วมกัน - รับฉันทำไม่ได้ รู้ภาษาโปแลนด์ดังนั้นไม่รู้ว่าฉันแค่พูดสิ่งที่ไม่จริงใช่ไหม)
จากนั้นเพียงซ่อนชื่อทั้งหมดในฐานข้อมูลไปยังระบบ soundex ที่แตกต่างกันสองระบบและค้นหาว่าชื่อใดมีชุดการชนที่ต่ำที่สุดในภาษาต่างๆ สิ่งนี้ให้ชื่อที่แตกต่าง เพื่อที่จะไม่แสดงขึ้นเป็นSmithSmyth
อย่างไรก็ตามนี่จะแก้ได้เพียง "ชื่อที่มีแนวโน้มว่าจะชนกับชื่ออื่นและผิด" มันไม่ได้พูดถึงวิธีอื่น ๆ ของ "ชื่อที่ได้ยินถูกต้องเขียนลงอย่างไม่ถูกต้อง" และสำหรับสิ่งนั้นเราควรมุ่งความสนใจไปที่ชื่อสามัญ
ตัวอย่างเช่นMichaelเป็นชื่อที่พบบ่อยมากในสหรัฐอเมริกาตั้งแต่ต้นปี 1950 ถึงปลายปี 1970 มันเป็นที่นิยมมาก อย่างไรก็ตามด้วยเหตุผลบางอย่างชื่อMichealได้รับความนิยมในช่วงปี 1950 (ลุกขึ้นชื่อที่พบมากที่สุดที่ 83 ที่จุดสูงสุด) และฉันมั่นใจว่าผู้คนMichealที่มีชื่อถูกสะกดชื่ออย่างต่อเนื่อง
ดังนั้นคุณควรมุ่งเน้นไปที่ชื่อที่มีชื่อเดียวที่มีอิทธิพลต่อความนิยมของชื่อสำหรับการออกเสียงที่กำหนด วินาศภัยข้อมูลของผู้บริโภคอีกชื่อโดยปีนี้คุณจะเห็นว่าชื่อเริ่มต้นด้วยการแจม ... สำหรับเด็กมีระเบียบกับJamaal, Jamal, Jamarและอื่น ๆ อนึ่งชื่อเหล่านี้มี soundexes แตกต่างกันเล็กน้อยสำหรับชาวอเมริกัน ( J540, J540และJ560- The lและrอยู่ในกลุ่มที่แตกต่างกันถึงแม้ว่าพวกเขามีความสัมพันธ์อย่างใกล้ชิดในการออกเสียง) อย่างไรก็ตามสำหรับใครบางคนจากญี่ปุ่นพูดว่ามีเพียงเสียงเดียวในภูมิภาคสัทศาสตร์ที่lและrมีการออกเสียงในภาษาอังกฤษแบบอเมริกัน นี่อาจเป็นสิ่งที่ท้าทายกับพยัญชนะชั้นนำที่ใช้ soundex ที่ใคร ๆ ก็ควรระวัง (ฉันเคยทำงานกับผู้หญิงชาวญี่ปุ่นคนหนึ่งที่เรียกตัวเองว่า Risa (ที่มี 'R') มากกว่า Lisa เป็น Romanization ของชื่อญี่ปุ่นของเธอ)
คุณจะทราบว่าตัวอย่างของฉันสำหรับสหรัฐอเมริกา ข้อมูลนั้นสามารถเข้าถึงได้ง่าย เห็นได้ชัดว่ามีบางสิ่งสำหรับโปแลนด์และฮังการีและมีเพียงคำแนะนำที่คนธรรมดาสามัญของชื่อฮังการี ... ฉันสงสัยว่าการค้นหาในภาษาอื่นที่ไม่ใช่ภาษาอังกฤษอาจมีประโยชน์
ดังนั้นในการตั้งชื่อ soundex การชนกันน้อยและการสะกดคำที่แท้จริงอยู่ในชุดของการชน นี่เป็นชื่อสามัญ มองไปที่รายชื่อชาวฮังการีKrisztiánนั้นอาจจะมีการสะกดผิดในขณะที่Zoltánมีโอกาสน้อยกว่านั้น (ชื่อทารกที่พบมากที่สุดอันดับที่ 22 ในฮังการีในปี 2011! Michaelที่กล่าวว่าคุณไม่สามารถไปอย่างผิดปกติกับ