มีวิธีการบางอย่างที่จะทำงานได้ดีขึ้นสำหรับบางภาษากว่าคนอื่น ๆ ตัวอย่างเช่นsoundex (และคำอธิบายอื่นที่ฉันชอบ ) ได้รับการออกแบบสำหรับการออกเสียงชื่อภาษาอังกฤษ ด้วย soundex Michael
กลายเป็น M240 มีหลายขั้นตอน:
- ตัวอักษรตัวแรกถูกแยก (
M
และichael
)
- สระทั้งหมดจะถูกลบออกจากส่วนที่เหลือ (
M
และchl
)
- พยัญชนะถูกแทนที่
- ศูนย์แผ่นด้านซ้าย
การจัดกลุ่มของการแปลงพยัญชนะอยู่บนพื้นฐานของความคล้ายคลึงกันการออกเสียงของพวกเขา - B
, F
, P
และทั้งหมดของแผนที่จะV
1
และมีรูปแบบในช่วงเวลานี้ มันมีประโยชน์อย่างยิ่งในลำดับวงศ์ตระกูลที่การสะกดชื่ออาจเปลี่ยนไปตามกาลเวลา แต่การออกเสียงยังคงเหมือนเดิม
นอกจากนี้ยังมีวิธีการเช่นคะแนนการแข่งขันที่พัฒนาโดยสายการบินสำหรับชื่อ (มากกว่าลำดับวงศ์ตระกูลอเมริกัน)
การเข้ารหัสของวิธีการให้คะแนนการแข่งขัน (MRA) คือ:
- ลบสระที่ไม่เป็นผู้นำทั้งหมด (
Michael
กลายเป็นMchl
และAnthony
กลายเป็นAnthny
)
- ลบค่าคงที่ที่สองของคู่ใด ๆ
- หากสตริงยาวกว่า 6 อักขระให้ลดสตริงที่เหลือเป็น 6 ตัวอักษรโดยใช้สามตัวแรกและสามตัวสุดท้าย
ข้อมูลจำเพาะทั้งหมดนี้สามารถพบได้ในarchive.org - โปรดทราบว่ามันเป็น "ไม่เล็ก" (แบบฟอร์มที่พิมพ์คือ 214 หน้า)
การเปรียบเทียบมีเกณฑ์การจับคู่ตามระยะเวลาของข้อความ
มีขั้นตอนวิธีการออกเสียงอื่น ๆ ด้วย
ดังนั้นสิ่งที่ฉันอยากจะแนะนำให้คุณทำอย่างใดอย่างหนึ่งใช้ Soundex เป็นคือใช้วิธีการให้คะแนนการแข่งขันที่เป็นอยู่หรือปรับเปลี่ยน Soundex ตามพยัญชนะโรมาเนียและพยัญชนะโปแลนด์
โปรดจำไว้ว่ามี Soundex พยัญชนะที่มีการจัดกลุ่ม (ในโปแลนด์m
, n
, ɲ
มีทั้งหมดเสียงพยัญชนะนาสิกจะถูกจัดกลุ่มและคุณจะมีแนวโน้มที่กลุ่มริมฝีปาก, ทันตกรรม, และถุงออกเสียง - ไม่ว่าจะเป็นใบ้หรือเปล่งออกมาร่วมกัน - รับฉันทำไม่ได้ รู้ภาษาโปแลนด์ดังนั้นไม่รู้ว่าฉันแค่พูดสิ่งที่ไม่จริงใช่ไหม)
จากนั้นเพียงซ่อนชื่อทั้งหมดในฐานข้อมูลไปยังระบบ soundex ที่แตกต่างกันสองระบบและค้นหาว่าชื่อใดมีชุดการชนที่ต่ำที่สุดในภาษาต่างๆ สิ่งนี้ให้ชื่อที่แตกต่าง เพื่อที่จะไม่แสดงขึ้นเป็นSmith
Smyth
อย่างไรก็ตามนี่จะแก้ได้เพียง "ชื่อที่มีแนวโน้มว่าจะชนกับชื่ออื่นและผิด" มันไม่ได้พูดถึงวิธีอื่น ๆ ของ "ชื่อที่ได้ยินถูกต้องเขียนลงอย่างไม่ถูกต้อง" และสำหรับสิ่งนั้นเราควรมุ่งความสนใจไปที่ชื่อสามัญ
ตัวอย่างเช่นMichael
เป็นชื่อที่พบบ่อยมากในสหรัฐอเมริกาตั้งแต่ต้นปี 1950 ถึงปลายปี 1970 มันเป็นที่นิยมมาก อย่างไรก็ตามด้วยเหตุผลบางอย่างชื่อMicheal
ได้รับความนิยมในช่วงปี 1950 (ลุกขึ้นชื่อที่พบมากที่สุดที่ 83 ที่จุดสูงสุด) และฉันมั่นใจว่าผู้คนMicheal
ที่มีชื่อถูกสะกดชื่ออย่างต่อเนื่อง
ดังนั้นคุณควรมุ่งเน้นไปที่ชื่อที่มีชื่อเดียวที่มีอิทธิพลต่อความนิยมของชื่อสำหรับการออกเสียงที่กำหนด วินาศภัยข้อมูลของผู้บริโภคอีกชื่อโดยปีนี้คุณจะเห็นว่าชื่อเริ่มต้นด้วยการแจม ... สำหรับเด็กมีระเบียบกับJamaal
, Jamal
, Jamar
และอื่น ๆ อนึ่งชื่อเหล่านี้มี soundexes แตกต่างกันเล็กน้อยสำหรับชาวอเมริกัน ( J540
, J540
และJ560
- The l
และr
อยู่ในกลุ่มที่แตกต่างกันถึงแม้ว่าพวกเขามีความสัมพันธ์อย่างใกล้ชิดในการออกเสียง) อย่างไรก็ตามสำหรับใครบางคนจากญี่ปุ่นพูดว่ามีเพียงเสียงเดียวในภูมิภาคสัทศาสตร์ที่l
และr
มีการออกเสียงในภาษาอังกฤษแบบอเมริกัน นี่อาจเป็นสิ่งที่ท้าทายกับพยัญชนะชั้นนำที่ใช้ soundex ที่ใคร ๆ ก็ควรระวัง (ฉันเคยทำงานกับผู้หญิงชาวญี่ปุ่นคนหนึ่งที่เรียกตัวเองว่า Risa (ที่มี 'R') มากกว่า Lisa เป็น Romanization ของชื่อญี่ปุ่นของเธอ)
คุณจะทราบว่าตัวอย่างของฉันสำหรับสหรัฐอเมริกา ข้อมูลนั้นสามารถเข้าถึงได้ง่าย เห็นได้ชัดว่ามีบางสิ่งสำหรับโปแลนด์และฮังการีและมีเพียงคำแนะนำที่คนธรรมดาสามัญของชื่อฮังการี ... ฉันสงสัยว่าการค้นหาในภาษาอื่นที่ไม่ใช่ภาษาอังกฤษอาจมีประโยชน์
ดังนั้นในการตั้งชื่อ soundex การชนกันน้อยและการสะกดคำที่แท้จริงอยู่ในชุดของการชน นี่เป็นชื่อสามัญ มองไปที่รายชื่อชาวฮังการีKrisztián
นั้นอาจจะมีการสะกดผิดในขณะที่Zoltán
มีโอกาสน้อยกว่านั้น (ชื่อทารกที่พบมากที่สุดอันดับที่ 22 ในฮังการีในปี 2011! Michael
ที่กล่าวว่าคุณไม่สามารถไปอย่างผิดปกติกับ