ฉันมีไฟล์ใน UTF-8 ที่มีข้อความเป็นหลายภาษา ส่วนใหญ่เป็นชื่อของผู้คน ฉันต้องแปลงเป็น ASCII และฉันต้องการผลลัพธ์เพื่อให้ดูเหมาะสมที่สุด
มีวิธีการแปลงจากการเข้ารหัสที่กว้างขึ้นเป็นวิธีที่แคบกว่า การแปลงที่ง่ายที่สุดคือการแทนที่อักขระที่ไม่ใช่ ASCII ทั้งหมดด้วยตัวยึดตำแหน่งบางตัวเช่น '_' ถ้าฉันรู้ภาษาที่ไฟล์นั้นเขียนมีความเป็นไปได้เพิ่มเติมเช่นโรมัน
เครื่องมือ Unix หรือไลบรารีภาษาการเขียนโปรแกรมที่มีอยู่ใน Unix สามารถให้การแปลงที่ดี (พยายามที่สุด) จาก UTF-8 เป็น ASCII ได้ไหม
ข้อความส่วนใหญ่เป็นภาษาที่ใช้ภาษาละตินยุโรป
iconv
และtr
มีUnidecode ฉันไม่คุ้นเคยกับมัน แต่อาจทำสิ่งที่คุณต้องการหากคุณสามารถใช้ Python