ใน Unicode ชุดอักขระบางตัวมีการแสดงมากกว่าหนึ่งรายการ
ตัวอย่างเช่นอักขระäสามารถแสดงเป็น
- "ä" นั่นคือ codepoint U + 00E4 (สองไบต์
c3 a4
ในการเข้ารหัส UTF-8) หรือ - "ä" นั่นคือ codepoints สองตัวคือ U + 0061 U + 0308 (สามไบต์
61 cc 88
ใน UTF-8)
ตามมาตรฐาน Unicode ทั้งสองเป็นตัวแทนเทียบเท่า แต่ในการที่แตกต่างกัน "รูปแบบการฟื้นฟู" ดูUAX # 15: รูปแบบ
กล่องเครื่องมือยูนิกซ์มีเครื่องมือการแปลงข้อความทุกชนิด, sed , tr , iconv , Perl เป็นที่จดจำ ฉันจะทำการแปลง NF อย่างรวดเร็วและง่ายดายบนบรรทัดรับคำสั่งได้อย่างไร
perl -MUnicode::Normalization -e 'print NFC(
…เอ่ออะไรจะเกิดขึ้นที่นี่ตอนนี้…