Unix & Linux unicode

ประมวลผลไฟล์ที่ขึ้นต้นด้วย BOM (FF FE)

ฉันได้รับไฟล์. csv พร้อมFF FEBOM: $ head -n1 dotan.csv | hd 00000000 ff fe 41 00 64 00 20 00 67 00 72 00 6f 00 75 00 |..A.d. .g.r.o.u.| เมื่อใช้awkในการแยกมันฉันได้รับพวงไบต์ว่างซึ่งฉันสงสัยว่าเกิดจากการสั่งไบต์ ฉันจะสลับลำดับไบต์บนไฟล์นี้ (โดยใช้ CLI) เพื่อให้เครื่องมือปกติทำงานได้อย่างไร โปรดทราบว่าฉันคิดว่าไฟล์นี้เป็นอักขระ ASCII เท่านั้น (ยกเว้น BOM) แต่ฉันไม่สามารถยืนยันได้อย่างที่grepคิดว่าเป็นไฟล์ไบนารี: $ grep -P '^[\x00-\x7f]' dotan.csv Binary file dotan.csv matches การค้นหาสตริงเดียวกันใน …

10 text-processing character-encoding unicode

จะแทนที่สตริงย่อย UTF-8 ที่เข้ารหัสเปอร์เซ็นต์ทั้งหมดด้วยข้อความ UTF-8 ธรรมดาได้อย่างไร

ฉันมีไฟล์ html ที่มีข้อความ UTF-8 เข้ารหัส%% ใน URL ตัวอย่างเช่น "% D1% 80% D0% B5% D1% 81% D1% 83% D1% 80% D1% 81% D1% 8B" ย่อมาจาก "ресурсы" ("ทรัพยากร" ในรัสเซีย) ภารกิจคือการแทนที่สตริงย่อยทั้งหมดด้วยข้อความ UTF-8 ที่อ่านได้ เพื่อให้งานง่ายขึ้นเราสามารถพิจารณาได้ว่าไม่มี%การใช้เครื่องหมายอื่น ๆในไฟล์ ตัวเลขตัวอักษรสามารถเป็นได้ทั้งตัวพิมพ์ใหญ่และตัวพิมพ์เล็ก ฉันสงสัยว่านี้สามารถทำได้อย่างหรูหราด้วยsed, perl, awkหรือบางสิ่งบางอย่าง แต่ไม่ทราบว่า เว็บแอปพลิเคชั่นนี้ดูเหมือนจะหลอกลวงด้วยข้อความที่คุณวางไว้ที่นั่น

9 text-processing character-encoding text unicode

คำถามติดแท็ก unicode