ฉันต้องจัดการกับไฟล์ที่มีอักขระควบคุมที่มองไม่เห็นจำนวนมากเช่น "จากขวาไปซ้าย" หรือ "ไม่มีความกว้างเป็นศูนย์" ช่องว่างต่างจากพื้นที่ปกติเป็นต้นและฉันมีปัญหาในการจัดการกับสิ่งนั้น
ตอนนี้ฉันต้องการที่จะดูตัวอักษรทั้งหมดในไฟล์ที่กำหนดตัวอักษรตัวอักษร(ฉันอยากจะพูดว่า "จากซ้ายไปขวา" แต่ฉันโชคไม่ดีที่เกี่ยวข้องกับภาษาจากขวาไปซ้าย)เป็น codepoints unicode โดยใช้เพียง เครื่องมือทุบตีพื้นฐาน (เช่นvi
, less
, cat
... ) เป็นไปได้ไหม?
ฉันรู้ว่าฉันสามารถแสดงไฟล์ในฐานสิบหกโดยhexdump
แต่ฉันจะต้องคำนวณ codepoints อีกครั้ง ฉันต้องการเห็น codepoints ของ unicode จริงๆดังนั้นฉันจึงสามารถ google พวกเขาและค้นหาว่าเกิดอะไรขึ้น
แก้ไข: ฉันจะเพิ่มที่ฉันไม่ต้องการแปลงเป็นรหัสที่แตกต่างกัน (เพราะนั่นคือสิ่งที่ฉันกำลังหาออนไลน์) ฉันมีไฟล์ใน UTF8 และนั่นก็ใช้ได้ ฉันแค่อยากรู้ codepoints ที่แน่นอนของตัวอักษรทั้งหมด