มันเป็นไปไม่ได้ (โดยไม่ต้องใช้โต๊ะตัวใหญ่) ในการบอกตัวอักษรคันจิของญี่ปุ่นออกมาจากตัวอักษร Han ที่ไม่ได้ใช้ในภาษาญี่ปุ่น (เช่นตัวอักษรจีนหรือเกาหลี)
หากคุณต้องการตรวจจับ idehan ของฮันในช่วงพื้นฐาน (\ u4e00 ถึง \ u9fff) จากนั้นจะถูกเข้ารหัสเป็น 3 ไบต์ไบต์แรกจะอยู่ระหว่าง 0xe4 ถึง 0xe9 ไบต์ที่สองและสามระหว่าง 0x80 และ 0xbf
มีสองปัญหาที่นี่ก่อนอื่นคุณต้องบอก grep ที่คุณต้องการดูแลไบต์และไม่ตัวอักษร; จากนั้นคุณต้องพิมพ์ 0xe4, 0xe9, 0x80 และ 0xbf ไบต์เพื่อใส่ไว้ในนิพจน์ regexp
ฉันค้นพบสวิตช์ -P ทำทั้งสองอย่าง และบรรทัดที่คุณต้องการคือ:
grep -P "[\xe4-\xe9][\x80-\xbf][\x80-\xbf]"
และถ้าคุณต้องการคะด้วย:
grep -P "[\xe4-\xe9][\x80-\xbf][\x80-\xbf]|\xe3[\x81-\x83][\x80-\xbf]"