มันเป็นเพราะการเข้ารหัสที่ใช้ใน PDF นั้นเป็นเรื่องที่ไม่แน่นอน
จาก PDF บางส่วนเป็นภาษาเวียดนาม ฉันพบใน intertubes
" การเข้ารหัส: ที่กำหนดเอง "อาจหมายถึงการเข้ารหัส (ดูสุ่ม) ที่สร้างขึ้นเพื่อความสะดวกของตัวเองโดยโปรแกรมที่สร้าง PDF นี้
" ชุดย่อยที่ฝัง "หมายถึงโปรแกรมไม่ต้องการอักขระจำนวนมากจากแบบอักษรนี้ดังนั้นจึงเลือกไม่กี่ตัวที่ต้องการและจัดเรียงตามลำดับแบบสุ่ม (อาจเป็นลำดับที่โปรแกรมพบในข้อความ) และการเข้ารหัสที่คิดค้นขึ้นใหม่ ในการสั่งซื้อนี้
มันไม่ใช่ "ตัวละคร" จริงๆ โดยพื้นฐานแล้วไฟล์ PDF จะไม่มีข้อมูลที่มีความหมายสากลเกี่ยวกับ "ตัวละคร" ที่มีอยู่อีกต่อไป มันมีเพียงกลุ่มของดัชนีที่มีการจัดทำดัชนีและรายการตำแหน่งและขนาดที่แสดงรูปร่างที่มีการจัดทำดัชนีเหล่านั้น
Wikipedia พูดว่า
แบบอักษร CID ที่คีย์อาจทำได้โดยไม่อ้างอิงถึงการรวบรวมอักขระโดยใช้การเข้ารหัส "ข้อมูลประจำตัว" เช่น Identity-H (สำหรับการเขียนในแนวนอน) หรือ Identity-V (สำหรับแนวตั้ง) แบบอักษรดังกล่าวอาจแต่ละชุดมีชุดอักขระที่ไม่ซ้ำกันและในกรณีเช่นนี้หมายเลข CID ของ glyph ไม่ได้ให้ข้อมูล โดยทั่วไปการเข้ารหัส Unicode จะใช้แทนอาจมีข้อมูลเพิ่มเติม
ดังนั้นคุณอาจลองดูว่าการเข้ารหัส UTF-16 นั้นเหมาะสมหรือไม่