Pdftotextของxpdfทำงานได้ดีสำหรับไฟล์ฟอนต์ฝังตัวปกติ แต่ล้มเหลวเมื่อมีฟอนต์เซ็ตย่อยฝังอยู่ มีวิธีแก้ปัญหาสำหรับปัญหานี้หรือไม่?
Pdftotextของxpdfทำงานได้ดีสำหรับไฟล์ฟอนต์ฝังตัวปกติ แต่ล้มเหลวเมื่อมีฟอนต์เซ็ตย่อยฝังอยู่ มีวิธีแก้ปัญหาสำหรับปัญหานี้หรือไม่?
คำตอบ:
ปัญหาอาจเป็นไปได้ว่าอักขระที่แสดงผลโดยใช้แบบอักษรชุดย่อยมีการเข้ารหัสแบบกำหนดเอง - การแสดงตัวเลขของอักขระไม่สอดคล้องกับ ASCII, Latin-1 หรือการเข้ารหัสทั่วไปอื่น ๆ
ดู
ซึ่งหมายความว่าไม่มีวิธีแก้ไขปัญหาง่าย ๆ
ในสถานการณ์เช่นนี้ฉันได้พิมพ์ PDF โดยใช้เครื่องพิมพ์ Adobe PDF ผ่านความละเอียดสูง (1200 dpi +) ภาพคุณภาพสูง (การตั้งค่าใด ๆ ที่คุณสามารถทำได้) จากนั้นฉัน OCR ภาพ PDF ทำให้ฉันมี PDF ที่สามารถค้นหาและใช้งานได้
เมื่อฉันมี PDF จำนวนมากที่ต้องทำมากกว่าพันหน้าฉันได้เปิดหน้าต่าง PDF หลายหน้าต่างพร้อมกันเพื่อทำสิ่งนี้พร้อมกันโดยใช้หลายแกนสำหรับหลาย PDF มันเป็น PITA แต่ใช้งานได้
หวังว่าไฟล์ของคุณจะเล็ก! ฉันทำสิ่งนี้มากกว่า 10,000 หน้าหนึ่งครั้ง (สร้างหนังสือรหัส) ไม่สนุก.