วิธีแยกข้อความจาก pdf ด้วยฟอนต์ชุดย่อยที่ฝังอยู่


1

Pdftotextของxpdfทำงานได้ดีสำหรับไฟล์ฟอนต์ฝังตัวปกติ แต่ล้มเหลวเมื่อมีฟอนต์เซ็ตย่อยฝังอยู่ มีวิธีแก้ปัญหาสำหรับปัญหานี้หรือไม่?

คำตอบ:


0

ปัญหาอาจเป็นไปได้ว่าอักขระที่แสดงผลโดยใช้แบบอักษรชุดย่อยมีการเข้ารหัสแบบกำหนดเอง - การแสดงตัวเลขของอักขระไม่สอดคล้องกับ ASCII, Latin-1 หรือการเข้ารหัสทั่วไปอื่น ๆ

ดู

ซึ่งหมายความว่าไม่มีวิธีแก้ไขปัญหาง่าย ๆ


0

ในสถานการณ์เช่นนี้ฉันได้พิมพ์ PDF โดยใช้เครื่องพิมพ์ Adobe PDF ผ่านความละเอียดสูง (1200 dpi +) ภาพคุณภาพสูง (การตั้งค่าใด ๆ ที่คุณสามารถทำได้) จากนั้นฉัน OCR ภาพ PDF ทำให้ฉันมี PDF ที่สามารถค้นหาและใช้งานได้

เมื่อฉันมี PDF จำนวนมากที่ต้องทำมากกว่าพันหน้าฉันได้เปิดหน้าต่าง PDF หลายหน้าต่างพร้อมกันเพื่อทำสิ่งนี้พร้อมกันโดยใช้หลายแกนสำหรับหลาย PDF มันเป็น PITA แต่ใช้งานได้

หวังว่าไฟล์ของคุณจะเล็ก! ฉันทำสิ่งนี้มากกว่า 10,000 หน้าหนึ่งครั้ง (สร้างหนังสือรหัส) ไม่สนุก.


ขอบคุณสำหรับคำตอบ . แต่ทำไมโปรแกรมดู pdf จึงสามารถตีความได้อย่างถูกต้อง
Nishanth Lawrence

อาจเป็นเพราะการเข้ารหัสนั้นฝังอยู่ใน PDF ไม่ใช่โปรแกรม
เดมอน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.