วิธีแยกข้อความจาก pdf ด้วยฟอนต์ชุดย่อยที่ฝังอยู่

1

Pdftotextของxpdfทำงานได้ดีสำหรับไฟล์ฟอนต์ฝังตัวปกติ แต่ล้มเหลวเมื่อมีฟอนต์เซ็ตย่อยฝังอยู่ มีวิธีแก้ปัญหาสำหรับปัญหานี้หรือไม่?

pdf embedded-fonts xpdf

— Nishanth Lawrence
แหล่งที่มา

0

ปัญหาอาจเป็นไปได้ว่าอักขระที่แสดงผลโดยใช้แบบอักษรชุดย่อยมีการเข้ารหัสแบบกำหนดเอง - การแสดงตัวเลขของอักขระไม่สอดคล้องกับ ASCII, Latin-1 หรือการเข้ารหัสทั่วไปอื่น ๆ

ดู

ซึ่งหมายความว่าไม่มีวิธีแก้ไขปัญหาง่าย ๆ

— RedGrittyBrick
แหล่งที่มา

0

ในสถานการณ์เช่นนี้ฉันได้พิมพ์ PDF โดยใช้เครื่องพิมพ์ Adobe PDF ผ่านความละเอียดสูง (1200 dpi +) ภาพคุณภาพสูง (การตั้งค่าใด ๆ ที่คุณสามารถทำได้) จากนั้นฉัน OCR ภาพ PDF ทำให้ฉันมี PDF ที่สามารถค้นหาและใช้งานได้

เมื่อฉันมี PDF จำนวนมากที่ต้องทำมากกว่าพันหน้าฉันได้เปิดหน้าต่าง PDF หลายหน้าต่างพร้อมกันเพื่อทำสิ่งนี้พร้อมกันโดยใช้หลายแกนสำหรับหลาย PDF มันเป็น PITA แต่ใช้งานได้

หวังว่าไฟล์ของคุณจะเล็ก! ฉันทำสิ่งนี้มากกว่า 10,000 หน้าหนึ่งครั้ง (สร้างหนังสือรหัส) ไม่สนุก.

— เดมอน
แหล่งที่มา

ขอบคุณสำหรับคำตอบ . แต่ทำไมโปรแกรมดู pdf จึงสามารถตีความได้อย่างถูกต้อง

— Nishanth Lawrence

อาจเป็นเพราะการเข้ารหัสนั้นฝังอยู่ใน PDF ไม่ใช่โปรแกรม

— เดมอน