ฉันมีเอกสาร PDF ที่สแกนซึ่งฉันต้องการเพิ่มเลเยอร์ข้อความที่ซ่อนอยู่ดังนั้นฉันสามารถทำดัชนีเอกสาร ฉันใช้ ghostscript tiff output ขาวดำอุปกรณ์ (tiffg4) เพื่อแยกหน้าเป็นภาพ TIFF และนี่คือตัวอย่างของสิ่งที่พวกเขามีลักษณะ:
การประมวลผลภาพนี้ด้วย tesseract ไม่ได้ผลลัพธ์ที่ดี
การเปลี่ยนเอาต์พุต ghostscript DPI (600, 300, 150, 96) แสดงว่ารูปภาพที่ 96 DPI ให้ผลลัพธ์ที่ดีที่สุดจาก tesseract แต่ก็ยังไม่เป็นที่น่าพอใจ
ตอนนี้ฉันคิดว่าจะขอคำแนะนำว่าตัวกรองใดที่จะปรับปรุงภาพนี้สำหรับการประมวลผล OCR
ฉันสามารถใช้ imagemagick หรือ numpy / scipy / ndimage