การกรองอิมเมจ“ แบบครึ่งโทนสี” สำหรับการประมวลผล OCR

10

ฉันมีเอกสาร PDF ที่สแกนซึ่งฉันต้องการเพิ่มเลเยอร์ข้อความที่ซ่อนอยู่ดังนั้นฉันสามารถทำดัชนีเอกสาร ฉันใช้ ghostscript tiff output ขาวดำอุปกรณ์ (tiffg4) เพื่อแยกหน้าเป็นภาพ TIFF และนี่คือตัวอย่างของสิ่งที่พวกเขามีลักษณะ:

ป้อนคำอธิบายรูปภาพที่นี่

การประมวลผลภาพนี้ด้วย tesseract ไม่ได้ผลลัพธ์ที่ดี
การเปลี่ยนเอาต์พุต ghostscript DPI (600, 300, 150, 96) แสดงว่ารูปภาพที่ 96 DPI ให้ผลลัพธ์ที่ดีที่สุดจาก tesseract แต่ก็ยังไม่เป็นที่น่าพอใจ

ตอนนี้ฉันคิดว่าจะขอคำแนะนำว่าตัวกรองใดที่จะปรับปรุงภาพนี้สำหรับการประมวลผล OCR

ฉันสามารถใช้ imagemagick หรือ numpy / scipy / ndimage

image-processing ocr

— zetah
แหล่งที่มา

9

สิ่งที่คุณต้องการจริงๆอาจเป็นไปได้ว่าลักษณะทางสัณฐานวิทยาเช่นการยืดออกตามมาด้วยการกัดเซาะ นี้เรียกว่าเป็นการดำเนินการปิดบัญชี อาจจะอยู่ในกรณีของคุณ - เพียงแค่การขยายตัวเองอาจจะดี

มีคำถามที่คล้ายกันที่ถามก่อนหน้านี้ - ซึ่งสามารถช่วยด้านอื่น ๆ ได้

การแปลงรูปภาพขาวดำ (1 บิตขาวดำ)

ฉันจะสร้างข้อความใหม่จากภาพโดยใช้การทำงานทางสัณฐานวิทยาได้อย่างไร

— Dipan Mehta
แหล่งที่มา

2

คุณสามารถลบสิ่งนี้ได้โดยใช้ตัวกรอง low-pass ที่ทำในพื้นที่ความถี่หรือเพียงแค่ใช้ (ความแตกต่าง) Gaussian ของภาพ

— คริสโตฟ Rackwitz
แหล่งที่มา