การกรองอิมเมจ“ แบบครึ่งโทนสี” สำหรับการประมวลผล OCR


10

ฉันมีเอกสาร PDF ที่สแกนซึ่งฉันต้องการเพิ่มเลเยอร์ข้อความที่ซ่อนอยู่ดังนั้นฉันสามารถทำดัชนีเอกสาร ฉันใช้ ghostscript tiff output ขาวดำอุปกรณ์ (tiffg4) เพื่อแยกหน้าเป็นภาพ TIFF และนี่คือตัวอย่างของสิ่งที่พวกเขามีลักษณะ:

ป้อนคำอธิบายรูปภาพที่นี่

การประมวลผลภาพนี้ด้วย tesseract ไม่ได้ผลลัพธ์ที่ดี
การเปลี่ยนเอาต์พุต ghostscript DPI (600, 300, 150, 96) แสดงว่ารูปภาพที่ 96 DPI ให้ผลลัพธ์ที่ดีที่สุดจาก tesseract แต่ก็ยังไม่เป็นที่น่าพอใจ

ตอนนี้ฉันคิดว่าจะขอคำแนะนำว่าตัวกรองใดที่จะปรับปรุงภาพนี้สำหรับการประมวลผล OCR

ฉันสามารถใช้ imagemagick หรือ numpy / scipy / ndimage

คำตอบ:


9

สิ่งที่คุณต้องการจริงๆอาจเป็นไปได้ว่าลักษณะทางสัณฐานวิทยาเช่นการยืดออกตามมาด้วยการกัดเซาะ นี้เรียกว่าเป็นการดำเนินการปิดบัญชี อาจจะอยู่ในกรณีของคุณ - เพียงแค่การขยายตัวเองอาจจะดี

มีคำถามที่คล้ายกันที่ถามก่อนหน้านี้ - ซึ่งสามารถช่วยด้านอื่น ๆ ได้

การแปลงรูปภาพขาวดำ (1 บิตขาวดำ)

ฉันจะสร้างข้อความใหม่จากภาพโดยใช้การทำงานทางสัณฐานวิทยาได้อย่างไร


2

คุณสามารถลบสิ่งนี้ได้โดยใช้ตัวกรอง low-pass ที่ทำในพื้นที่ความถี่หรือเพียงแค่ใช้ (ความแตกต่าง) Gaussian ของภาพ

Gaussian low-pass, จากนั้นความแตกต่างของ gaussians เพื่อเพิ่มความคมชัด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.