มีเครื่องมือใดที่จะทำให้ OCR ของไฟล์ PDF ที่สแกนโดยอัตโนมัติในลักษณะที่คล้ายกับคุณสมบัติ OCR ของ Acrobat? [ปิด]


10

เปิดแหล่งที่ต้องการ แต่ไม่จำเป็น

ฉันมี Adobe Acrobat 8 ​​และชอบคุณลักษณะ OCR ซึ่งสามารถใส่เลเยอร์ที่มองไม่เห็นของข้อความ OCR ลงบนเอกสารที่สแกนได้ ดังนั้นสิ่งที่คุณเห็นบนหน้าจอคือเอกสารที่สแกนต้นฉบับ แต่ผลลัพธ์สามารถค้นหาได้

สิ่งที่ฉันกำลังมองหาคือวิธีการทำให้กระบวนการนี้เป็นแบบอัตโนมัติ ปัจจุบันฉันมีสคริปต์บางส่วนที่เราใช้สำหรับการประมวลผลและการเก็บถาวรไฟล์ที่สแกนและกำลังมองหาบางอย่างที่ฉันสามารถเสียบเข้ากับกระบวนการชุดนี้เพื่อทำ OCR ในลักษณะที่คล้ายกับที่ฉันสามารถทำได้ด้วย Acrobat

ยินดีต้อนรับคำแนะนำทั้งหมดขอบคุณ!


1
ป.ล. - ฉันพยายามเก็บคำถามผู้ใช้ไว้ที่ superuser อย่างไรก็ตามการใช้งานที่เป็นผลมาจากคำถามนี้จะอยู่บนเซิร์ฟเวอร์แน่นอนว่าฉันได้รับการประมวลผลเอกสารที่สแกนแล้ว ... ดังนั้นจึงเป็น tossup
Boden

คำตอบ:


8

ฉันนำสิ่งนี้ไปใช้ในโครงการเก็บเอกสารของ บริษัท ไฟล์ที่สแกนเป็นไฟล์ tif (หน้าเดียว) จากนั้นใช้Cuneiformเพื่อสร้างไฟล์ hocr ของไฟล์ tif เดียว จากนั้นใช้hocr2pdfเพื่อส่งออกไฟล์ PDF หากการสแกนหลายหน้าฉันใช้ gs เพื่อรวม PDF เป็นเอกสาร PDF เดียว ทำงานได้ดีจริงๆ OCR นั้นดีพอสำหรับความต้องการของเราและสามารถค้นหาได้ในโปรแกรมดู PDF ใด ๆ


น่าสนใจ ก่อนที่ฉันจะใช้เวลามากเกินไปในการดู PDF ภาพที่ได้จากการสแกนต้นฉบับด้วยเลเยอร์ข้อความฝังตัวหรือเป็นข้อความเท่านั้นหรือไม่
Boden

มันเป็นภาพของการสแกนต้นฉบับที่มีชั้นข้อความฝังตัว ไฟล์ hocr คือเอาต์พุตข้อความที่มีมาร์กอัพ HTML
xeon

ยอดเยี่ยม ฉันจะให้มันยิง หากดูเหมือนว่าจะใช้งานได้ฉันจะทำเครื่องหมายคำตอบของคุณเป็นที่ยอมรับ ขอบคุณ!
Boden

1
ขอบคุณอีกครั้ง. ความเจ็บปวดเล็กน้อยในการติดตั้งสองคนนี้ แต่มันใช้งานได้ ฉันเขียนสคริปต์ง่าย ๆ เพื่อตรวจสอบโฟลเดอร์ FTP สำหรับไฟล์. tif ใหม่ที่มันทำงานกับฟอร์มและ hocr2pdf จากนั้นอัปโหลดผลลัพธ์ไปยังไลบรารีเอกสาร sharpoint โดยใช้ curl ดังนั้นผู้ใช้สามารถจัดเก็บเอกสารได้ทันทีจากเครื่องถ่ายเอกสารและคลังข้อความสามารถค้นหาข้อความได้อย่างสมบูรณ์ คำถาม: คุณรู้หรือไม่ว่าตัวเลือก "resolution overwrite" ใน hocr2pdf ทำอะไร?
Boden

ฉันดีใจที่มันทำงานให้คุณ ฉันไม่ทราบว่าอาร์กิวเมนต์ -r ทำ
xeon

1

คุณดู WatchOCR แล้วหรือยัง คุณสามารถดาวน์โหลดได้จากhttp://www.watchocr.comมันเป็นเซิร์ฟเวอร์ OCR ฟรีและโอเพนซอร์ซที่แปลงไฟล์รูปภาพเป็นไฟล์ PDF ที่สามารถค้นหาข้อความได้จากโฟลเดอร์ที่จับตาดูหรือแชร์เครือข่าย


0

ฉันชอบเสียงของคำตอบของ xeon แต่OCRopusฟังดูสนุกมาก


เมื่อฉันค้นคว้าและทดสอบวิธีแก้ปัญหาต่าง ๆ ฉันลองและ tesseract-ocr และพวกเขาไม่มีวิธีที่ดีในการส่งออก PDF ในเวลา ฉันไม่ได้มองเข้าไปในถ้าพวกเขามีคุณสมบัติเหล่านั้น ... ฉันรู้ว่า Tesseract-OCR มีมันในระยะเวลาของพวกเขา ...
Xeon
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.