ฉันมีเอกสารที่สแกนจำนวนมากเป็น pdf และฉันต้องการค้นหาพวกเขา ฉันจะทำสิ่งนั้นได้อย่างไร
โดยพื้นฐานแล้วฉันต้อง OCR pdf แล้วผสมผสานข้อความที่แยกกลับมาเป็น pdf ใหม่ ฉันได้ลองใช้โซลูชันที่แตกต่างกันจำนวนหนึ่งอย่างไม่ถูกต้อง (รวมถึงโซลูชันที่พบในการเพิ่มข้อมูล OCR ให้เป็น PDF )
- pdfocr (ซึ่งให้ปัญหานี้กับฉัน: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (ซึ่งศูนย์ซอฟต์แวร์แจ้งว่าเป็นแพ็คเกจที่ไม่ดีและไม่ควรติดตั้ง)
- OCRfeeder (ในศูนย์ซอฟต์แวร์) ส่งออกเป็นอย่างดี แต่จะไม่ตอบสนองเมื่อส่งออกเป็น pdf
- Gscan2pdfส่งออกรูปภาพสีดำ (แต่สามารถค้นหาได้) ตามที่รายงานในการสนทนานี้
- ฉันไม่คิดว่าผู้ชม Pdfxchange สามารถจัดการการทำงานของ ocr ได้อย่างรวดเร็วบนไฟล์มากกว่า 500 หน้า
มีแพ็คเกจซอฟต์แวร์ที่ฉันไม่ทราบหรือไม่? หรือสคริปต์ที่ทำสิ่งนี้?
pdf2searchablepdf
ผมเพิ่งเขียน tesseract
มันอาศัย มันใช้งานได้ดี ใช้งานง่ายสุด ๆ ดูที่นี่ askubuntu.com/a/1187881/327339