OCR ตลก - สถานการณ์

ฉันได้ทำการสแกนไฟล์ PDF ขนาด 300 dpi บนระบบ Ubuntu 16.04

เมื่อฉันเรียกใช้คำสั่งต่อไปนี้:

pdfocr -t -l swe -i *.pdf -o newfile.pdf

มันส่งผลให้ไฟล์ OCR-read สมบูรณ์แบบ ทุกคำสามารถค้นหาได้ทุกขนาดและรูปร่างของแบบอักษร

อย่างไรก็ตามขั้นตอนต่อไปในกระบวนการกำลังแปลง PDF นี้เป็น PDF / A-1b สิ่งนี้ทำโดย Ghostscript 9.18 ที่รันคำสั่ง:

gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i

ไฟล์ผลลัพธ์ได้รับการตรวจสอบความถูกต้องเป็นไฟล์ PDF / A-1b-file ที่ถูกต้อง แต่ความสามารถในการค้นหาของไฟล์นั้นเปลี่ยนแปลงไปมาก ดูเหมือนว่า Ghostscript กำลังทำลาย OCR

ใครมีความคิดว่าเกิดอะไรขึ้น

ขอบคุณมากล่วงหน้า

/ พอล

— Paul Bergström
แหล่งที่มา

บางที pdfocr มีการเข้ารหัสที่ผิดปกติ คุณได้ลองย้อนกลับขั้นตอน (ทำให้เป็นไปตามมาตรฐานแล้วใช่ไหม)

— Yorik

ฉันเดาว่าไม่ควรทำ PDF / A-compliancy ล็อคไฟล์ หลังจากนั้นคุณไม่สามารถเพิ่มได้ลบ och เพื่อแก้ไขสิ่งต่างๆภายในไฟล์

— Paul Bergström

เป็นไปได้บั๊ก? ปัญหา "unicode" (utf / encode / magic)? ลาด? github.com/tesseract-ocr/tesseract/issues/357

— Yorik

โยริคดูเหมือนว่าคุณพูดถูก! ฉันเคยดูลิงก์ของคุณมาก่อนและตอนนี้ฉันเชื่อว่ามีข้อผิดพลาดใน Ghostscript ทำให้เกิดข้อผิดพลาด ฉันสงสัยว่าทีมที่อยู่เบื้องหลัง Ghostscript ตระหนักถึงปัญหานี้หรือไม่?

— Paul Bergström

เนื่องจากดูเหมือนว่าจะมีปัญหากับ Ghostscript ในขณะนี้ - ฉันลองเวอร์ชัน 9.19 ด้วยผลลัพธ์เดียวกัน - ฉันต้องการแปลงจาก PDF เป็น PDF / A-1b ด้วย PDFBox ซึ่งเป็นซอฟต์แวร์ที่ใช้ Java ใครบ้างมีความคิดที่น้อยที่สุดในการทำสิ่งนี้? ฉันได้ลองใช้คำอธิบายการใช้งานบางอย่างแล้ว แต่ยังไม่ประสบความสำเร็จ

— Paul Bergström