ฉันได้ทำการสแกนไฟล์ PDF ขนาด 300 dpi บนระบบ Ubuntu 16.04
เมื่อฉันเรียกใช้คำสั่งต่อไปนี้:
pdfocr -t -l swe -i *.pdf -o newfile.pdf
มันส่งผลให้ไฟล์ OCR-read สมบูรณ์แบบ ทุกคำสามารถค้นหาได้ทุกขนาดและรูปร่างของแบบอักษร
อย่างไรก็ตามขั้นตอนต่อไปในกระบวนการกำลังแปลง PDF นี้เป็น PDF / A-1b สิ่งนี้ทำโดย Ghostscript 9.18 ที่รันคำสั่ง:
gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i
ไฟล์ผลลัพธ์ได้รับการตรวจสอบความถูกต้องเป็นไฟล์ PDF / A-1b-file ที่ถูกต้อง แต่ความสามารถในการค้นหาของไฟล์นั้นเปลี่ยนแปลงไปมาก ดูเหมือนว่า Ghostscript กำลังทำลาย OCR
ใครมีความคิดว่าเกิดอะไรขึ้น
ขอบคุณมากล่วงหน้า
/ พอล
บางที pdfocr มีการเข้ารหัสที่ผิดปกติ คุณได้ลองย้อนกลับขั้นตอน (ทำให้เป็นไปตามมาตรฐานแล้วใช่ไหม)
—
Yorik
ฉันเดาว่าไม่ควรทำ PDF / A-compliancy ล็อคไฟล์ หลังจากนั้นคุณไม่สามารถเพิ่มได้ลบ och เพื่อแก้ไขสิ่งต่างๆภายในไฟล์
—
Paul Bergström
เป็นไปได้บั๊ก? ปัญหา "unicode" (utf / encode / magic)? ลาด? github.com/tesseract-ocr/tesseract/issues/357
—
Yorik
โยริคดูเหมือนว่าคุณพูดถูก! ฉันเคยดูลิงก์ของคุณมาก่อนและตอนนี้ฉันเชื่อว่ามีข้อผิดพลาดใน Ghostscript ทำให้เกิดข้อผิดพลาด ฉันสงสัยว่าทีมที่อยู่เบื้องหลัง Ghostscript ตระหนักถึงปัญหานี้หรือไม่?
—
Paul Bergström
เนื่องจากดูเหมือนว่าจะมีปัญหากับ Ghostscript ในขณะนี้ - ฉันลองเวอร์ชัน 9.19 ด้วยผลลัพธ์เดียวกัน - ฉันต้องการแปลงจาก PDF เป็น PDF / A-1b ด้วย PDFBox ซึ่งเป็นซอฟต์แวร์ที่ใช้ Java ใครบ้างมีความคิดที่น้อยที่สุดในการทำสิ่งนี้? ฉันได้ลองใช้คำอธิบายการใช้งานบางอย่างแล้ว แต่ยังไม่ประสบความสำเร็จ
—
Paul Bergström