นี่เป็นวิธีหนึ่งซึ่งจะต้องใช้เครื่องมือบางอย่างที่ไม่เหมือนกัน:
- ocrodjvu
- pdfbeadsซึ่งเป็นข้อกำหนดของ Google เองซึ่งสามารถพบได้
เราสามารถใช้djvu2hocr
คำสั่ง (จากocrodjvu
แพ็คเกจ) เพื่อแยกเลเยอร์ข้อความที่ซ่อนอยู่จากไฟล์ DjVu (มันไม่ได้ทำ OCR ใด ๆ หรือคล้ายกันมันเพียงแค่ดึงเลเยอร์ข้อความด้วยเรขาคณิต) เช่น:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
การแทรกแซงแก้ไขชื่อคลาสในเอาต์พุต hOCR (ซึ่งเป็นไฟล์ HTML แบบง่าย)
ตอนนี้เราแยกหน้า DjVu เป็นรูปแบบ TIFF ด้วย:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
เพื่อให้เราจบด้วยไฟล์เหล่านี้ในโฟลเดอร์ work out:
sample.djvu
pg10.html
pg10.tif
นี่คือที่pdfbeads
มาในการเล่นและเราดำเนินการอย่างง่าย:
pdfbeads -o pg10.pdf
โปรแกรมที่ดีนี้จะดูแลทุกอย่างที่อยู่ในโฟลเดอร์นี้ (ไฟล์ HTML และ TIFF ที่มีชื่อพื้นฐานเหมือนกัน) และสร้างไฟล์ PDF ผลลัพธ์ด้วยผลิตภัณฑ์บางอย่าง:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
ซึ่งเหมือนกับไฟล์ DjVu อินพุตและมีเลเยอร์ข้อความอยู่ภายใน:
สรุปความคิดเห็น:
ความคิดเห็นยาวด้านล่างหารือเกี่ยวกับการแสดงรูปภาพขนาดเล็กจากหน้าเอกสาร DjVu เป็นวัตถุแยกต่างหากซึ่งไม่สามารถทำได้อย่างง่ายดายเพราะหน้าเอกสาร DjVu เป็นเพียงภาพเดียวที่มีเลเยอร์ข้อความเสริมโดยไม่มี "ข้อมูล" เกี่ยวกับภาพขนาดเล็กเป็นวัตถุแยกต่างหาก หากเอกสาร DjVu มีภาพสีพวกเขามักจะวางบนเลเยอร์พื้นหลัง ในกรณีนี้ผู้ใช้สามารถใช้ประโยชน์จากเครื่องมือต่าง ๆ เช่นddjvu
(แยกเฉพาะเลเยอร์พื้นหลัง) และimagemagick
(ตัดภาพอัตโนมัติ) เพื่อส่งออกเป็นภาพแทนภาพเต็มผืนผ้าใบทั้งหมด แต่ไม่สามารถอัตโนมัติสำหรับการสร้างเอาต์พุต PDF
อีกวิธีหนึ่งที่ช้ากว่าคือการใช้เครื่องมือ OCR GUI ปกติ gscan2pdf
(> 1.0) แนะนำให้เป็นตัวเลือกที่เป็นไปได้สำหรับ Linux PC