แต่สิ่งนี้เป็นไปได้อย่างไร
โดยทั่วไปโปรแกรมจะดำเนินการ OCR ในไฟล์อินพุตจากนั้นวางเลเยอร์ข้อความที่มองไม่เห็นไว้บนรูปภาพ หรืออาจวางเลเยอร์ของข้อความที่มองเห็นใต้ภาพได้เช่นเดียวกัน
เมื่อคุณเลือกบางสิ่งรูปภาพไม่สำคัญเนื่องจากเลเยอร์ข้อความจะถูกเลือก
สิ่งนี้จะถูกสร้างขึ้นได้อย่างไร?
มีหลายวิธี เนื่องจาก Acrobat ได้รับการแนะนำแล้วฉันจะเพิ่มตัวเลือกฟรีบางอย่าง (และโชคดีที่คุณไม่ได้บังคับให้ใช้ Windows)
PDF-XChange Viewer
นี้เป็นโปรแกรมของ Windows พื้นเมืองโดยซอฟต์แวร์ รุ่นฟรีแวร์จะทำงานได้ดีภายใต้ Wine หากคุณใช้รุ่น 32 บิตในส่วนนำหน้า 32 บิตดังนั้นคุณสามารถใช้กับ Windows, macOS และ Linux ได้ ในสองกรณีสุดท้ายคุณจะต้องมี PlayOnMac หรือ PlayOnLinux ตามลำดับ
นี่คือภาพจากคำตอบที่ฉันทิ้งไว้บน Ask Ubuntu:
OCRmyPDF
นี่เป็นโปรแกรมหลายแพลตฟอร์มที่เขียนด้วย Pythonโดยอ้างอิงจาก Ghostscript, Tesseract และ Unpaper จากเอกสาร:
OCRmyPDF ทำอะไรได้บ้าง
OCRmyPDF วิเคราะห์แต่ละหน้าของ PDF เพื่อกำหนดสีและความละเอียด (DPI) ที่จำเป็นในการจับข้อมูลทั้งหมดในหน้านั้นโดยไม่สูญเสียเนื้อหา มันใช้ Ghostscript เพื่อ rasterize หน้าแล้วดำเนินการกับ OCR บนภาพ rasterized เพื่อสร้าง "เลเยอร์" OCR เลเยอร์จะถูกกราฟต์กลับไปยัง PDF ดั้งเดิม
สามารถติดตั้งได้ง่ายบน Debian และอนุพันธ์ของ Ubuntu:
apt-get install ocrmypdf
หรือบน macOS:
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
ใน Windows คุณจะต้องใช้อิมเมจ Docker ดูเอกสารอย่างเป็นทางการสำหรับรายละเอียด
การใช้งานนั้นง่ายมากและฉันแนะนำให้คุณใช้พารามิเตอร์เสริม-d
(deskew) และ-c
(clean) เพื่อผลลัพธ์ที่ดีกว่า มันจะตรงทุกหน้าและทำความสะอาดจุดเล็ก ๆ / ความไม่สมบูรณ์ก่อนที่จะใช้กระบวนการ OCR
คุณสามารถ (และควร) -l
จัดให้มีภาษาที่มี
นี่คือตัวอย่างที่นำมาจากเอกสารที่เอียงที่เขียนเป็นภาษาอิตาลี:
คำสั่งที่ฉันใช้คือ:
ocrmypdf -l ita -d -c input.pdf output.pdf
เครื่องมือออนไลน์
มีเครื่องมือออนไลน์บางอย่างที่ทำเช่นเดียวกัน โดยเฉพาะอย่างยิ่ง PDF24 โฮสต์OCRmyPDF เวอร์ชันฟรีทางเว็บซึ่งสามารถใช้ได้โดยไม่มีข้อ จำกัด
ดูสิ่งนี้ด้วย: