ฉันจะแปลง PDF ที่สแกนเป็น PDF ด้วยข้อความได้อย่างไร


36

ฉันสแกนประมาณ 80 หน้าในรูปแบบ pdf ในระดับสีเทา (รูปแบบรูปภาพ) ขนาดสิ้นสุดของไฟล์ประมาณ 70MB ซึ่งมีขนาดใหญ่มาก

ตอนนี้ฉันกำลังมองหาวิธีการแปลงไฟล์ PDF ที่เป็นรูปภาพระดับสีเทาให้เป็นไฟล์ PDF ที่ใช้ตัวอักษรสีดำ / ขาว

ฉันได้พยายามหลายครั้งด้วยgsแต่ไม่ประสบความสำเร็จ (กู้คืนเพียงไม่กี่เปอร์เซ็นต์) หากผู้เชี่ยวชาญคนใดมีความคิดกรุณาแจ้งให้เราทราบ


1
คุณต้องมีเครื่องมือ OCR ดู Tesseract ubuntuforums.org/showthread.php?t=880471
Nikita U.

4
หากคุณกำลังสนใจในการรักษารูปแบบไฟล์ PDF ภาพตามที่เป็นและเพิ่มข้อความให้มันมีลักษณะที่คำถามเพิ่มข้อมูล OCR เป็น PDF
colan

หากคุณสามารถโพสต์ลิงก์ไปที่ (ตัวอย่าง) ตัวอย่างหน้าเดียวเราสามารถทดสอบวิธีแก้ปัญหา ...
Rmano

มันไม่ใช่ทางออกของ OCR แต่askubuntu.com/a/3387/16395ช่วยได้มาก (แม้ว่า 72dpi จะอยู่ทางด้านล่าง แต่ฉันมีผลลัพธ์ที่ดีกว่าด้วย 120)
Rmano

YAGF ทำงานได้ถูกต้องกับ Ubuntu 16.04 หรือไม่ หากฉันโหลดภาพหรือเอกสาร PDF โปรแกรมจะยกเลิกโดยไม่มีข้อความแสดงข้อผิดพลาด ภายใต้ Ubuntu 14.04 ฉันไม่มีปัญหา H.Roos
Hubert Roos

คำตอบ:


25

gImageReader เป็น GTK + front-end tesseract-ocrอย่างง่าย

sudo apt-get install gimagereader tesseract-ocr

ขอโทษสำหรับข้อความภาษาเยอรมัน


4
คุณควรติดตั้งภาษาของเอกสารเพื่อปรับปรุง OCR ด้วยsudo apt-get install tesseract-ocr-[lang], แทนที่langด้วยรหัสภาษา, เช่นdeuDeutsch, porสำหรับภาษาโปรตุเกส, ฯลฯ
estibordo

1
ซอฟต์แวร์นี้น่าเกลียด การใช้งานต่ำกว่าศูนย์ แม้ว่าจะพยายามทำงาน แต่ก็ไม่สามารถอ่านตารางเหมือนสเปรดชีตธรรมดา แค่คิดถึงหน้าที่มีอยู่
Max Yudin

9

คุณสามารถลอง pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

เพื่อรันไวยากรณ์นั้น

 pdfocr -i input.pdf -o output.pdf

โดยที่input.pdfชื่อของอินพุตไฟล์และoutput.pdfไฟล์เอาต์พุต

โดยค่าเริ่มต้นจะใช้ Tesseract วิธีติดตั้ง:

 sudo apt-get install tesseract-ocr

pdfocr สร้างเลเยอร์ข้อความฝังตัว


ที่ดี! น่าสนใจหลังจากดำเนินการตามขั้นตอนด้านบนไฟล์สามารถค้นหาได้ใน Adobe Acrobat DC แต่ไม่สามารถดูได้ใน Preview
ลุ

2
ที่เก็บนี้ไม่รองรับ xenial
สูงสุด N

คุณสามารถลองติดตั้ง pdfocr รุ่นเก่าถ้าคุณติดตั้งรุ่นเจ้าเล่ห์บน xenial มันก็ใช้ได้ เมื่อต้องการทำสิ่งนี้ให้เพิ่ม "deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" และ "deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntuหลักหลัก" ไปยัง /etc/apt/sources.list แล้ว "อัปเดต sudo apt" และ "sudo apt-get install pdfocr"
rafmunozf

2
pdfocr เป็นสคริปต์ที่ดำเนินการตามขั้นตอนต่อไปนี้โดยอัตโนมัติ: 1. แยกไฟล์ PDF ออกเป็นหน้าแยกโดยใช้ pdftk 2. แยกข้อมูลภาพออกโดยใช้ pdfimages 3. ทำ OCR (การรู้จำอักขระด้วยแสง) โดยใช้รูปแบบอักษร 4. ฝังข้อความที่ตรวจพบกลับเข้าไปใน ไฟล์ PDF ที่ใช้ hocr2pdf 5. การรวมไฟล์เข้าด้วยกันโดยใช้ pdftk (ข้อความจากubuntuforums.org/showthread.php?t=1456756 )
Tommy Trussell

3
pdfsandwich

มันโหลด tesseract และอื่น ๆ ในการติดตั้ง มันเป็นทางออกที่ง่ายในขั้นตอนเดียวและสามารถเขียนสคริปต์ มันสามารถใช้hocr2pdfในการสร้างไฟล์ PDF ข้อความธรรมดา แต่มันยังไม่พร้อมสำหรับเวลาที่สำคัญ ... ยัง ค่าเริ่มต้นใช้ tesseract และสร้าง "แซนวิช" pdf: รูปภาพ + ข้อความใต้

ภาพที่ฝังอยู่สามารถลบออกได้ด้วยคำสั่งเช่น:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

แต่ข้อความถูกซ่อนไว้ดังนั้นจึงดูเหมือนหน้าว่าง

การโหลด PDF เข้าสู่LibreOffice Drawข้อความและรูปภาพสามารถลบได้ด้วยตนเอง


เราจะทำอย่างไรเกี่ยวกับปัญหาด้านความปลอดภัยของ imagemagick / ghostscript ที่นำไปสู่not authorizedข้อผิดพลาดในidentify-im6.q16ลักษณะนี้: imagemagick - แปลง: ไม่ได้รับอนุญาตaaaa@ ข้อผิดพลาด / constitute.c / ReadImage / 453 - Stack Overflow
nealmcb

1

สำหรับอินเตอร์เฟสแบบกราฟิกที่แนะนำโดย @AB บน ubuntu 14.04 คุณควรปฏิบัติตาม:

ocr tesseract บน Ubuntu 14.04

หรือเพิ่มไปยังรายการที่เก็บ:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

ก่อนหน้านี้ใช้งานได้:

sudo apt-get install gimagereader


-1

ในไฟล์ pdf ของคุณคลิกขวาและบันทึกแต่ละหน้าเป็นรูปภาพ (หรือค้นหาเครื่องมือบางอย่างที่ทำทุกหน้าโดยอัตโนมัติ)

เปิดศูนย์ซอฟต์แวร์ Ubuntu ค้นหา tesseract นี่จะพบ YAGF ที่คุณควรติดตั้ง ใน YAGF คลิกที่ไฟล์ -> เปิดภาพและโหลดภาพของคุณ จากนั้นคลิกที่ไฟล์ -> รับรู้

ฉันมีความแม่นยำ 100% ในการทดสอบครั้งแรก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.