วิธีสร้าง PDF ด้วยหน้าที่สแกน แต่ข้อความที่เลือกได้?


32

วันนี้ฉันได้รับ PDF จากซัพพลายเออร์ของเราและมีหน้าที่พิมพ์และสแกนหลายหน้าพร้อมลายเซ็น ฯลฯ ฉันเปิดมันใน Acrobat Reader DC แต่ด้วยความประหลาดใจของฉันข้อความจากภาพที่สแกนชัดเจนสามารถเลือกและคัดลอกเป็นข้อความ ดูภาพหน้าจอ:

PDF สแกนด้วยข้อความที่เลือกได้

เห็นได้ชัดว่ามี OCR บางอย่างอยู่เบื้องหลังสิ่งนี้เนื่องจากข้อความที่คัดลอกมีข้อผิดพลาด แต่สิ่งนี้เป็นไปได้อย่างไร ฉันไม่เคยเห็นสิ่งนี้มาก่อนสิ่งนี้จะสร้างได้อย่างไร


4
แพ็คเกจเช่นgithub.com/gkovacs/pdfocrอนุญาตให้สิ่งนี้เกิดขึ้นสำหรับรูปภาพ
PDFS

มันแตกต่างจากผลลัพธ์ที่คุณได้รับจากBatch-OCR PDF จำนวนมากอย่างไร
Dmitry Grigoryev

@DmitryGrigoryev ฉันไม่เคยเห็น PDF ประเภทนี้มาก่อนดังนั้นฉันจึงถามว่ามันคืออะไร ไม่มีอะไรเกี่ยวกับเฟิร์มแวร์เครื่องพิมพ์ OCR หรือ OCRMyPDF ในคำตอบทั้งคำถามและคำตอบนั้นแตกต่างกันมาก ฉันไม่เห็นสิ่งใดที่ซ้ำกันยกเว้นว่าทั้งสองคำถามเกี่ยวกับ OCR และ PDF
Vojtěch Dohnal

ดีฉันไม่เคยเห็น PDF OCR ซึ่งแตกต่างจากสิ่งที่คุณโพสต์นั่นคือเหตุผลที่คำถามของคุณรู้สึกแปลกสำหรับฉัน
Dmitry Grigoryev

คำตอบ:


53

นี่มี (ตรงข้ามกับคำตอบอื่น ๆ ที่นี่) ส่วนใหญ่อาจไม่มีอะไรเกี่ยวข้องกับ Acrobat เลย

สแกนเนอร์เอกสารมืออาชีพส่วนใหญ่ (ทั้งหมด ?!) และคนที่กึ่งอาชีพส่วนใหญ่จะทำงาน OCR โดยอัตโนมัติเมื่อคุณเลือก "บันทึกเป็น PDF" และเลือกช่องทำเครื่องหมาย "ค้นหา" ในการตั้งค่า รุ่น "เกรดผู้บริโภค" ที่ราคาถูกกว่าจะทำ OCR บนพีซีที่เชื่อมต่อเครื่องสแกนเครือข่ายทั่วไปจะทำภายใน

คำว่า "ค้นหาได้" หมายถึงไม่มีอะไรมากและไม่น้อยไปกว่าสแกนเนอร์ที่จะทำงาน OCR จากนั้นสร้างเพจที่มีบิตแมปที่สแกนอยู่ภายในและซ้อนทับพวกเขาด้วยอักขระที่มองไม่เห็นจาก OCR

ด้วยวิธีนี้คุณสามารถค้นหาและเลือกคัดลอกและวาง "บิตแมป" ราวกับว่าเป็นเวทมนต์ อย่างไรก็ตามมันไม่มีเวทมนตร์เลย ในความเป็นจริงคุณเพียงแค่คัดลอกข้อความที่มองไม่เห็น

สแกนเนอร์อาจทำเวทมนตร์เพิ่มเติมบางอย่างเช่นการจัดเรียงภาพขนาดใหญ่จากแผ่นกระเบื้องขนาดเล็กจำนวนมากซึ่งถูกนำมาใช้ซ้ำ สิ่งนี้ทำให้เอกสารมีขนาดเล็กกว่าที่เป็นไปได้ แต่อาจทำให้เกิดความประหลาดใจตลก (ไม่ตลกถ้าพวกเขาเกิดขึ้นกับคุณ!) เช่นXerox เปลี่ยนแปลงเรื่องราวค่าของคุณแดกดันแม้ว่า OCR จะไม่ทำขึ้นอยู่กับ บนเฟิร์มแวร์


ใช่นี่เป็นวิธีที่พวกเขาสร้างขึ้นฉันสงสัยมากว่าพวกเขาใช้ Adobe Acrobat เต็มรูปแบบ
Vojtěch Dohnal

เราทำโดยการวางข้อความทั้งหมดไว้ด้านหลังรูปภาพที่สแกนซึ่ง OCR รายงานว่าพบที่ใดโหนดข้อความแต่ละโหนด
Thorbjørn Ravn Andersen

10

แต่สิ่งนี้เป็นไปได้อย่างไร

โดยทั่วไปโปรแกรมจะดำเนินการ OCR ในไฟล์อินพุตจากนั้นวางเลเยอร์ข้อความที่มองไม่เห็นไว้บนรูปภาพ หรืออาจวางเลเยอร์ของข้อความที่มองเห็นใต้ภาพได้เช่นเดียวกัน

เมื่อคุณเลือกบางสิ่งรูปภาพไม่สำคัญเนื่องจากเลเยอร์ข้อความจะถูกเลือก

สิ่งนี้จะถูกสร้างขึ้นได้อย่างไร?

มีหลายวิธี เนื่องจาก Acrobat ได้รับการแนะนำแล้วฉันจะเพิ่มตัวเลือกฟรีบางอย่าง (และโชคดีที่คุณไม่ได้บังคับให้ใช้ Windows)

PDF-XChange Viewer

นี้เป็นโปรแกรมของ Windows พื้นเมืองโดยซอฟต์แวร์ รุ่นฟรีแวร์จะทำงานได้ดีภายใต้ Wine หากคุณใช้รุ่น 32 บิตในส่วนนำหน้า 32 บิตดังนั้นคุณสามารถใช้กับ Windows, macOS และ Linux ได้ ในสองกรณีสุดท้ายคุณจะต้องมี PlayOnMac หรือ PlayOnLinux ตามลำดับ

นี่คือภาพจากคำตอบที่ฉันทิ้งไว้บน Ask Ubuntu:

สกรีนช็อตของ PDF-XChange Viewer ใต้ไวน์

OCRmyPDF

นี่เป็นโปรแกรมหลายแพลตฟอร์มที่เขียนด้วย Pythonโดยอ้างอิงจาก Ghostscript, Tesseract และ Unpaper จากเอกสาร:

OCRmyPDF ทำอะไรได้บ้าง

OCRmyPDF วิเคราะห์แต่ละหน้าของ PDF เพื่อกำหนดสีและความละเอียด (DPI) ที่จำเป็นในการจับข้อมูลทั้งหมดในหน้านั้นโดยไม่สูญเสียเนื้อหา มันใช้ Ghostscript เพื่อ rasterize หน้าแล้วดำเนินการกับ OCR บนภาพ rasterized เพื่อสร้าง "เลเยอร์" OCR เลเยอร์จะถูกกราฟต์กลับไปยัง PDF ดั้งเดิม

สามารถติดตั้งได้ง่ายบน Debian และอนุพันธ์ของ Ubuntu:

apt-get install ocrmypdf

หรือบน macOS:

brew tap jbarlow83/ocrmypdf
brew install ocrmypdf

ใน Windows คุณจะต้องใช้อิมเมจ Docker ดูเอกสารอย่างเป็นทางการสำหรับรายละเอียด

การใช้งานนั้นง่ายมากและฉันแนะนำให้คุณใช้พารามิเตอร์เสริม-d(deskew) และ-c(clean) เพื่อผลลัพธ์ที่ดีกว่า มันจะตรงทุกหน้าและทำความสะอาดจุดเล็ก ๆ / ความไม่สมบูรณ์ก่อนที่จะใช้กระบวนการ OCR

คุณสามารถ (และควร) -lจัดให้มีภาษาที่มี

นี่คือตัวอย่างที่นำมาจากเอกสารที่เอียงที่เขียนเป็นภาษาอิตาลี:

ตัวอย่างสำหรับ OCRmyPDF

คำสั่งที่ฉันใช้คือ:

ocrmypdf -l ita -d -c input.pdf output.pdf

เครื่องมือออนไลน์

มีเครื่องมือออนไลน์บางอย่างที่ทำเช่นเดียวกัน โดยเฉพาะอย่างยิ่ง PDF24 โฮสต์OCRmyPDF เวอร์ชันฟรีทางเว็บซึ่งสามารถใช้ได้โดยไม่มีข้อ จำกัด

ดูสิ่งนี้ด้วย:


ขอบคุณสำหรับคำตอบนี้ฉันลองใช้ OCRMyPDF และทำงานได้ดีมาก แต่โชคไม่ดีที่การสนับสนุนด้านภาษาที่ฉันต้องการนั้นยังไม่ครบกำหนดดังนั้นผลลัพธ์ยังไม่สามารถใช้งานได้มาก
Vojtěch Dohnal

@ VojtěchDohnalคุณสนใจภาษาอะไร คุณติดตั้งชุดภาษาที่เกี่ยวข้องสำหรับ Tesseract หรือไม่ ดูรายการที่นี่: macports.org/ports.php?by=name&substr=tesseract-
Andrea Lazzarotto

4

อาจเป็นเพราะคุณสมบัติของAcrobat OCR :

Acrobat สามารถจดจำข้อความในไฟล์ PDF หรือไฟล์รูปภาพในหลายภาษา สิ่งที่คุณต้องทำคือเปิดเอกสารหรือภาพสแกนที่คุณต้องการ OCR จากนั้นคลิกปุ่มเครื่องมือสีน้ำเงินที่ด้านบนขวาของแถบเครื่องมือ ในแถบด้านข้างนั้นเลือกแท็บจดจำข้อความจากนั้นคลิกปุ่มในไฟล์นี้

...

กับข้อความที่ได้รับการยอมรับตอนนี้คุณสามารถมาร์กอัปไฟล์ PDF โดยใช้เครื่องมือทั้งหมดที่มาร์กอัปปกติ - คุณสามารถเน้นข้ามออกข้อความและอื่น ๆ คุณสามารถคัดลอกข้อความด้วยการจัดรูปแบบที่ตรวจพบแม้ว่าบ่อยครั้งที่ความแม่นยำจะน้อยกว่าการจดจำข้อความ


มันใช้งานได้ใน Reader เช่นกัน? เอกสารอื่นไม่ทำงานแบบนี้กับฉัน ...
Vojt Voch Dohnal

ฉันไม่กลัว แต่ลองดูที่บทความนี้: pdf.wondershare.com/pdf-software-comparison/…
duDE

3

จากเว็บไซต์ของ Adobe

จดจำข้อความในไฟล์ PDF ที่สแกน

เมื่อคุณสแกนเอกสารกระดาษเป็น PDF คุณเพียงแค่ถ่ายรูปเอกสารเหล่านั้น มันยอดเยี่ยมสำหรับภาพถ่ายและภาพที่พิมพ์อื่น ๆ แต่ถ้าคุณมีเอกสาร 200 หน้าซึ่งคุณต้องค้นหาคำหรือวลีที่เฉพาะเจาะจงล่ะ ใช้ Acrobat เพื่อจดจำข้อความในไฟล์ที่สแกนทำให้เนื้อหาข้อความสามารถค้นหาและใช้งานได้

  1. เมื่อเอกสารที่สแกนของคุณเปิดใน Acrobat ให้เปิดบานหน้าต่างเครื่องมือและขยายแผงการรู้จำข้อความ หากคุณไม่เห็น "การจดจำข้อความ" ในบานหน้าต่างเครื่องมือคุณสามารถเพิ่มได้โดยเลือกเมนูที่มุมขวาบน (ภาพด้านล่าง - ดูว่าลูกศรสีแดงตัวเล็ก ๆ ชี้ไปที่ใด? คลิกที่นี่)
  2. คลิกที่“ ในไฟล์นี้” เพื่อสแกนเอกสารที่คุณได้เปิดไว้ คุณสามารถยอมรับการตั้งค่าเริ่มต้นและคลิก“ ตกลง” เมื่อกล่องจดจำข้อความปรากฏขึ้น Acrobat จะแปลงภาพให้เป็นข้อความที่ใช้งานได้ หากต้องการทดสอบเพียงลองแก้ไขคำหรือประโยคด้วยแผงการแก้ไขเนื้อหา มันยอดเยี่ยมมาก!

ขอบคุณ แต่ฉันเพิ่งเปิด PDF ใน Reader DC และไม่ได้ทำอะไรพิเศษกับมันเอกสาร PDF อื่น ๆ ที่มีหน้าที่สแกนจะไม่ทำงานแบบนี้โดยอัตโนมัติ ...
Vojtěch Dohnal

5
OCR เสร็จสิ้นก่อนที่คุณจะได้รับไฟล์เมื่อมีการรับรู้ข้อความข้อความนั้นจะถูกบันทึกพร้อมกับ pdf
MátéJuhász

@ VojtěchDohnalคุณอาจต้องการกายกรรมเต็มรูปแบบไม่ใช่เฉพาะผู้อ่าน
Thorbjørn Ravn Andersen
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.