คำแนะนำซอฟต์แวร์การรู้จำอักขระด้วยแสงหรือไม่


15

ฉันเคยเห็น ebooks / กระดาษบางเล่มที่ดูเหมือนจะถูกสแกนจากฉบับกระดาษ แต่ข้อความใน ebooks / กระดาษสามารถคัดลอกออกมาได้อย่างน่าอัศจรรย์ ฉันคิดว่าเวอร์ชันที่สแกนโดยตรงต้องได้รับการประมวลผลโดยซอฟต์แวร์การรู้จำอักขระด้วยแสงบางตัว

ดังนั้นฉันอยากจะรู้ว่าโปรแกรม Optical Character Recognition ที่แนะนำคืออะไร? โดยเฉพาะผู้ที่ใช้ Ubuntu หรือฟรี? หากผู้ที่ใช้ Windows ดีกว่ามากโปรดแจ้งให้เราทราบด้วย

ฉันสนใจ OCR เหล่านั้นเป็นพิเศษที่สามารถยอมรับไฟล์ PDF ที่สแกนเป็นอินพุตและยังสร้างเป็นไฟล์ PDF อีกไฟล์ที่มีลักษณะเหมือนกับอินพุตหนึ่ง แต่คัดลอกข้อความได้

ขอบคุณและขอแสดงความนับถือ!

โปรด จำกัด หนึ่งซอฟต์แวร์ต่อคำตอบ

คำตอบ:


10

Tesseract OCR ติดตั้ง Tesseract OCR

เอ็นจิ้นดั้งเดิมได้รับการพัฒนาในช่วงปลายยุค 80 โดย HP และ IBM แต่ได้พิสูจน์แล้วว่าเป็นหนึ่งในซอฟต์แวร์ Ocular Recognition ที่ดีที่สุดที่ฉันเคยใช้ เมื่อไม่นานมานี้ได้รับการปรับปรุงหลายอย่างสำหรับเครื่องยนต์และได้กลายเป็นหนึ่งในเครื่องมือ OCR ที่ครอบคลุมที่สุดในตลาด การให้คะแนนกับเครื่องมือ OCR อื่น ๆ ส่วนใหญ่ (มีบางอย่างในการจับคู่ข้อความที่มีเปอร์เซ็นต์สูงกว่า 90%) สามารถแปลงหน้าเอกสารประเภทมาตรฐานเป็นข้อความได้อย่างง่ายดาย

ต่อไปนี้เป็นตัวอย่าง:

tesseract ScannedDocument.png out

จะสร้างไฟล์ชื่อ out.txt


ขอบคุณ! ฉันไม่เห็นว่า Tesseract รองรับไฟล์ PDF ที่ส่งออก คุณรู้เรื่องนี้ไหม
StackExchange สำหรับทั้งหมด

@ ครั้งแรกฉันไม่เชื่อว่า Tesseract รองรับรูปแบบอินพุต / เอาท์พุตจำนวนมาก อย่างไรก็ตามตามคำตอบของ JanC gscan2pdf ใช้ Tesseract สำหรับ OCR และเนื่องจากชื่อของมันบ่งบอกถึงมันรองรับ PDF output
ทิมไลเทิล

โปรดทราบว่า OCR ย่อมาจากOptical Character Recognition: en.wikipedia.org/wiki/Optical_character_recognition
Jose Gómez

8

อีกโครงการที่น่าจะทำได้คือ gscan2pdf

sudo apt-get install gscan2pdf

โครงการนี้ยังสามารถใช้ Tesseract รวมถึงเครื่องมือ OCR โอเพ่นซอร์สอื่น ๆ


3

ฉันไม่รู้ OCR สำหรับ Ubuntu แต่สำหรับ Windows มีคุณสมบัติที่คุณต้องการ นั่นคือABBYY FineReader นี่คือหน้าแต่มันไม่ฟรี


1
ฉันใช้ FineReader ตรงตามที่ Tim ต้องการ (สำหรับการเปิด PDF ที่ได้รับการป้องกัน)
Extender

3

โซลูชันฟรีมีอยู่ใน repos, CunieForm (และYAGFเป็นส่วนหน้าของ Gnome)


ขอบคุณ! CunieForm รองรับ pdf เป็นรูปแบบอินพุตและเอาต์พุตหรือไม่ ฉันไม่เห็นสิ่งนี้ในหน้า Wikipedia และหน้าอย่างเป็นทางการ
StackExchange สำหรับทั้งหมด

อาจจะไม่มี แต่แยกไฟล์ PDF เป็นชุดของการจิบเครื่องดื่มเป็นงานที่ง่ายเลยล่ะค่ะ :)
Extender

3

ดูเหมือนว่าโครงการ Decapodจะทำหรือจะส่งออกเป็น PDF ดังนั้น Tesseract จะต้องส่งออกข้อมูลที่จำเป็นเพื่อให้ทราบว่าพบข้อความใด


1

Adobe Acrobat (ไม่ใช่โปรแกรมอ่านไม่ใช่แอปพลิเคชั่นฟรี) มีความสามารถใน OCR ในการสแกนเอกสาร PDF และเพิ่มเลเยอร์ข้อความที่มองไม่เห็นที่ด้านบนของภาพเพื่อให้สามารถเลือกและคัดลอกข้อความได้ น่าเสียดายที่ฉันไม่สะดวกที่จะตรวจสอบว่าคุณลักษณะนั้นอยู่ใน UI ของ Acrobat อย่างไร แต่ฉันใช้มันสองครั้งเพื่อจุดประสงค์เดียวกับที่คุณกล่าวถึง

และใช่นี้เป็นซอฟต์แวร์ Windows, Linux ไม่หนึ่ง แต่ตามโปรแกรมฐานข้อมูลไวน์ HQ ก็ทำงานภายใต้ไวน์


1

ซอฟต์แวร์ OCR ที่ดีที่สุดมักจะฝังอยู่ในเครื่องพิมพ์ / สแกนเนอร์ / เครื่องถ่ายเอกสาร Canon IRC 3880 ในสำนักงานของฉันสามารถส่งไฟล์ PDF OCR ที่ยอดเยี่ยมได้ง่ายและเร็วกว่าโปรแกรมเดสก์ท็อปที่ฉันรู้จัก วางหนังสือลงบนถาด (ไม่ได้ผูก) เลือกที่อยู่อีเมลของคุณกดปุ่มสีเขียว

PDF ส่วนใหญ่ของ OCR ที่คุณสามารถหาได้จากอินเทอร์เน็ตมาสำหรับเครื่องที่คล้ายกัน ปัญหาคือราคาสูงเกินไปสำหรับการใช้งานที่บ้าน (ประมาณ 12,000 ยูโร IRC)



1

OCRFeeder

มันเป็นแอปพลิเคชั่น GUI

ป้อนคำอธิบายรูปภาพที่นี่

มันใช้tesseract- ocrหรือocradเป็นเครื่องมือ OCR

สามารถติดตั้งกับSoftware Centerหรือด้วย

sudo apt-get install ocrfeeder

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.