15

ฉันเคยเห็น ebooks / กระดาษบางเล่มที่ดูเหมือนจะถูกสแกนจากฉบับกระดาษ แต่ข้อความใน ebooks / กระดาษสามารถคัดลอกออกมาได้อย่างน่าอัศจรรย์ ฉันคิดว่าเวอร์ชันที่สแกนโดยตรงต้องได้รับการประมวลผลโดยซอฟต์แวร์การรู้จำอักขระด้วยแสงบางตัว

ดังนั้นฉันอยากจะรู้ว่าโปรแกรม Optical Character Recognition ที่แนะนำคืออะไร? โดยเฉพาะผู้ที่ใช้ Ubuntu หรือฟรี? หากผู้ที่ใช้ Windows ดีกว่ามากโปรดแจ้งให้เราทราบด้วย

ฉันสนใจ OCR เหล่านั้นเป็นพิเศษที่สามารถยอมรับไฟล์ PDF ที่สแกนเป็นอินพุตและยังสร้างเป็นไฟล์ PDF อีกไฟล์ที่มีลักษณะเหมือนกับอินพุตหนึ่ง แต่คัดลอกข้อความได้

ขอบคุณและขอแสดงความนับถือ!

โปรด จำกัด หนึ่งซอฟต์แวร์ต่อคำตอบ

software-recommendation

— Tim
แหล่งที่มา

10

Tesseract OCR

เอ็นจิ้นดั้งเดิมได้รับการพัฒนาในช่วงปลายยุค 80 โดย HP และ IBM แต่ได้พิสูจน์แล้วว่าเป็นหนึ่งในซอฟต์แวร์ Ocular Recognition ที่ดีที่สุดที่ฉันเคยใช้ เมื่อไม่นานมานี้ได้รับการปรับปรุงหลายอย่างสำหรับเครื่องยนต์และได้กลายเป็นหนึ่งในเครื่องมือ OCR ที่ครอบคลุมที่สุดในตลาด การให้คะแนนกับเครื่องมือ OCR อื่น ๆ ส่วนใหญ่ (มีบางอย่างในการจับคู่ข้อความที่มีเปอร์เซ็นต์สูงกว่า 90%) สามารถแปลงหน้าเอกสารประเภทมาตรฐานเป็นข้อความได้อย่างง่ายดาย

ต่อไปนี้เป็นตัวอย่าง:

tesseract ScannedDocument.png out

จะสร้างไฟล์ชื่อ out.txt

— เดนนิส
แหล่งที่มา

ขอบคุณ! ฉันไม่เห็นว่า Tesseract รองรับไฟล์ PDF ที่ส่งออก คุณรู้เรื่องนี้ไหม

— StackExchange สำหรับทั้งหมด

@ ครั้งแรกฉันไม่เชื่อว่า Tesseract รองรับรูปแบบอินพุต / เอาท์พุตจำนวนมาก อย่างไรก็ตามตามคำตอบของ JanC gscan2pdf ใช้ Tesseract สำหรับ OCR และเนื่องจากชื่อของมันบ่งบอกถึงมันรองรับ PDF output

— ทิมไลเทิล

โปรดทราบว่า OCR ย่อมาจากOptical Character Recognition: en.wikipedia.org/wiki/Optical_character_recognition

— Jose Gómez

8

อีกโครงการที่น่าจะทำได้คือ gscan2pdf

sudo apt-get install gscan2pdf

โครงการนี้ยังสามารถใช้ Tesseract รวมถึงเครื่องมือ OCR โอเพ่นซอร์สอื่น ๆ

— Mark Kirby
แหล่งที่มา

3

ฉันไม่รู้ OCR สำหรับ Ubuntu แต่สำหรับ Windows มีคุณสมบัติที่คุณต้องการ นั่นคือABBYY FineReader นี่คือหน้าแต่มันไม่ฟรี

— vicmp3
แหล่งที่มา

1

ฉันใช้ FineReader ตรงตามที่ Tim ต้องการ (สำหรับการเปิด PDF ที่ได้รับการป้องกัน)

— Extender

3

โซลูชันฟรีมีอยู่ใน repos, CunieForm (และYAGFเป็นส่วนหน้าของ Gnome)

— Extender
แหล่งที่มา

ขอบคุณ! CunieForm รองรับ pdf เป็นรูปแบบอินพุตและเอาต์พุตหรือไม่ ฉันไม่เห็นสิ่งนี้ในหน้า Wikipedia และหน้าอย่างเป็นทางการ

— StackExchange สำหรับทั้งหมด

อาจจะไม่มี แต่แยกไฟล์ PDF เป็นชุดของการจิบเครื่องดื่มเป็นงานที่ง่ายเลยล่ะค่ะ :)

— Extender

3

ดูเหมือนว่าโครงการ Decapodจะทำหรือจะส่งออกเป็น PDF ดังนั้น Tesseract จะต้องส่งออกข้อมูลที่จำเป็นเพื่อให้ทราบว่าพบข้อความใด

— JanC
แหล่งที่มา

1

Adobe Acrobat (ไม่ใช่โปรแกรมอ่านไม่ใช่แอปพลิเคชั่นฟรี) มีความสามารถใน OCR ในการสแกนเอกสาร PDF และเพิ่มเลเยอร์ข้อความที่มองไม่เห็นที่ด้านบนของภาพเพื่อให้สามารถเลือกและคัดลอกข้อความได้ น่าเสียดายที่ฉันไม่สะดวกที่จะตรวจสอบว่าคุณลักษณะนั้นอยู่ใน UI ของ Acrobat อย่างไร แต่ฉันใช้มันสองครั้งเพื่อจุดประสงค์เดียวกับที่คุณกล่าวถึง

และใช่นี้เป็นซอฟต์แวร์ Windows, Linux ไม่หนึ่ง แต่ตามโปรแกรมฐานข้อมูลไวน์ HQ ก็ทำงานภายใต้ไวน์

— เสิร์จ Broslavsky
แหล่งที่มา

1

ซอฟต์แวร์ OCR ที่ดีที่สุดมักจะฝังอยู่ในเครื่องพิมพ์ / สแกนเนอร์ / เครื่องถ่ายเอกสาร Canon IRC 3880 ในสำนักงานของฉันสามารถส่งไฟล์ PDF OCR ที่ยอดเยี่ยมได้ง่ายและเร็วกว่าโปรแกรมเดสก์ท็อปที่ฉันรู้จัก วางหนังสือลงบนถาด (ไม่ได้ผูก) เลือกที่อยู่อีเมลของคุณกดปุ่มสีเขียว

PDF ส่วนใหญ่ของ OCR ที่คุณสามารถหาได้จากอินเทอร์เน็ตมาสำหรับเครื่องที่คล้ายกัน ปัญหาคือราคาสูงเกินไปสำหรับการใช้งานที่บ้าน (ประมาณ 12,000 ยูโร IRC)

— Javier Rivera
แหล่งที่มา

1

ซอฟต์แวร์ OCR ออนไลน์ที่ชื่นชอบฟรีนำเสนอโดย Ricoh Innovations นี่เป็นโปรแกรมเบต้า แต่ฉันคิดว่ามันใช้งานได้ค่อนข้างดี ตรวจสอบได้ที่: http://beta.rii.ricoh.com/betalabs/content/document-conversion

— นาตาลี
แหล่งที่มา

1

OCRFeeder

มันเป็นแอปพลิเคชั่น GUI

ป้อนคำอธิบายรูปภาพที่นี่

มันใช้tesseract- ocrหรือocradเป็นเครื่องมือ OCR

สามารถติดตั้งกับSoftware Centerหรือด้วย

sudo apt-get install ocrfeeder

— user224082
แหล่งที่มา

0

FineReader ยังมีเวอร์ชั่นออนไลน์ มันอ้างว่าสามารถประมวลผล PDF เป็นรูปแบบอินพุต --- http://finereader.abbyyonline.com/en/Help/Faq/

— texnic
แหล่งที่มา

คำแนะนำซอฟต์แวร์การรู้จำอักขระด้วยแสงหรือไม่

Tesseract OCR