Tesseract
ในฐานะของปี 2018 มาเปิดใช้ได้ซอฟต์แวร์ที่ดีที่สุดคือ OCR Tesseract 4 (เบต้า)กับใหม่LSTM เครือข่ายประสาทรุ่น ประสิทธิภาพ OCR นั้นดีกว่ารุ่น OCR รุ่นก่อน ๆ ที่ใช้ในเวอร์ชัน 3
ตัวอย่าง (สร้างไฟล์ PDF output.pdf
พร้อมชั้นข้อความสำหรับเอกสารภาษาเยอรมันที่สแกน):
$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf
พิมพ์ข้อความที่รู้จักไปยัง stdout:
$ tesseract --oem 1 -l deu page page-0001.png stdout
รายการภาษาที่ติดตั้ง:
$ tesseract --list-langs
การสนับสนุนหลายภาษา / สคริปต์มีให้ในชุดข้อมูลที่ผ่านการฝึกอบรมที่ดาวน์โหลดได้เช่นมีชุดข้อมูลสำหรับ Fraktur
ด้วยโมเดล LSTM ใหม่ Tesseract ได้รับแรงบันดาลใจจากโครงการวิจัยOCRopus
Tesseract เวอร์ชั่น 3 ทำงานได้ค่อนข้างแย่แม้จะเป็นภาพอินพุตคุณภาพดีเช่นบ่อยครั้งที่มันตรวจจับตัวอักษรเท็จในพิกเซลฝุ่น (นอกบริบทข้อความ) และแนะนำข้อผิดพลาดของตัวอักษรเดี่ยวในคำที่รู้จักกันดี
ฟอร์ม
ประสิทธิภาพOUN แบบ Cuneiformนั้นไม่ได้แย่ขนาดนั้น แต่ก็ไม่ได้รับการบำรุงรักษาอย่างแข็งขัน (รุ่นล่าสุดในปี 2011 รุ่น 1.1) และขัดข้องได้ง่ายและมีปัญหาอื่น ๆ :
คุณสามารถปิดการใช้งานอัลกอริทึมเค้าโครงเช่นนี้:
$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001
( -l
ระบุภาษาของเอกสารต้นฉบับ)
ocrad
$ ocrad -F utf8 image-0001
ข้อความถูกพิมพ์โดยค่าเริ่มต้นเป็น stdout
ในเอกสารทางธุรกิจมันพลาดคำที่ขีดเส้นใต้ซึ่งไม่ได้มีรูปแบบ / tesseract / gocr
gocr
$ gocr image-0001
ข้อความถูกพิมพ์โดยค่าเริ่มต้นเป็น stdout
ฮาร์ดแวร์
มีสติมีการสนับสนุนที่ดีมากสำหรับฟีดอัตโนมัติเอกสาร (ADF) สแกนเนอร์เช่นการที่Avisionและฟูจิตสึคน
รวมอยู่ใน Sane เป็นscanimage
โปรแกรมบรรทัดคำสั่งที่คุณสามารถใช้เพื่อสร้างไพพ์ไลน์การสแกนที่มีสคริปต์ (เช่นadf2pdf.py
สคริปต์ของฉัน)