ฉันต้องการสแกนเอกสารจำนวนมากที่ฉันได้นอนด้วยความยุ่งยากน้อยที่สุด ฉันต้องการแปลงเป็นรูปภาพโดยใช้ Simple Scan จากนั้นแปลงเป็นข้อความโดยใช้ OCR มีแอพ OCR ที่ดีกับ GUI ที่จะให้ผลลัพธ์ที่ดีในการกดปุ่มหรือไม่?
ฉันต้องการสแกนเอกสารจำนวนมากที่ฉันได้นอนด้วยความยุ่งยากน้อยที่สุด ฉันต้องการแปลงเป็นรูปภาพโดยใช้ Simple Scan จากนั้นแปลงเป็นข้อความโดยใช้ OCR มีแอพ OCR ที่ดีกับ GUI ที่จะให้ผลลัพธ์ที่ดีในการกดปุ่มหรือไม่?
คำตอบ:
GOCR จาก เป็นโปรแกรม OCR (Optical Character Recognition) โปรแกรมจะแปลงรูปภาพที่สแกนของข้อความกลับไปเป็นไฟล์ข้อความ
CLARAเป็นอีกหนึ่งตัวเลือกกราฟิกที่ดี
OCRAD จาก คือ OCR สามารถใช้เป็นแอปพลิเคชันคอนโซลแบบสแตนด์อโลนหรือเป็นแบ็คเอนด์ไปยังโปรแกรมอื่น ๆ
KOOKA จาก เป็นแอปพลิเคชัน KDE แต่ใช้งานได้ดีนอกจากนี้คุณต้องติดตั้งโปรแกรม OCR จริงเช่น GOCR และ OCRAD หลังจากติดตั้ง Kooka และโปรแกรม OCR คุณจะต้องชี้ Kooka ไปยังตำแหน่งติดตั้ง OCR เพื่อให้สามารถใช้งานได้ แปลง JPEG เป็นข้อความ
OCRFeeder จาก เป็นการวิเคราะห์เลย์เอาต์เอกสารและระบบรู้จำอักขระด้วยแสง
Tesseract จาก เป็นโปรแกรมบรรทัดคำสั่งและมันเป็นเรื่องง่ายมากที่จะ use.You สามารถติดตั้งแพคเกจภาษา Tesseract-OCR-engจาก ที่นี่
ดูที่หน้านี้
หมายเหตุ:
เพื่อรันเทอร์มินัลtesseract goto และพิมพ์ดังต่อไปนี้
tesseract imagefile.tif outputfile.txt
Tesseract สามารถอ่านไฟล์ TIFF เท่านั้น - หากคุณมี JPEG หรือ PDF หรืออะไรก็ตามคุณจะต้องแปลงไฟล์ นอกจากนี้ส่วนขยายชื่อไฟล์ต้องเป็น. tif ไม่ใช่. tiff มิฉะนั้นจะเกิดข้อผิดพลาด tesseract
tesseract
(3.04.00 บน Ubuntu 15.10) ไม่มีปัญหากับPNG
ไฟล์อินพุต มันยอมรับJPG
ไฟล์ แต่ให้ผลลัพธ์ที่แย่กว่านั้นสำหรับไฟล์อย่างที่คาดหวังจากการบีบอัดส่วนเพิ่มเติม
มีเครื่องมือบรรทัดคำสั่ง OCR ยอดนิยมจำนวนหนึ่งที่คุณสามารถใช้ (ฉันไม่แน่ใจว่าพวกเขามี GUI):
Tesseract ( ReadMe , คำถามที่พบบ่อย ) (Python)
มีให้สำหรับ: Tesseract .NET , Tesseract iOS
OCR Engine ที่พัฒนาขึ้นที่ HP Labs ระหว่างปี 1985 และ 1995 ... และตอนนี้ที่ Google Tesseract น่าจะเป็นโปรแกรมโอเพ่นซอร์ส OCR ที่แม่นยำที่สุด
การใช้งาน:
tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
การรับรู้อักขระโอเพนซอร์ซ มันจะแปลงรูปภาพที่สแกนของข้อความกลับเป็นไฟล์ข้อความ GOCR สามารถใช้กับ front-end ที่แตกต่างกันซึ่งทำให้ง่ายต่อการพอร์ตไปยัง OS และสถาปัตยกรรมที่แตกต่างกัน สามารถเปิดรูปแบบภาพที่แตกต่างกันมากมายและคุณภาพได้รับการปรับปรุงในชีวิตประจำวัน
OCRopus ™ ( คำถามที่พบบ่อย ) (เขียนเป็น Python, NumPy และ SciPy)
ระบบ OCR มุ่งเน้นไปที่การใช้การเรียนรู้ของเครื่องขนาดใหญ่เพื่อจัดการกับปัญหาในการวิเคราะห์เอกสารที่มีการวิเคราะห์รูปแบบแบบเสียบได้การจดจำตัวอักษรแบบเสียบได้การสร้างแบบจำลองภาษาธรรมชาติทางสถิติและความสามารถแบบหลายภาษา
เอ็นจิ้น OCRopus นั้นใช้สองโครงการวิจัย: ตัวรู้จำลายมือประสิทธิภาพสูงที่พัฒนาขึ้นในช่วงกลางทศวรรษที่ 90 และได้รับการปรับใช้โดยสำนักสำรวจสำมะโนประชากรของสหรัฐและวิธีการวิเคราะห์เลย์เอาต์ประสิทธิภาพสูง
OCRopus ได้รับการพัฒนาโดย Google และมีจุดประสงค์เพื่อการแปลงเอกสารจำนวนมากในปริมาณสูง เราคาดหวังว่ามันจะเป็นระบบ OCR ที่ยอดเยี่ยมสำหรับแอพพลิเคชั่นอื่น ๆ อีกมากมาย
Tessnet2 (โอเพนซอร์ส, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)
Tesseract เป็นโปรแกรมโอเพ่นซอร์ส C ++ Tessnet2 เป็น. NET แอสเซมบลีที่เปิดเผยวิธีง่าย ๆ ในการทำ OCR Tessnet2 อยู่ภายใต้ใบอนุญาต Apache 2 (เช่น tesseract) ซึ่งหมายความว่าคุณสามารถใช้งานได้ตามที่คุณต้องการรวมอยู่ในผลิตภัณฑ์เชิงพาณิชย์
ไม่กี่คน: ABBYY CLI OCR สำหรับ Linux , Asprise OCR
สำหรับรายการที่สมบูรณ์ยิ่งขึ้นให้ตรวจสอบ: รายการซอฟต์แวร์รู้จำอักขระด้วยแสงที่ Wikipedia
ดูเพิ่มเติมที่: wanghaisheng/awesome-ocr
- รายการที่รวบรวมไว้ของทรัพยากร OCR ที่มีแนวโน้มที่ GitHub
ลินุกซ์อัจฉริยะ OCR วิธีการแก้ปัญหา
ข้อจำกัดความรับผิดชอบ - ฉันมีส่วนเกี่ยวข้องอย่างใกล้ชิดกับการพัฒนาโซลูชัน opensource นี้
Lios สามารถแปลงการพิมพ์เป็นข้อความโดยใช้สแกนเนอร์หรือกล้อง
นอกจากนี้ยังสามารถสร้างข้อความออกจากภาพที่สแกนจากแหล่งอื่นเช่น Pdf, รูปภาพหรือโฟลเดอร์ที่มีรูปภาพ
โปรแกรมได้รับการเข้าถึงโดยรวมสำหรับผู้พิการทางสายตา
เนื่องจากฉันมีการเชื่อมต่ออย่างใกล้ชิดฉันจะชอบความคิดเห็น
OCR ใน PDF หลายหน้าหรือเอกสารที่สแกน
นี่อาจเป็นวิธีที่ง่ายที่สุด Gscan2pdf เป็นเครื่องมือกราฟิกที่ช่วยให้คุณไม่เพียง แต่สแกนไฟล์ แต่ยังนำเข้าไฟล์และดำเนินการ OCR ติดตั้งgscan2pdf จากที่นี่ จาก Ubuntu Software Center หรือรันคำสั่งนี้ในเทอร์มินัล:
sudo apt-get install gscan2pdf
Gscan2PDF สามารถใช้เอ็นจิน OCR ที่ปรับแต่งเองได้ค่าเริ่มต้นคือ tesseract-ocr
คุณอาจพิจารณาเลือกภาษาที่เหมาะสม ในกรณีนั้นคุณจะต้องติดตั้งtesseract-ocr-LANG
แพคเกจLANG
รหัสภาษา ISO 639-2 สามตัวอักษรอยู่ที่ไหน ตอนนี้คุณมี 108 ภาษาใน 16.04 repo
ฉันมีเพียงประสบความสำเร็จ (ใต้ 16.04) กับpdfocr.rb นี่คือรายการในUbuntu วิกิ
นี่คือ ppaแต่ที่เก็บ 16.04 ไม่ได้รับการอัพเดต สคริปต์ทับทิมด้านบนจาก GitHub แต่ยังคงใช้งานได้กับ 16.04
คุณสามารถดาวน์โหลดได้จาก Github คุณจะต้องติดตั้งแพ็คเกจต่อไปนี้:
ruby tesseract-ocr pdftk exactimage
จากนั้นสร้างไฟล์ pdfocr.rb และรัน:
./pdfocf.rb -i source.pdf -o output.pdf
เป็นทางเลือกคุณสามารถใช้-l LANG
พารามิเตอร์ ในกรณีนั้นคุณจะต้องติดตั้งtesseract-ocr-LANG
แพคเกจLANG
รหัสภาษา ISO 639-2 สามตัวอักษรอยู่ที่ไหน ตอนนี้คุณมี 108 ภาษาใน 16.04 repo
วิธีที่ดีที่สุดและง่ายที่สุดคือการใช้pypdfocr
มันไม่ได้เปลี่ยนแปลง PDF pypdfocr เป็นลิงค์โมดูลหลามที่นี่
pypdfocr your_document.pdf
ในตอนท้ายคุณจะมีอีกyour_document_ocr.pdf
วิธีที่คุณต้องการด้วยข้อความที่ค้นหาได้ แอพไม่เปลี่ยนคุณภาพของภาพ เพิ่มขนาดของไฟล์เล็กน้อยโดยการเพิ่มข้อความซ้อนทับ
ฉันคิดว่าคำสั่งนั้นง่ายมากที่ไม่ต้องการ GUI ใด ๆ อาจติดตั้ง pypdfocr เป็น verbose อีกเล็กน้อย:
sudo apt install tesseract-ocr
pip install pypdfocr
pypdfocr
ไม่ได้รับการสนับสนุนอีกต่อไปตั้งแต่ปี 2559 และฉันสังเกตเห็นปัญหาบางอย่างเนื่องจากไม่มีการพูดถึง ocrmypdf
( โมดูลทำหน้าที่คล้ายกันและสามารถใช้ดังนี้:
ocrmypdf in.pdf out.pdf
ติดตั้ง:
pip install ocrmypdf
หรือ
apt install ocrmypdf
เพียงเพราะมันใช้งานได้ดีมากและควรอยู่ในรายการ:
ตัวอย่างgimageReaderจากภาพหน้าจอ:
มันอยู่ใน repos (ตอบเมื่อวันที่ 18.10 แต่ใช้มานานแล้ว)
eng
เป็นตัวเลือก ... แต่ฉันทำงานออกมา! :) การวิ่งsudo apt install tesseract-ocr-eng
ในเครื่องก็ทำได้ มันจะดีถ้านี่เป็นเอกสารในไฟล์ช่วยเหลือของ gimageReader หรือ "README" บน github ... หรือที่อื่น ชอบที่นี่บางที
gscan2pdf รวมถึงเครื่องมือ ocr ที่แตกต่างกัน 3 แบบ คุณสามารถสแกนไปที่โปรแกรมหรือนำเข้า pdf ของคุณไปยังโปรแกรม ฉันพบว่าเครื่องยนต์ Tesseract ใช้งานได้ดีและใช้งานง่ายมาก