ฉันมี Linux Mint 17.2 x32 Cinnamon อาจเป็นไปได้ว่าขั้นตอนเหล่านี้จะทำงานใน Ubuntu 14.04 x32
- ติดตั้ง Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng คุณสามารถเพิ่มภาษาอื่น ๆ ได้โดยการติดตั้งแพ็คเกจเพิ่มเติม ภาพหน้าจอนี้มาจาก synaptic:
แพคเกจภาษา Tesseract ใน Synaptic
ใช้ Tesseract
OPTION 1 - โดย commandline open terminal จากนั้นไปที่โฟลเดอร์ที่คุณเก็บไฟล์รูปภาพ (jpg, png) และคำสั่ง run:
a) เพื่อแปลงไฟล์รูปภาพทั้งหมดเป็นข้อความ
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done
หากต้องการรวมไฟล์ข้อความทั้งหมดเป็นไฟล์เดียวให้เรียกใช้คำสั่ง cat *.txt >> all.txt
b) เพื่อแปลงไฟล์รูปภาพทั้งหมดเป็นไฟล์ hocr (เปิดด้วย Firefox)
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done
ตัวเลือก 2 - โดย GUI
a) ติดตั้ง gImageReader และใช้งาน
sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader
b) แอปพลิเคชั่นที่สองคือ VietOCR รุ่นที่แท้จริงคือ 4.0 ดังนั้นดาวน์โหลด VietOCR-4.0.zip
คลายไฟล์และเปิด VietOCR.jar โดย Java:
เปิด VietOCR โดย Java
หากคุณยังไม่ได้ติดตั้ง Java คุณสามารถติดตั้งได้จากที่เก็บหรือคุณสามารถติดตั้ง Oracle Java 8 อย่างเป็นทางการขั้นตอนสำหรับการติดตั้ง Oracle Java 8 ใน Ubuntu 14.04
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default
ฉันขอแนะนำ VietOCR เพราะจะช่วยให้คุณสามารถแปลงไฟล์ OCR ได้การแปลงแบบกลุ่มก็เป็นอีกทางเลือกเช่นกัน