แยกข้อความจากเอกสารที่สแกน


10

มีวิธีการเลือกข้อความจากเอกสารที่สแกนหรือไม่? (เอาท์พุทเป็น jpg) อูบุนตูมีเครื่องมืออะไรให้ทำเช่นนั้น? มีห้องสมุดใดบ้างที่ฉันสามารถใช้แทนไบนารีซอฟต์แวร์ที่สร้างไว้ล่วงหน้าเพื่อทำสิ่งเดียวกันได้หรือไม่? ฉันพยายามแปลงให้เป็น. pdf โดยใช้ Imagemagick จากนั้นพยายามเลือกข้อความซึ่งเห็นได้ชัดว่าไม่ได้ผล

คำตอบ:


9

ชื่อของขั้นตอนประเภทนี้คือOCR (Optical Character Recognition) ลิงค์นั้นยังมีตัวเลือกสองทาง:

gocr - บรรทัดคำสั่ง OCR
fuzzyocr - spamassassin plugin เพื่อตรวจสอบภาพที่แนบมา
libhocr0 - OCR ภาษาฮิบรู
ocrad - โปรแกรมรู้จำตัวอักษรด้วยแสง
ocrfeeder - การวิเคราะห์เลย์เอาต์เอกสารและระบบรู้จำอักขระด้วยแสง
ocropus - การวิเคราะห์เอกสารและระบบ OCR
Tesseract-OCR
รูปแบบ - ระบบ OCR หลายภาษา 

และมันแสดงให้เห็นว่า Tesseract (การสอนที่เก่ามาก ) เป็นตัวเลือกที่ดีกว่าสำหรับสิ่งเหล่านี้ ลองดูสิ


3

เมื่อไม่นานมานี้ได้ทำการประเมินแพ็คเกจ OCR ต่างๆใน Ubuntu พบว่า Tesseract นั้นน้อยที่สุด (แต่ไม่ดีพอ) และเขียนสคริปต์ wrapper สำหรับ OCRing (เนื่องจาก Tesseract ต้องการรูปแบบอินพุตที่ไม่ชัดเจนเช่น TIFF) นี่คือฉัน~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

การประมวลผลภาพล่วงหน้าด้วย GIMP (การแปลงเป็น B&W โดยใช้เครื่องมือ Threshold) ดูเหมือนจะช่วยได้มาก

ฉันหวังว่าทุกอย่างจะดีขึ้นตั้งแต่นั้นมา ฉันเคยเห็นชื่อ OCR Feeder ในบล็อกโพสต์เมื่อเร็ว ๆ นี้ฉันจะลองดู


2

แพ็คเกจ Tesseract-ocr เป็นบรรทัดคำสั่ง หากคุณต้องการโปรแกรมที่มี GUI ฉันใช้ "gscan2pdf" และคุณสามารถค้นหาได้ใน Ubuntu Software Center

ใน gscan2pdf สิ่งที่คุณต้องทำคือคลิกที่ไอคอนสแกนเล็ก ๆ ใกล้ด้านบน ฉันคิดว่ามันให้สองหรือสามตัวเลือก GOCR ซึ่งไม่ดีมากและ Tesseract ซึ่งใช้งานได้ดี เลือก Tesseract และจากจุดนี้คุณต้องคลิกแท็บที่เหมาะสมเพื่อให้คุณสามารถค้นหาการตั้งค่าความละเอียด ทางออกที่ดีที่สุดของคุณคือ 300 หรือ 600 และ Tesseract จะทำได้ดี

เอกสารที่สแกนต่ำ, คดหรือเอกสารเก่าไม่ดีนัก โชคดี!

ป.ล. .. ฉันอ่านต่อไปว่า Tesseract สามารถอ่านภาพ TIFF ได้เท่านั้น นี่ไม่ใช่กรณีสำหรับฉัน ฉันสามารถนำเข้า JPG หรือ PNG ได้เช่นกัน

PPS ... ขอโทษสำหรับการแก้ไข! คุณอาจลองใช้ OCRFeeder ในศูนย์ซอฟต์แวร์ด้วย ฉันยังไม่ได้ลอง



0

ฉันมี Linux Mint 17.2 x32 Cinnamon อาจเป็นไปได้ว่าขั้นตอนเหล่านี้จะทำงานใน Ubuntu 14.04 x32

  1. ติดตั้ง Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng คุณสามารถเพิ่มภาษาอื่น ๆ ได้โดยการติดตั้งแพ็คเกจเพิ่มเติม ภาพหน้าจอนี้มาจาก synaptic: แพคเกจภาษา Tesseract ใน Synaptic

ใช้ Tesseract

OPTION 1 - โดย commandline open terminal จากนั้นไปที่โฟลเดอร์ที่คุณเก็บไฟล์รูปภาพ (jpg, png) และคำสั่ง run:

a) เพื่อแปลงไฟล์รูปภาพทั้งหมดเป็นข้อความ

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

หากต้องการรวมไฟล์ข้อความทั้งหมดเป็นไฟล์เดียวให้เรียกใช้คำสั่ง cat *.txt >> all.txt

b) เพื่อแปลงไฟล์รูปภาพทั้งหมดเป็นไฟล์ hocr (เปิดด้วย Firefox)

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

ตัวเลือก 2 - โดย GUI

a) ติดตั้ง gImageReader และใช้งาน

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) แอปพลิเคชั่นที่สองคือ VietOCR รุ่นที่แท้จริงคือ 4.0 ดังนั้นดาวน์โหลด VietOCR-4.0.zip

คลายไฟล์และเปิด VietOCR.jar โดย Java:

เปิด VietOCR โดย Java หากคุณยังไม่ได้ติดตั้ง Java คุณสามารถติดตั้งได้จากที่เก็บหรือคุณสามารถติดตั้ง Oracle Java 8 อย่างเป็นทางการขั้นตอนสำหรับการติดตั้ง Oracle Java 8 ใน Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

ฉันขอแนะนำ VietOCR เพราะจะช่วยให้คุณสามารถแปลงไฟล์ OCR ได้การแปลงแบบกลุ่มก็เป็นอีกทางเลือกเช่นกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.