ฉันจะติดตั้งชุดภาษาใหม่สำหรับ Tesseract ในวันที่ 16.04 ได้อย่างไร


19

เพิ่งติดตั้ง gscan2pdf v1.3.9 เช่นเดียวกับ Tesseract ส่วนหลังเป็นครั้งแรกที่มันปรากฏที่ด้านล่างของรายการซอฟต์แวร์ที่ติดตั้งของฉัน แต่ตอนนี้ดูเหมือนว่าจะหายไปแม้ว่าจะยังคงใช้งานได้ (ฉันคิดว่า)

อย่างไรก็ตามฉันพยายามเปลี่ยนไฟล์ PDF ของเอกสารที่สแกนเป็นข้อความที่แก้ไขได้ แต่เอกสารไม่ได้เป็นภาษาอังกฤษดังนั้น gscan จึงยุ่งเหยิง

เพียงตัวเลือกที่ฉันได้รับเมื่อฉันไปTools > OCR > Language to recognizeเป็นEnglish, และequ osdมีแนวคิดใดบ้างที่ฉันจะติดตั้งชุดภาษาเฉพาะได้อย่างไร

ฉันไม่มีผู้ใช้ Linux ที่มีประสบการณ์ดังนั้นคำแนะนำทีละขั้นตอนจะได้รับการชื่นชมอย่างมาก

คำตอบ:


33

เพียงติดตั้งภาษา ocr ที่จำเป็นโดยใช้สิ่งนี้:

sudo apt-get install tesseract-ocr-[lang]

ที่ไหน[lang]สามารถ

all

หรือ

afr
amh
ara
asm
aze
aze-cyrl
bel
ben
bod
bos
bul
cat
ceb
ces
chi-sim
chi-tra
chr
cym
dan
dan-frak
deu
deu-frak
dev
dzo
ell
enm
epo
est
eus
fas
fin
fra
frk
frm
gle
gle-uncial
glg
grc
guj
hat
heb
hin
hrv
hun
iku
ind
isl
ita
ita-old
jav
jpn
kan
kat
kat-old
kaz
khm
kir
kor
kur
lao
lat
lav
lit
mal
mar
mkd
mlt
msa
mya
nep
nld
nor
ori
pan
pol
por
pus
ron
rus
san
sin
slk
slk-frak
slv
spa
spa-old
sqi
srp
srp-latn
swa
swe
syr
tam
tel
tgk
tgl
tha
tir
tur
uig
ukr
urd
uzb
uzb-cyrl
vie
yid

1
'eng' ควรอยู่ในรายการด้วย
จะ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.