ซอฟต์แวร์ Scan-to-PDF สำหรับ Linux?

ฉันมีเวิร์กโฟลว์ที่ฉันจะสแกนเอกสารกระดาษเป็นไฟล์ PDF ที่ค้นหาได้โดยใช้เครื่องสแกนเอกสารของฟูจิตสึ ScanSnap S500 ฉันไม่ใช่แฟนตัวยงของซอฟต์แวร์ที่ให้มา แต่มันใช้งานง่ายมาก: วางกระดาษไว้ด้านบนกดปุ่มสีเขียวและ PDF ที่ค้นหาได้จะออกมา

ตอนนี้ฉันต้องการทำสิ่งที่คล้ายกันบน Linux (Ubuntu 10.10) สแกนเนอร์ได้รับการสนับสนุนนอกกรอบ

ฉันเคยดูgscan2pdfและXSane:

XSane ดูทรงพลัง แต่ไม่เหมาะกับโซลูชันเวิร์กโฟลว์จริงๆ
gscan2pdf ค่อนข้างใกล้เคียงกับ "กดปุ่มรับ PDF" ในอุดมคติ แต่ยังไม่ถึง 100%

ซอฟต์แวร์อื่นใดที่คุณสามารถแนะนำได้ (ฟรีหรืออย่างอื่น)

linux pdf scanning

— NPE
แหล่งที่มา

ฉันใช้ pdf-cups แต่เป็นภาพที่ไม่สามารถค้นหาข้อความได้

— RobotHumans

มีอะไรที่ไม่ได้ 100% ใน gscan2pdf?

— digitxp

@digitxp ฉันไม่ต้องการที่จะถ่วงปัญหากับรายการซักผ้าของปัญหา, ชอบและไม่ชอบสำหรับผลิตภัณฑ์ใด ๆ อย่างไรก็ตามเนื่องจากคุณถามว่าในเมื่อgscan2pdfฉันมีสิ่งประดิษฐ์แปลก ๆ ด้วย 'unpaper'ing OCR ส่วนใหญ่จะใช้ไม่ได้ (เครื่องยนต์บางตัวดีกว่าตัวอื่น ๆ ) และโดยรวมแล้วมันก็ไม่ได้คล่องตัวเหมือนโซลูชันดั้งเดิม อย่างไรก็ตามแก่นแท้ของคำถามของฉันคือการดูว่ามีอะไรอีกบ้างที่นั่นเพื่อที่ฉันจะได้ลองวิธีแก้ปัญหาต่าง ๆ และดูว่าอะไรดีที่สุดสำหรับฉัน

— NPE

@digitxp ฉันเพิ่งอ่านความคิดเห็นก่อนหน้านี้อีกครั้งและดูเหมือนว่าจะเป็นลบ นั่นไม่ใช่ความตั้งใจ gscan2pdfอันที่จริงแล้วค่อนข้างใกล้กับสิ่งที่ฉันกำลังมองหา แต่มีบางพื้นที่ที่ขาดความเศร้าเมื่อเทียบกับวิธีแก้ปัญหาดั้งเดิม

— NPE

นี่คือบางสิ่งที่ฉันค้นพบเมื่อทำการวิจัยเมื่อต้นปีนี้ ขออภัยฉันไม่สามารถโพสต์ไฮเปอร์ลิงก์ได้มากกว่าหนึ่งอันเนื่องจากคะแนนที่ จำกัด ของฉันดังนั้นคุณจะต้องไปที่ Google เพื่อรับลิงค์

gscan2pdf

ระบบ GUI ที่ดีมากที่สามารถใช้เอนจิน OCR ต่างๆสำหรับแบ็กเอนด์ นี่อาจเป็นไปตามโซลูชัน one-touch ของคุณ (และ digitxp ได้กล่าวถึงแล้ว)

เครื่องยนต์ Oess ของ Tesseract

สามารถใช้กับ gscan2pdf

http://www.linuxjournal.com/article/9676

Ocropus

ฉันไม่ได้อยู่ใกล้กับocropusมากนักเพราะมันไม่รู้จักข้อความโดยไม่ต้องฝึกอย่างถี่ถ้วน มันอาจจะดีสำหรับหนังสือ แต่ไม่ได้ผลดีสำหรับฉันกับตั๋วเงินและอื่น ๆ YMMV

ฟอร์ม

ฉันประสบความสำเร็จมากที่สุดกับCuneiformและสามารถสร้าง PDF ที่ค้นหาได้โดยคำสั่งการเขียนสคริปต์คล้ายกับเวิร์กโฟลว์ต่อไปนี้:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html

คุณจะต้องติดตั้งแพคเกจ exactimage

โครงการโอเพ่นซอร์สต่างๆสำหรับ OCR'ing ใช้ PDF ของCuniformและhocr2pdfเช่นกัน:

WatchOCR
Archivista

แจ้งให้เราทราบสิ่งที่คุณพบ!

— Eric Holmberg
แหล่งที่มา