Batch OCR สำหรับไฟล์ PDF จำนวนมาก (ยังไม่ได้ทำ OCR) [ปิด]

9

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้

ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นหัวข้อสำหรับผู้ใช้ขั้นสูง

ปิดให้บริการใน5 ปีที่ผ่านมา

ฉันใช้ Google Desktop Search (ฉันอยู่บน Vista) และไม่ใช่ไฟล์ PDF ทั้งหมดของฉันที่ได้รับการยอมรับในโฟลเดอร์เก็บถาวรของฉัน เป็นเรื่องปกติเนื่องจาก " ไฟล์ PDF ที่มีภาพสแกน " ไม่ได้จัดทำดัชนี ( http://desktop.google.com/support/bin/answer.py?hl=th&answer=90651 )

ดังนั้นฉันจึงต้องการ OCR ไฟล์ PDF จำนวนมากที่ยังไม่ได้เป็น OCR เป้าหมายของฉัน: ฉันให้โปรแกรมโฟลเดอร์และค้นหาคนเดียวในโฟลเดอร์ย่อยไฟล์ PDF ที่ต้องแปลงเป็นไฟล์ PDF-OCRed

หมายเหตุ: ในอดีตหากไฟล์ PDF ได้รับการป้องกันด้วยรหัสผ่านฉันจะลบรหัสผ่านด้วยชุดเครื่องมือ (จ่ายเงิน) อีกชุด: verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

มีแนวคิด (ไม่แพงเกินไป) ไหม?

ฉันพยายามแล้ว: FineReader 6 Pro บน XP ในเวลานั้น แต่ก็มีหน่วยประมวลผลชุดไม่รวม ... Paperfile paperfile.net ซึ่งใช้ Tesseract http://code.google.com/p/tesseract-ocr/ แต่ OCR เป็นไฟล์ PDF เป็นข้อความเท่านั้นไม่ใช่ PDF เป็น PDF! นอกจากนี้ยังมีโครงการอื่นอีกhttp://code.google.com/p/ocropus/

ขอบคุณล่วงหน้า ;)

pdf ocr desktop-search

— Erb
แหล่งที่มา

หนึ่งปีต่อมาอัปเดต: สวัสดีเห็นได้ชัดว่า "ABBYY Hot Folder & Scheduling" ซอฟต์แวร์รวมอยู่ใน ABBYY FineReader (> v. 9.0) รุ่นลิขสิทธิ์ขององค์กรและไซต์อาจช่วยได้ (ฉันไม่ได้ลอง: 600 $!) Tesseract ควรทำงานบน windows ทันที (ไม่ประสบความสำเร็จสำหรับฉันตอนนี้!) ()

— Erb

นอกจากนี้ ABBYY FineReader (> v. 9.0) รุ่น Pro มีงานอัตโนมัติ: คุณเลือกโฟลเดอร์หลัก + โฟลเดอร์ย่อยของมันและทำงาน แต่ปัญหาหลักคือมันเปิด pdf ทั้งหมดในครั้งเดียว (!!) แล้วอ่านพวกเขา (= ocr) แล้วบันทึกไฟล์ pdf ที่ไม่ซ้ำกัน! ดังนั้นหากคุณมี pdf หลายร้อยสิ่งที่น่ารังเกียจไม่ทำงานสำหรับฉัน! (แย่มากฝันร้าย!) (

— เออร์บ

6

TL; DR? เริ่มต้นด้วย Nuance PowerPDF ขั้นสูง

ฉันประเมินซอฟต์แวร์ OCR ในเดือนธันวาคม 2014 เพื่อเตรียมการสำหรับโครงการใหญ่ - OCR ในหน้าภาษาอังกฤษหลายล้านหน้าในชุดงาน หากคุณยินดีจ่ายไม่กี่ร้อยดอลลาร์คุณมีตัวเลือกมากมาย รุ่นทดลองสามารถให้คุณผ่านหากคุณต้องการแปลงสองสามร้อยหน้า

แพ็คเกจซอฟต์แวร์จำนวนมากต้องการโหลดไฟล์อินพุตทั้งหมดทำ OCR และรวมระเบียบเป็นหนึ่งเอาต์พุต IMHO นี่เป็นความผิดที่ผิดฉันไม่รู้เลยว่าใครต้องการมัน ฉันกำลังมองหาแบทช์ที่แท้จริง: ไฟล์เอาต์พุตหนึ่งไฟล์สำหรับแต่ละไฟล์อินพุตการดำเนินการแบบไม่ต้องใส่ข้อมูลไม่ต้องหยุดทำอะไรเลยให้ฉันรายงานรายละเอียดในตอนท้าย ผู้แจ้งเตือนสปอยเลอร์: ฉันไม่พบสิ่งนั้น

แพ็คเกจตามลำดับตัวอักษรดังนี้ ราคาที่แสดงด้านล่างเป็นรายการ แต่มีส่วนลดมาก แสดงความคิดเห็นของฉันเกี่ยวกับความถูกต้องด้วยเม็ดเกลือ อินพุตของคุณจะไม่เหมือนกับอินพุตของฉันดังนั้นระยะของคุณจะแตกต่างกันไป

ABBYY Finereader 12 องค์กร: $ 400 คุณสมบัติชุดที่เรียกว่า "ตัวจัดการงาน" และมันอยู่ในเมนูเครื่องมือ มันจะประมวลผลไฟล์จากโฟลเดอร์รวมถึงโฟลเดอร์ย่อย มันจะสร้างไฟล์เอาต์พุตแยกต่างหากสำหรับแต่ละไฟล์อินพุต ดูเหมือนจะไม่สามารถรักษาลำดับชั้นโฟลเดอร์อินพุตได้ ไฟล์เอาต์พุตทั้งหมดไปที่โฟลเดอร์เอาต์พุตเดียวกัน ความแม่นยำมีสูงในการทดสอบของฉัน แต่ก็ยังเป็นแพ็คเกจที่ต่ำที่สุดที่ฉันเคยแสดงไว้ที่นี่

Adobe Acrobat XI: $ 300 คุณสมบัติชุดที่เรียกว่า "การรับรู้ข้อความ / ในหลายไฟล์" ซึ่งสามารถพบได้โดยคลิกที่เครื่องมือ (แถบเครื่องมือที่สามด้านขวาบนของหน้าจอหลัก) ประมวลผลโฟลเดอร์ย่อยหนึ่งเอาต์พุตสำหรับแต่ละอินพุต หยุดและทำให้พร้อมต์หากพบไฟล์ที่มีการป้องกันด้วยรหัสผ่าน ไม่เก็บแผนผังไดเร็กทอรีอินพุตตามค่าดีฟอลต์ สามารถทำได้โดยการเขียนผลลัพธ์ไปยังโฟลเดอร์เดียวกับอินพุต ความแม่นยำค่อนข้างดีในการทดสอบของฉัน

Nuance OmniPage Ultimate (aka v19): $ 500 คุณสมบัติชุดที่เรียกว่า "DocuDirect" และเป็นโปรแกรมแยกต่างหากที่มาพร้อมกับแพคเกจ มันจะประมวลผลโฟลเดอร์และโฟลเดอร์ย่อย หากคุณเลือกคุณสมบัติที่เหมาะสมมันจะรักษาแผนผังไดเรกทอรีอินพุตในพื้นที่เอาท์พุท หนึ่งเอาต์พุตสำหรับแต่ละอินพุต หยุดและต้องการรหัสผ่านสำหรับไฟล์ที่ได้รับการป้องกัน ดูเหมือนว่าจะใช้ประโยชน์จากโปรเซสเซอร์มัลติคอร์ที่ยอดเยี่ยมในการทำงานแบบขนาน ความถูกต้องเป็นที่ยอดเยี่ยม แต่ความเสถียรของโปรเซสเซอร์แบตช์นั้นต่ำ เอกสารที่คลุมเครือจะหยุดมันในแทร็คไม่ต้องกู้คืนตกรางชุดได้อย่างง่ายดาย

Nuance PowerPDF Advanced v1.1 (สืบต่อจาก OmniPage Ultimate): $ 150 คุณสมบัติ Batch เรียกว่า "Batch Converter" และสามารถเข้าถึงได้จากโปรแกรมหลักภายใต้แท็บการประมวลผลขั้นสูง มันจะประมวลผลโฟลเดอร์และโฟลเดอร์ย่อยรักษาโครงสร้างอินพุตในเอาต์พุต หนึ่งเอาต์พุตสำหรับแต่ละอินพุต จะใช้หลายแกน แต่ไม่เชิงรุก นั่นหมายความว่าฉันไม่สามารถทำให้โฮสต์หลายคอร์อิ่มตัวได้ ความถูกต้องเป็นexcllentเป็นดีหรือดีกว่า OmniPage ไฟล์เสียหรือไฟล์ฟัสซีไม่ได้ทำให้แขวน ตัวประมวลผลแบบแบตช์เขียน ( ช็อต ) ไฟล์บันทึกข้อความธรรมดาไปยังไดเร็กทอรีเอาต์พุต

ReadIris Corporate 14: $ 600 คุณสมบัติ Batch ถูกเรียกใช้โดยรายการ "Batch OCR" ซึ่งถูกเปิดเผยโดยคลิกที่ปุ่ม "จากไฟล์" บนหน้าจอหลัก มันจะประมวลผลโฟลเดอร์และโฟลเดอร์ย่อยหนึ่งเอาต์พุตสำหรับแต่ละอินพุตและโดยค่าเริ่มต้นโครงสร้างไดเรกทอรีผลลัพธ์ตรงกับโครงสร้างไดเรกทอรีอินพุต หยุดและเรียกร้องให้ผู้ใช้ป้อนไฟล์ที่ไม่ถูกต้อง กระบวนการโดยไม่ต้องร้องเรียนเพิ่มเติมเอกสารที่ได้รับความคุ้มครองทั้งหมดเห็นได้ชัดจาก OCR-ing ภาพ ความแม่นยำนั้นดีมากเมื่อเทียบกับ Acrobat

บนเครื่องเดสก์ท็อปของฉัน (เฉพาะ dual core) ด้วยอินพุตที่เลือกของฉันทุกแพ็คเกจต้องใช้เวลาอย่างน้อย 3 วินาทีในการประมวลผลหน้า บางคนใช้เวลามากกว่า อาจสามารถขับสิ่งนี้ลงบนเครื่องที่มีแกนเพิ่มเติมได้

ตรวจสอบให้แน่ใจว่าได้วางแผนสำหรับพวกเขาแล้ว: ไฟล์ PDF ที่ไม่ถูกต้อง (บางแพคเกจหยุด), PDF ที่ป้องกันด้วยรหัสผ่าน (บางแพ็กเกจจะหยุด, บางโปรแกรมจะทำการแปลงอย่างอื่น!) และเพจที่หมุน ถ้าคุณต้องการให้แบตช์วิ่งผ่านจนครบคุณจะต้องเตรียมพื้นที่อินพุตสำหรับแพ็คเกจเหล่านี้อย่างมากอย่างระมัดระวัง ดูที่คุณสมบัติการพิมพ์เป็น PDF ของแพ็คเกจ GhostScript สำหรับวิธีการลบการป้องกันออกจาก PDF

การรันแบตช์ขนาดใหญ่อาจทำให้เกิดปัญหาหน่วยความจำอ่อนเพลียและเกิดปัญหาการแขวนได้แม้ว่าจะไม่ควรทำก็ตาม หากคุณกำลังดำเนินการอัตโนมัติทุกประเภทปัญหาใหญ่คือการค้นพบว่าเกิดอะไรขึ้นจริง ๆ - เอกสารใดที่ไม่สามารถประมวลผลได้ซึ่งล้มเหลวระหว่างการประมวลผล ฯลฯ มันเหมือนกับซอฟต์แวร์เดสก์ทอปที่คนไม่เคยได้ยินชื่อ "ไฟล์บันทึก"

ในที่สุดการขอรับการสนับสนุนแม้จะเป็นลูกค้าที่จ่ายเงินก็ค่อนข้างยากสำหรับแพ็คเกจตลาดมวลชนเหล่านี้ ตัวอย่างเช่นฉันบ่นกับตัวแทนฝ่ายบริการลูกค้าที่นับถือคนหนึ่งเกี่ยวกับแพคเกจ (ซึ่งจะยังคงไม่ระบุชื่อ) แขวนสำหรับอินพุตขนาดใหญ่บางอย่าง ฉันรอ 36 ชั่วโมงก่อนที่จะยอมแพ้ :) พวกเขาแนะนำให้ จำกัด ขนาดแบตช์เป็น 300 เอกสาร นั่นเป็นสิ่งที่ฉันไม่สามารถยอมรับได้อย่างสมบูรณ์ แต่เดี๋ยวก่อนมันมีตั๋วสนับสนุนปิดแล้วใช่ไหม? และนั่นคือทั้งหมดที่สำคัญใช่มั้ย ถอนหายใจ

HTH

— chrisinmtown
แหล่งที่มา

สวัสดี Chrislott ขอขอบคุณสำหรับคำตอบโดยละเอียดของคุณ ;) ฉันชื่นชม ;) เรามากกว่า 4 ปีต่อมาและยังคงไม่มีซอฟต์แวร์ที่สมบูรณ์แบบในการทำ OCR อัตโนมัติในโฟลเดอร์และปล่อยไฟล์บันทึกที่มีข้อผิดพลาดเมื่อเสร็จสิ้น! ... บางทีฉันอาจลองติดต่อ Nuance

— Erb

ตอนนี้ฉันใช้ Acrobat รุ่นเก่าและฟรีแวร์หลายตัว มันเป็นกระบวนการที่ยาวนาน ฉันสามารถดูรายละเอียดถ้าจำเป็น! แต่งานจะทำดีที่สุดเท่าที่จะทำได้! ;)

— Erb

3

Adobe Acrobat จะดำเนินการโฟลเดอร์ของไฟล์ PDF และชอบผลิตภัณฑ์ของ Adobe ส่วนใหญ่มีการทดลองใช้ 30 วัน
ฟังก์ชั่นตั้งอยู่ในเมนู 'เอกสาร':

เอกสาร> OCR Text Regocnition> รับรู้ข้อความในหลาย ๆ ไฟล์โดยใช้ OCR

จากตำแหน่งที่คุณสามารถเพิ่มโฟลเดอร์ของคุณ

ใน Acrobat X มีฟังก์ชันดังต่อไปนี้:

เครื่องมือ> จดจำข้อความ> ในหลายไฟล์

— pelms
แหล่งที่มา

ขอบคุณ "pelms" ;) ฉันจะให้มันลองตามเวลาที่อนุญาต สิ่งที่ฉันชอบในการทดลองใช้งานfinereader.abbyy.comก่อนหน้านี้ของฉันคือการจดจำภาษาต่าง ๆ ได้หลายภาษา ;)

— Erb

1

จริงๆแล้วpdfsandwichได้รับการปรับปรุงภายในปีที่แล้วและก็ไม่ยากสำหรับฉันที่จะติดตั้งใน Linux Mint ผลลัพธ์ที่ได้นั้นด้อยกว่า Adobe Acrobat แต่เป็นโซลูชันเดียวที่ใช้งานได้ที่ฉันพบใน Linux

— ไบรอันซี
แหล่งที่มา

1

น่าสนใจมาก! ฉันไม่รู้เกี่ยวกับมัน ฉันกำลังเพิ่มลิงก์จากen.wikisource.org/wiki/…และจะทดสอบในอนาคต (มีวิธีแก้ไขปัญหาอื่น ๆ อีกมากมายจริง ๆ แต่ฉันจะไม่เริ่มต้นที่นี่!)

— Nemo

0

ลองWatchOCR เป็นชุดซอฟต์แวร์โอเพนซอร์ซที่แปลงรูปภาพที่สแกนเป็นไฟล์ PDF ที่สามารถค้นหาข้อความ มันฟรีและโอเพ่นซอร์สและมีเว็บอินเตอร์เฟสที่ดีสำหรับการดูแลระบบระยะไกล ด้วยการกำหนดค่าที่เหมาะสมจะใช้ในการสร้างบริการ pdf / ocr แบบแบตช์สำหรับเครือข่ายทั้งหมดผ่านการแชร์ smb น่าเสียดายที่มันเป็นลินุกซ์เท่านั้น แต่คุณสามารถติดตั้งบนเซิร์ฟเวอร์เก่าจากนั้นทั้งองค์กรของคุณสามารถใช้งานได้

หากคุณต้องการทำสิ่งเดียวกันออนไลน์โดยไม่ต้องติดตั้งอะไรให้ลองPDFCubed.com

— rlangner
แหล่งที่มา

หน้าแรกของ WatchOCR ถูกแบนแม้ว่าจะถูกเก็บถาวร

— Tobias Kienzler