TL; DR? เริ่มต้นด้วย Nuance PowerPDF ขั้นสูง
ฉันประเมินซอฟต์แวร์ OCR ในเดือนธันวาคม 2014 เพื่อเตรียมการสำหรับโครงการใหญ่ - OCR ในหน้าภาษาอังกฤษหลายล้านหน้าในชุดงาน หากคุณยินดีจ่ายไม่กี่ร้อยดอลลาร์คุณมีตัวเลือกมากมาย รุ่นทดลองสามารถให้คุณผ่านหากคุณต้องการแปลงสองสามร้อยหน้า
แพ็คเกจซอฟต์แวร์จำนวนมากต้องการโหลดไฟล์อินพุตทั้งหมดทำ OCR และรวมระเบียบเป็นหนึ่งเอาต์พุต IMHO นี่เป็นความผิดที่ผิดฉันไม่รู้เลยว่าใครต้องการมัน ฉันกำลังมองหาแบทช์ที่แท้จริง: ไฟล์เอาต์พุตหนึ่งไฟล์สำหรับแต่ละไฟล์อินพุตการดำเนินการแบบไม่ต้องใส่ข้อมูลไม่ต้องหยุดทำอะไรเลยให้ฉันรายงานรายละเอียดในตอนท้าย ผู้แจ้งเตือนสปอยเลอร์: ฉันไม่พบสิ่งนั้น
แพ็คเกจตามลำดับตัวอักษรดังนี้ ราคาที่แสดงด้านล่างเป็นรายการ แต่มีส่วนลดมาก แสดงความคิดเห็นของฉันเกี่ยวกับความถูกต้องด้วยเม็ดเกลือ อินพุตของคุณจะไม่เหมือนกับอินพุตของฉันดังนั้นระยะของคุณจะแตกต่างกันไป
ABBYY Finereader 12 องค์กร: $ 400 คุณสมบัติชุดที่เรียกว่า "ตัวจัดการงาน" และมันอยู่ในเมนูเครื่องมือ มันจะประมวลผลไฟล์จากโฟลเดอร์รวมถึงโฟลเดอร์ย่อย มันจะสร้างไฟล์เอาต์พุตแยกต่างหากสำหรับแต่ละไฟล์อินพุต ดูเหมือนจะไม่สามารถรักษาลำดับชั้นโฟลเดอร์อินพุตได้ ไฟล์เอาต์พุตทั้งหมดไปที่โฟลเดอร์เอาต์พุตเดียวกัน ความแม่นยำมีสูงในการทดสอบของฉัน แต่ก็ยังเป็นแพ็คเกจที่ต่ำที่สุดที่ฉันเคยแสดงไว้ที่นี่
Adobe Acrobat XI: $ 300 คุณสมบัติชุดที่เรียกว่า "การรับรู้ข้อความ / ในหลายไฟล์" ซึ่งสามารถพบได้โดยคลิกที่เครื่องมือ (แถบเครื่องมือที่สามด้านขวาบนของหน้าจอหลัก) ประมวลผลโฟลเดอร์ย่อยหนึ่งเอาต์พุตสำหรับแต่ละอินพุต หยุดและทำให้พร้อมต์หากพบไฟล์ที่มีการป้องกันด้วยรหัสผ่าน ไม่เก็บแผนผังไดเร็กทอรีอินพุตตามค่าดีฟอลต์ สามารถทำได้โดยการเขียนผลลัพธ์ไปยังโฟลเดอร์เดียวกับอินพุต ความแม่นยำค่อนข้างดีในการทดสอบของฉัน
Nuance OmniPage Ultimate (aka v19): $ 500 คุณสมบัติชุดที่เรียกว่า "DocuDirect" และเป็นโปรแกรมแยกต่างหากที่มาพร้อมกับแพคเกจ มันจะประมวลผลโฟลเดอร์และโฟลเดอร์ย่อย หากคุณเลือกคุณสมบัติที่เหมาะสมมันจะรักษาแผนผังไดเรกทอรีอินพุตในพื้นที่เอาท์พุท หนึ่งเอาต์พุตสำหรับแต่ละอินพุต หยุดและต้องการรหัสผ่านสำหรับไฟล์ที่ได้รับการป้องกัน ดูเหมือนว่าจะใช้ประโยชน์จากโปรเซสเซอร์มัลติคอร์ที่ยอดเยี่ยมในการทำงานแบบขนาน ความถูกต้องเป็นที่ยอดเยี่ยม แต่ความเสถียรของโปรเซสเซอร์แบตช์นั้นต่ำ เอกสารที่คลุมเครือจะหยุดมันในแทร็คไม่ต้องกู้คืนตกรางชุดได้อย่างง่ายดาย
Nuance PowerPDF Advanced v1.1 (สืบต่อจาก OmniPage Ultimate): $ 150 คุณสมบัติ Batch เรียกว่า "Batch Converter" และสามารถเข้าถึงได้จากโปรแกรมหลักภายใต้แท็บการประมวลผลขั้นสูง มันจะประมวลผลโฟลเดอร์และโฟลเดอร์ย่อยรักษาโครงสร้างอินพุตในเอาต์พุต หนึ่งเอาต์พุตสำหรับแต่ละอินพุต จะใช้หลายแกน แต่ไม่เชิงรุก นั่นหมายความว่าฉันไม่สามารถทำให้โฮสต์หลายคอร์อิ่มตัวได้ ความถูกต้องเป็นexcllentเป็นดีหรือดีกว่า OmniPage ไฟล์เสียหรือไฟล์ฟัสซีไม่ได้ทำให้แขวน ตัวประมวลผลแบบแบตช์เขียน ( ช็อต ) ไฟล์บันทึกข้อความธรรมดาไปยังไดเร็กทอรีเอาต์พุต
ReadIris Corporate 14: $ 600 คุณสมบัติ Batch ถูกเรียกใช้โดยรายการ "Batch OCR" ซึ่งถูกเปิดเผยโดยคลิกที่ปุ่ม "จากไฟล์" บนหน้าจอหลัก มันจะประมวลผลโฟลเดอร์และโฟลเดอร์ย่อยหนึ่งเอาต์พุตสำหรับแต่ละอินพุตและโดยค่าเริ่มต้นโครงสร้างไดเรกทอรีผลลัพธ์ตรงกับโครงสร้างไดเรกทอรีอินพุต หยุดและเรียกร้องให้ผู้ใช้ป้อนไฟล์ที่ไม่ถูกต้อง กระบวนการโดยไม่ต้องร้องเรียนเพิ่มเติมเอกสารที่ได้รับความคุ้มครองทั้งหมดเห็นได้ชัดจาก OCR-ing ภาพ ความแม่นยำนั้นดีมากเมื่อเทียบกับ Acrobat
บนเครื่องเดสก์ท็อปของฉัน (เฉพาะ dual core) ด้วยอินพุตที่เลือกของฉันทุกแพ็คเกจต้องใช้เวลาอย่างน้อย 3 วินาทีในการประมวลผลหน้า บางคนใช้เวลามากกว่า อาจสามารถขับสิ่งนี้ลงบนเครื่องที่มีแกนเพิ่มเติมได้
ตรวจสอบให้แน่ใจว่าได้วางแผนสำหรับพวกเขาแล้ว: ไฟล์ PDF ที่ไม่ถูกต้อง (บางแพคเกจหยุด), PDF ที่ป้องกันด้วยรหัสผ่าน (บางแพ็กเกจจะหยุด, บางโปรแกรมจะทำการแปลงอย่างอื่น!) และเพจที่หมุน ถ้าคุณต้องการให้แบตช์วิ่งผ่านจนครบคุณจะต้องเตรียมพื้นที่อินพุตสำหรับแพ็คเกจเหล่านี้อย่างมากอย่างระมัดระวัง ดูที่คุณสมบัติการพิมพ์เป็น PDF ของแพ็คเกจ GhostScript สำหรับวิธีการลบการป้องกันออกจาก PDF
การรันแบตช์ขนาดใหญ่อาจทำให้เกิดปัญหาหน่วยความจำอ่อนเพลียและเกิดปัญหาการแขวนได้แม้ว่าจะไม่ควรทำก็ตาม หากคุณกำลังดำเนินการอัตโนมัติทุกประเภทปัญหาใหญ่คือการค้นพบว่าเกิดอะไรขึ้นจริง ๆ - เอกสารใดที่ไม่สามารถประมวลผลได้ซึ่งล้มเหลวระหว่างการประมวลผล ฯลฯ มันเหมือนกับซอฟต์แวร์เดสก์ทอปที่คนไม่เคยได้ยินชื่อ "ไฟล์บันทึก"
ในที่สุดการขอรับการสนับสนุนแม้จะเป็นลูกค้าที่จ่ายเงินก็ค่อนข้างยากสำหรับแพ็คเกจตลาดมวลชนเหล่านี้ ตัวอย่างเช่นฉันบ่นกับตัวแทนฝ่ายบริการลูกค้าที่นับถือคนหนึ่งเกี่ยวกับแพคเกจ (ซึ่งจะยังคงไม่ระบุชื่อ) แขวนสำหรับอินพุตขนาดใหญ่บางอย่าง ฉันรอ 36 ชั่วโมงก่อนที่จะยอมแพ้ :) พวกเขาแนะนำให้ จำกัด ขนาดแบตช์เป็น 300 เอกสาร นั่นเป็นสิ่งที่ฉันไม่สามารถยอมรับได้อย่างสมบูรณ์ แต่เดี๋ยวก่อนมันมีตั๋วสนับสนุนปิดแล้วใช่ไหม? และนั่นคือทั้งหมดที่สำคัญใช่มั้ย ถอนหายใจ
HTH