ฉันมี PDF ของหนังสือที่สแกน
ฉันกำลังมองหาซอฟต์แวร์ฟรีที่จะใช้งาน OCR จากนั้นให้ตัวเลือกในการบันทึกเป็น PDF หรือเอกสารอีกครั้ง
มีหรือไม่
ฉันมี PDF ของหนังสือที่สแกน
ฉันกำลังมองหาซอฟต์แวร์ฟรีที่จะใช้งาน OCR จากนั้นให้ตัวเลือกในการบันทึกเป็น PDF หรือเอกสารอีกครั้ง
มีหรือไม่
คำตอบ:
คุณสามารถดาวน์โหลดAdobe Acrobat Pro รุ่นทดลองใช้ 30 วันและใช้ฟังก์ชั่น 'OCR Text Recognition' ('เอกสาร> OCR Text Recognition> จดจำข้อความโดยใช้ OCR ... ') ในช่องโต้ตอบการตั้งค่าให้เลือก 'ภาพที่ค้นหาได้' เป็นสไตล์แสดงผล สิ่งนี้จะเก็บรูปภาพของหน้า แต่ฝังข้อความ OCR'ed เพื่อให้สามารถค้นหาเอกสารและอนุญาตให้เลือกคัดลอกและวางข้อความได้
หลังจากเรียกใช้ OCR คุณจะต้องยืนยันหรือแก้ไขคำที่ OCR ไม่แน่ใจเกี่ยวกับการใช้ฟังก์ชั่น 'Find OCR Suspects'
หากคุณมีบัญชี Google ตอนนี้ Google เอกสารจะมีฟังก์ชันการทำงานเพื่ออัปโหลดไฟล์ PDF และดำเนินการกับ OCR
ฉันได้ลองด้วยตัวเองแล้วมันทำให้งานออกมาเป็นไฟล์ PDF ที่จัดรูปแบบได้ดี
การจัดรูปแบบถูกทำลายค่อนข้างมาก แต่ข้อความดูเหมือนจะอยู่รอด
พบผลิตภัณฑ์ต่อไปนี้อยู่ในรายการบนอินเทอร์เน็ต แต่ฉันไม่ได้ใช้
OCR ออนไลน์
OCR Terminal เป็นบริการ OCR ออนไลน์ที่ดำเนินการจดจำตัวอักษรด้วยแสง (OCR) ในภาพสแกนและไฟล์ PDF ของคุณและแสดงผลเป็นเอกสารที่แก้ไขได้และค้นหาข้อความได้
Free-OCR.com เป็นเครื่องมือ OCR ออนไลน์ฟรี (Optical Character Recognition) คุณสามารถใช้สิ่งนี้เพื่อดำเนินการ OCR กับภาพใด ๆ ที่คุณให้
บริการนี้ฟรีไม่จำเป็นต้องลงทะเบียน เราไม่ต้องการที่อยู่อีเมลของคุณ
เพียงอัปโหลดไฟล์ภาพของคุณ Free-OCR ใช้ JPG, GIF, TIFF BMP หรือ PDF ( หน้าแรกเท่านั้น ) ข้อ จำกัด เพียงอย่างเดียวคือรูปภาพต้องมีขนาดไม่เกิน 2MB ไม่กว้างหรือสูงกว่า 5,000 พิกเซลและมีการ จำกัด การอัพโหลดภาพ 10 ภาพต่อชั่วโมง
Maestro Recognition Serverเป็นบริการในเชิงพาณิชย์ แต่มีการสาธิตออนไลน์ทดลองใช้
ซอฟต์แวร์ฟรี
FreeOCR - สำหรับภาพเท่านั้น
FreeOCR เป็นโปรแกรมสแกนและ OCR รวมถึงเอ็นจิ้น OMP ฟรีของ Tesseract หรือที่รู้จักกันในชื่อ Tesseract GUI มันประกอบไปด้วยตัวติดตั้ง Windows และมันใช้งานง่ายมากและรองรับเอกสารแฟกซ์หลายหน้ารวมถึงรูปแบบภาพส่วนใหญ่รวมถึง Tiff ที่ถูกบีบอัดซึ่งเอ็นจิ้น Tesseract ของตัวเองไม่สามารถอ่านได้ตอนนี้มีการสแกน Twain
pdfsandwich - pdf -> แปลงไฟล์ pdf
pdfsandwich เป็นเครื่องมือบรรทัดคำสั่งสำหรับ OCR ที่สแกนหนังสือหรือวารสาร มันสามารถรับรู้เค้าโครงหน้าแม้สำหรับข้อความหลายคอลัมน์
โดยพื้นฐานแล้ว pdfsandwich เป็นสคริปต์ตัวห่อหุ้มซึ่งเรียกไบนารีดังต่อไปนี้: แปลง, ฟอร์ม, gs และ hocr2pdf มันเป็นที่รู้จักกันในการทำงานบนระบบ Unix และได้รับการทดสอบบน Linux และ MacOS X มันรองรับการประมวลผลแบบขนานบนระบบมัลติโปรเซสเซอร์
Cuneiform + hocr2pdf + Ghostscript : โซลูชัน DIY โอเพ่นซอร์ส
ฉันโพสต์คำตอบโดยสรุปโซลูชันที่เกี่ยวข้องกับรุ่นของระบบโอเพ่นซอร์สCuneiform OCR และhocr2pdfพร้อมกับGhostscriptสำหรับวางหน้า PDF ไว้ด้วยกัน
นั่นเป็นเฉพาะสำหรับ Linux แต่คุณสามารถรับ Cuneiform และ Ghostscript สำหรับ Windows ได้เช่นกัน ฉันไม่แน่ใจเกี่ยวกับ hocr2pdf หรือเทียบเท่า
นี่เป็นวิธีที่แปลกมากซึ่งเกี่ยวข้องกับการให้ดัชนีของ Google และ OCR สำหรับคุณบนเว็บไซต์แล้วเรียกคืนมา
ติดตั้งImageMagick เปิดหน้าต่าง cmd หรือเทอร์มินัล:
convert myfile.pdf myfile-%02d.jpg
ผลลัพธ์จะเป็นไฟล์ jpg 1 ไฟล์สำหรับแต่ละหน้าใน pdf, myfile-00.jpg, myfile-01.jpg ของคุณเป็นต้น
ผ่านแต่ละอิมเมจผ่านโปรแกรม ocr ฉันไม่ได้มีประสบการณ์กับสิ่งนี้มากนัก แต่ดูเหมือนจะมีตัวเลือกมากมาย
แปลงแต่ละหน้าของข้อความกลับเป็น pdf คุณสามารถทำได้อีกครั้งด้วย imagemagick แต่ก็มีวิธีอื่นเช่นกัน:
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
ดูเหมือนว่าคำขอของคุณจะเป็นวิธีการแก้ปัญหาที่ซับซ้อนแม้ว่าฉันอาจไม่เข้าใจปัญหาอย่างถูกต้องก็ตาม ในอัตราใด ๆ :
ทำไมไม่รับตัวเขียน PDF ที่จะช่วยให้คุณป้อนข้อมูลลงในหน้า pdf โดยตรง
ลองPDFCubed.com ไม่มีอะไรให้ติดตั้งมันทำแบบออนไลน์ทั้งหมด คุณสามารถส่งเอกสารของคุณเพื่อดำเนินการผ่านทางเว็บอีเมลหรือดรอปบ็อกซ์ PDF และ TIF ที่สแกนแล้วจะถูกแปลงเป็นไฟล์ข้อความ PDF ที่สามารถค้นหาได้จากนั้นสามารถเรียกดูผ่านเว็บอีเมลหรือดรอปบ็อกซ์