ฉันจะแปลงรูปภาพที่สแกนเป็น PDF เป็นไฟล์ PDF ที่ค้นหาได้อย่างไร [ปิด]


19

ฉันมี PDF ของหนังสือที่สแกน

ฉันกำลังมองหาซอฟต์แวร์ฟรีที่จะใช้งาน OCR จากนั้นให้ตัวเลือกในการบันทึกเป็น PDF หรือเอกสารอีกครั้ง

มีหรือไม่


คุณหมายถึงคุณต้องการแปลงภาพใน pdf เป็นข้อความหรือไม่?
DaveParillo

ใช่ แต่ฉันไม่ต้องการให้ไฟล์ txt เป็นเอาต์พุต ผมต้องการที่จะเห็นรูปแบบไฟล์ PDF เดียวกันแน่นอน แต่มีตัวเลือกในการกด Ctrl + F และคำพูดเครื่องหมาย ฯลฯ ..

คุณจะมีเวลาที่ยากลำบากในการแปลงไฟล์ PDF นี้โดยไม่ทำให้การจัดรูปแบบและรูปแบบข้อความสูญเสียไป ฉันยังไม่พบซอฟต์แวร์ OCR ที่สามารถรักษาเอกสารอย่างถูกต้องจากภาพที่สแกน เตรียมความพร้อมสำหรับงานลา (เช่นการพิสูจน์อักษร ฯลฯ ) :)

คำตอบ:


5

คุณสามารถดาวน์โหลดAdobe Acrobat Pro รุ่นทดลองใช้ 30 วันและใช้ฟังก์ชั่น 'OCR Text Recognition' ('เอกสาร> OCR Text Recognition> จดจำข้อความโดยใช้ OCR ... ') ในช่องโต้ตอบการตั้งค่าให้เลือก 'ภาพที่ค้นหาได้' เป็นสไตล์แสดงผล สิ่งนี้จะเก็บรูปภาพของหน้า แต่ฝังข้อความ OCR'ed เพื่อให้สามารถค้นหาเอกสารและอนุญาตให้เลือกคัดลอกและวางข้อความได้

หลังจากเรียกใช้ OCR คุณจะต้องยืนยันหรือแก้ไขคำที่ OCR ไม่แน่ใจเกี่ยวกับการใช้ฟังก์ชั่น 'Find OCR Suspects'


แม้ว่า Adobe จะไม่ฟรี แต่มันก็เป็นโซลูชั่น OCR ที่มีความสามารถมากที่สุด
James Healy

4

หากคุณมีบัญชี Google ตอนนี้ Google เอกสารจะมีฟังก์ชันการทำงานเพื่ออัปโหลดไฟล์ PDF และดำเนินการกับ OCR

ฉันได้ลองด้วยตัวเองแล้วมันทำให้งานออกมาเป็นไฟล์ PDF ที่จัดรูปแบบได้ดี

การจัดรูปแบบถูกทำลายค่อนข้างมาก แต่ข้อความดูเหมือนจะอยู่รอด


4

พบผลิตภัณฑ์ต่อไปนี้อยู่ในรายการบนอินเทอร์เน็ต แต่ฉันไม่ได้ใช้

OCR ออนไลน์

สถานี OCR

OCR Terminal เป็นบริการ OCR ออนไลน์ที่ดำเนินการจดจำตัวอักษรด้วยแสง (OCR) ในภาพสแกนและไฟล์ PDF ของคุณและแสดงผลเป็นเอกสารที่แก้ไขได้และค้นหาข้อความได้

ฟรี OCR

Free-OCR.com เป็นเครื่องมือ OCR ออนไลน์ฟรี (Optical Character Recognition) คุณสามารถใช้สิ่งนี้เพื่อดำเนินการ OCR กับภาพใด ๆ ที่คุณให้
บริการนี้ฟรีไม่จำเป็นต้องลงทะเบียน เราไม่ต้องการที่อยู่อีเมลของคุณ
เพียงอัปโหลดไฟล์ภาพของคุณ Free-OCR ใช้ JPG, GIF, TIFF BMP หรือ PDF ( หน้าแรกเท่านั้น ) ข้อ จำกัด เพียงอย่างเดียวคือรูปภาพต้องมีขนาดไม่เกิน 2MB ไม่กว้างหรือสูงกว่า 5,000 พิกเซลและมีการ จำกัด การอัพโหลดภาพ 10 ภาพต่อชั่วโมง

Maestro Recognition Serverเป็นบริการในเชิงพาณิชย์ แต่มีการสาธิตออนไลน์ทดลองใช้

ซอฟต์แวร์ฟรี

FreeOCR - สำหรับภาพเท่านั้น

FreeOCR เป็นโปรแกรมสแกนและ OCR รวมถึงเอ็นจิ้น OMP ฟรีของ Tesseract หรือที่รู้จักกันในชื่อ Tesseract GUI มันประกอบไปด้วยตัวติดตั้ง Windows และมันใช้งานง่ายมากและรองรับเอกสารแฟกซ์หลายหน้ารวมถึงรูปแบบภาพส่วนใหญ่รวมถึง Tiff ที่ถูกบีบอัดซึ่งเอ็นจิ้น Tesseract ของตัวเองไม่สามารถอ่านได้ตอนนี้มีการสแกน Twain

pdfsandwich - pdf -> แปลงไฟล์ pdf

pdfsandwich เป็นเครื่องมือบรรทัดคำสั่งสำหรับ OCR ที่สแกนหนังสือหรือวารสาร มันสามารถรับรู้เค้าโครงหน้าแม้สำหรับข้อความหลายคอลัมน์

โดยพื้นฐานแล้ว pdfsandwich เป็นสคริปต์ตัวห่อหุ้มซึ่งเรียกไบนารีดังต่อไปนี้: แปลง, ฟอร์ม, gs และ hocr2pdf มันเป็นที่รู้จักกันในการทำงานบนระบบ Unix และได้รับการทดสอบบน Linux และ MacOS X มันรองรับการประมวลผลแบบขนานบนระบบมัลติโปรเซสเซอร์


ฉันเพิ่งใช้ pdfsandwich มันใช้งานได้และฟรี! :) นี่จะช่วยในวิทยานิพนธ์ของฉันอย่างแน่นอนขอบคุณ!
Eddy

ดูเหมือนว่า pdfsandwich ได้ย้ายไปแล้วใช่ไหม tobias-elze.de/pdfsandwich
pioto

@pioto: ไม่ใช่ฉันที่เพิ่ม pdfsandwich ด้านบน แต่ฉันแก้ไขลิงก์ตามที่คุณแนะนำ
harrymc

2

Cuneiform + hocr2pdf + Ghostscript : โซลูชัน DIY โอเพ่นซอร์ส

ฉันโพสต์คำตอบโดยสรุปโซลูชันที่เกี่ยวข้องกับรุ่นของระบบโอเพ่นซอร์สCuneiform OCR และhocr2pdfพร้อมกับGhostscriptสำหรับวางหน้า PDF ไว้ด้วยกัน

นั่นเป็นเฉพาะสำหรับ Linux แต่คุณสามารถรับ Cuneiform และ Ghostscript สำหรับ Windows ได้เช่นกัน ฉันไม่แน่ใจเกี่ยวกับ hocr2pdf หรือเทียบเท่า


1

นี่เป็นวิธีที่แปลกมากซึ่งเกี่ยวข้องกับการให้ดัชนีของ Google และ OCR สำหรับคุณบนเว็บไซต์แล้วเรียกคืนมา


ใช่ผมเห็นว่าเกินไป ... แปลกจริง :) ฉันอาจจบลงด้วยการทำมัน ...

0

ติดตั้งImageMagick เปิดหน้าต่าง cmd หรือเทอร์มินัล:

convert myfile.pdf myfile-%02d.jpg

ผลลัพธ์จะเป็นไฟล์ jpg 1 ไฟล์สำหรับแต่ละหน้าใน pdf, myfile-00.jpg, myfile-01.jpg ของคุณเป็นต้น

ผ่านแต่ละอิมเมจผ่านโปรแกรม ocr ฉันไม่ได้มีประสบการณ์กับสิ่งนี้มากนัก แต่ดูเหมือนจะมีตัวเลือกมากมาย

แปลงแต่ละหน้าของข้อความกลับเป็น pdf คุณสามารถทำได้อีกครั้งด้วย imagemagick แต่ก็มีวิธีอื่นเช่นกัน:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf

0

ดูเหมือนว่าคำขอของคุณจะเป็นวิธีการแก้ปัญหาที่ซับซ้อนแม้ว่าฉันอาจไม่เข้าใจปัญหาอย่างถูกต้องก็ตาม ในอัตราใด ๆ :

ทำไมไม่รับตัวเขียน PDF ที่จะช่วยให้คุณป้อนข้อมูลลงในหน้า pdf โดยตรง


0

ลองPDFCubed.com ไม่มีอะไรให้ติดตั้งมันทำแบบออนไลน์ทั้งหมด คุณสามารถส่งเอกสารของคุณเพื่อดำเนินการผ่านทางเว็บอีเมลหรือดรอปบ็อกซ์ PDF และ TIF ที่สแกนแล้วจะถูกแปลงเป็นไฟล์ข้อความ PDF ที่สามารถค้นหาได้จากนั้นสามารถเรียกดูผ่านเว็บอีเมลหรือดรอปบ็อกซ์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.