ฉันจะแปลงรูปภาพที่สแกนเป็น PDF เป็นไฟล์ PDF ที่ค้นหาได้อย่างไร [ปิด]

19

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้

ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นหัวข้อสำหรับผู้ใช้ขั้นสูง

ปิดให้บริการใน4 ปีที่แล้ว

ฉันมี PDF ของหนังสือที่สแกน

ฉันกำลังมองหาซอฟต์แวร์ฟรีที่จะใช้งาน OCR จากนั้นให้ตัวเลือกในการบันทึกเป็น PDF หรือเอกสารอีกครั้ง

มีหรือไม่

software-rec pdf ocr

— slhck
แหล่งที่มา

คุณหมายถึงคุณต้องการแปลงภาพใน pdf เป็นข้อความหรือไม่?

— DaveParillo

ใช่ แต่ฉันไม่ต้องการให้ไฟล์ txt เป็นเอาต์พุต ผมต้องการที่จะเห็นรูปแบบไฟล์ PDF เดียวกันแน่นอน แต่มีตัวเลือกในการกด Ctrl + F และคำพูดเครื่องหมาย ฯลฯ ..

คุณจะมีเวลาที่ยากลำบากในการแปลงไฟล์ PDF นี้โดยไม่ทำให้การจัดรูปแบบและรูปแบบข้อความสูญเสียไป ฉันยังไม่พบซอฟต์แวร์ OCR ที่สามารถรักษาเอกสารอย่างถูกต้องจากภาพที่สแกน เตรียมความพร้อมสำหรับงานลา (เช่นการพิสูจน์อักษร ฯลฯ ) :)

5

คุณสามารถดาวน์โหลดAdobe Acrobat Pro รุ่นทดลองใช้ 30 วันและใช้ฟังก์ชั่น 'OCR Text Recognition' ('เอกสาร> OCR Text Recognition> จดจำข้อความโดยใช้ OCR ... ') ในช่องโต้ตอบการตั้งค่าให้เลือก 'ภาพที่ค้นหาได้' เป็นสไตล์แสดงผล สิ่งนี้จะเก็บรูปภาพของหน้า แต่ฝังข้อความ OCR'ed เพื่อให้สามารถค้นหาเอกสารและอนุญาตให้เลือกคัดลอกและวางข้อความได้

หลังจากเรียกใช้ OCR คุณจะต้องยืนยันหรือแก้ไขคำที่ OCR ไม่แน่ใจเกี่ยวกับการใช้ฟังก์ชั่น 'Find OCR Suspects'

— pelms
แหล่งที่มา

แม้ว่า Adobe จะไม่ฟรี แต่มันก็เป็นโซลูชั่น OCR ที่มีความสามารถมากที่สุด

— James Healy

4

หากคุณมีบัญชี Google ตอนนี้ Google เอกสารจะมีฟังก์ชันการทำงานเพื่ออัปโหลดไฟล์ PDF และดำเนินการกับ OCR

ฉันได้ลองด้วยตัวเองแล้วมันทำให้งานออกมาเป็นไฟล์ PDF ที่จัดรูปแบบได้ดี

การจัดรูปแบบถูกทำลายค่อนข้างมาก แต่ข้อความดูเหมือนจะอยู่รอด

— Richard Lucas
แหล่งที่มา

4

พบผลิตภัณฑ์ต่อไปนี้อยู่ในรายการบนอินเทอร์เน็ต แต่ฉันไม่ได้ใช้

OCR ออนไลน์

สถานี OCR

OCR Terminal เป็นบริการ OCR ออนไลน์ที่ดำเนินการจดจำตัวอักษรด้วยแสง (OCR) ในภาพสแกนและไฟล์ PDF ของคุณและแสดงผลเป็นเอกสารที่แก้ไขได้และค้นหาข้อความได้

ฟรี OCR

Free-OCR.com เป็นเครื่องมือ OCR ออนไลน์ฟรี (Optical Character Recognition) คุณสามารถใช้สิ่งนี้เพื่อดำเนินการ OCR กับภาพใด ๆ ที่คุณให้
บริการนี้ฟรีไม่จำเป็นต้องลงทะเบียน เราไม่ต้องการที่อยู่อีเมลของคุณ
เพียงอัปโหลดไฟล์ภาพของคุณ Free-OCR ใช้ JPG, GIF, TIFF BMP หรือ PDF ( หน้าแรกเท่านั้น ) ข้อ จำกัด เพียงอย่างเดียวคือรูปภาพต้องมีขนาดไม่เกิน 2MB ไม่กว้างหรือสูงกว่า 5,000 พิกเซลและมีการ จำกัด การอัพโหลดภาพ 10 ภาพต่อชั่วโมง

Maestro Recognition Serverเป็นบริการในเชิงพาณิชย์ แต่มีการสาธิตออนไลน์ทดลองใช้

ซอฟต์แวร์ฟรี

FreeOCR - สำหรับภาพเท่านั้น

FreeOCR เป็นโปรแกรมสแกนและ OCR รวมถึงเอ็นจิ้น OMP ฟรีของ Tesseract หรือที่รู้จักกันในชื่อ Tesseract GUI มันประกอบไปด้วยตัวติดตั้ง Windows และมันใช้งานง่ายมากและรองรับเอกสารแฟกซ์หลายหน้ารวมถึงรูปแบบภาพส่วนใหญ่รวมถึง Tiff ที่ถูกบีบอัดซึ่งเอ็นจิ้น Tesseract ของตัวเองไม่สามารถอ่านได้ตอนนี้มีการสแกน Twain

pdfsandwich - pdf -> แปลงไฟล์ pdf

pdfsandwich เป็นเครื่องมือบรรทัดคำสั่งสำหรับ OCR ที่สแกนหนังสือหรือวารสาร มันสามารถรับรู้เค้าโครงหน้าแม้สำหรับข้อความหลายคอลัมน์

โดยพื้นฐานแล้ว pdfsandwich เป็นสคริปต์ตัวห่อหุ้มซึ่งเรียกไบนารีดังต่อไปนี้: แปลง, ฟอร์ม, gs และ hocr2pdf มันเป็นที่รู้จักกันในการทำงานบนระบบ Unix และได้รับการทดสอบบน Linux และ MacOS X มันรองรับการประมวลผลแบบขนานบนระบบมัลติโปรเซสเซอร์

— harrymc
แหล่งที่มา

ฉันเพิ่งใช้ pdfsandwich มันใช้งานได้และฟรี! :) นี่จะช่วยในวิทยานิพนธ์ของฉันอย่างแน่นอนขอบคุณ!

— Eddy

ดูเหมือนว่า pdfsandwich ได้ย้ายไปแล้วใช่ไหม tobias-elze.de/pdfsandwich

— pioto

@pioto: ไม่ใช่ฉันที่เพิ่ม pdfsandwich ด้านบน แต่ฉันแก้ไขลิงก์ตามที่คุณแนะนำ

— harrymc

2

Cuneiform + hocr2pdf + Ghostscript : โซลูชัน DIY โอเพ่นซอร์ส

ฉันโพสต์คำตอบโดยสรุปโซลูชันที่เกี่ยวข้องกับรุ่นของระบบโอเพ่นซอร์สCuneiform OCR และhocr2pdfพร้อมกับGhostscriptสำหรับวางหน้า PDF ไว้ด้วยกัน

นั่นเป็นเฉพาะสำหรับ Linux แต่คุณสามารถรับ Cuneiform และ Ghostscript สำหรับ Windows ได้เช่นกัน ฉันไม่แน่ใจเกี่ยวกับ hocr2pdf หรือเทียบเท่า

— Jukka Matilainen
แหล่งที่มา

1

นี่เป็นวิธีที่แปลกมากซึ่งเกี่ยวข้องกับการให้ดัชนีของ Google และ OCR สำหรับคุณบนเว็บไซต์แล้วเรียกคืนมา

— jtbandes
แหล่งที่มา

ใช่ผมเห็นว่าเกินไป ... แปลกจริง :) ฉันอาจจบลงด้วยการทำมัน ...

0

ติดตั้งImageMagick เปิดหน้าต่าง cmd หรือเทอร์มินัล:

convert myfile.pdf myfile-%02d.jpg

ผลลัพธ์จะเป็นไฟล์ jpg 1 ไฟล์สำหรับแต่ละหน้าใน pdf, myfile-00.jpg, myfile-01.jpg ของคุณเป็นต้น

ผ่านแต่ละอิมเมจผ่านโปรแกรม ocr ฉันไม่ได้มีประสบการณ์กับสิ่งนี้มากนัก แต่ดูเหมือนจะมีตัวเลือกมากมาย

แปลงแต่ละหน้าของข้อความกลับเป็น pdf คุณสามารถทำได้อีกครั้งด้วย imagemagick แต่ก็มีวิธีอื่นเช่นกัน:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf

— DaveParillo
แหล่งที่มา

0

ดูเหมือนว่าคำขอของคุณจะเป็นวิธีการแก้ปัญหาที่ซับซ้อนแม้ว่าฉันอาจไม่เข้าใจปัญหาอย่างถูกต้องก็ตาม ในอัตราใด ๆ :

ทำไมไม่รับตัวเขียน PDF ที่จะช่วยให้คุณป้อนข้อมูลลงในหน้า pdf โดยตรง

— Xavierjazz
แหล่งที่มา

0

ลองPDFCubed.com ไม่มีอะไรให้ติดตั้งมันทำแบบออนไลน์ทั้งหมด คุณสามารถส่งเอกสารของคุณเพื่อดำเนินการผ่านทางเว็บอีเมลหรือดรอปบ็อกซ์ PDF และ TIF ที่สแกนแล้วจะถูกแปลงเป็นไฟล์ข้อความ PDF ที่สามารถค้นหาได้จากนั้นสามารถเรียกดูผ่านเว็บอีเมลหรือดรอปบ็อกซ์

— rlangner
แหล่งที่มา