ทำให้ PDF searchable (OCR) ที่มีอยู่ผ่านทางบรรทัดคำสั่ง / สคริปต์


21

ฉันกำลังมองหาเครื่องมือที่สามารถสคริปต์แบบออฟไลน์ซึ่งทำให้สามารถค้นหาไฟล์ PDF ที่มีอยู่ได้โดยการเรียกใช้ OCR แทนไฟล์ที่ไม่สามารถค้นหาได้ดั้งเดิมด้วยเวอร์ชันที่ค้นหาได้และสามารถเรียกใช้แบบไม่ต้องใส่ข้อมูลได้

เช่น www.pdfscannerapp.com - ทำสิ่งที่ฉันต้องการ แต่เป็น GUI เท่านั้น - ไม่สามารถใช้สคริปต์ได้

ฉันทราบว่า Evernote ทำให้สามารถค้นหาไฟล์ PDF ได้ แต่พวกเขายังคงสามารถค้นหาได้เฉพาะเมื่ออยู่ใน Evernote

ฉันไม่ได้กำลังมองหา OCR ที่สมบูรณ์แบบแม้แต่ OCR ที่ยอมรับได้ในระดับปานกลางก็ใช้ได้ แต่ฉันต้องการยูทิลิตี้ขนาดเล็กมากกว่าแพ็คเกจซอฟต์แวร์ขนาดใหญ่

(ฉันตระหนักถึงคำถามที่คล้ายกัน แต่แตกต่างกันในโฆษณา: กำลังมองหาซอฟต์แวร์เพื่อสแกนหรือแปลงเป็น PDF ที่ค้นหาได้และสามารถลงนามได้ - แต่ฉันไม่จำเป็นต้องลงชื่อหรือเติม PDF และความต้องการของฉันคือโซลูชันนั้นเป็นสคริปต์)

แก้ไข:

1) ยูทิลิตี้ต่าง ๆ อนุญาตให้แยกข้อความที่มีโครงสร้างอย่างไรก็ตามเพื่อที่จะแยกข้อความจะต้องมี; ฉันส่วนใหญ่หมายถึง PDF ที่ห่อบิตแมปเป็นกรณีที่มี PDF ธรรมดาที่สร้างขึ้นโดยสแกนเนอร์

2) ฉันไม่จำเป็นต้องมองหาวิธีแก้ปัญหาฟรีและฉันยินดีที่จะจ่ายค่าสาธารณูปโภคที่ดีตามที่ฉันต้องการ แต่ฉันไม่ได้มองหาแอปพลิเคชันขนาดใหญ่ที่มีคุณสมบัตินับล้านที่มีคุณสมบัติ OCR แต่ ค่าใช้จ่ายไม่ได้คุ้มค่าที่จะซื้อพวกเขาเพียงแค่สำหรับฟังก์ชั่น OCR

3) ตามที่ระบุไว้ข้างต้นฉันไม่ได้กำลังมองหา OCR ที่สมบูรณ์แบบเพียง OCR ที่ยอมรับได้ในระดับปานกลาง น่าเสียดายที่จากประสบการณ์ของฉัน tesseract ต่ำกว่าเกณฑ์ดังกล่าวจริงๆ ฉันกำหนด "OCR ที่ยอมรับได้ในระดับปานกลาง" OCR ที่สามารถกล่าวได้ว่า OCR เป็นค่าสาธารณูปโภคเพื่อให้มีการรับรู้อย่างน้อยหมายเลขบัญชี (หมายเลขลูกค้า) ได้อย่างถูกต้อง

แก้ไข: "scriptable" หรือ "automatable" นั่นคือสามารถเรียกใช้โดยอัตโนมัติและทำงานแบบอัตโนมัติโดยไม่ต้องใส่ข้อมูลใด ๆ ของมนุษย์


2
... ไม่ทราบว่ามันยากที่จะทำ แต่ Tesseract OCR มักจะกล่าวถึงcode.google.com/p/tesseract-ocrและ OCR ในUnix.SE
hhh

1
มีคำถามที่คล้ายกันที่นี่คำตอบไม่ตรงกับความต้องการของคุณ?
nohillside

1
คุณพูดถึง OCR ข้อกำหนดของคุณรวมถึงการจัดการภาพภายใน PDF หรือไฟล์ PDF ที่สแกนหรือไม่ สำหรับไฟล์ที่มีข้อความอยู่ข้างในเป็นแบบโพสต์อย่างง่ายตัวแปลง PDF เป็นข้อความเช่น "PDF2Text Pilot" อาจใช้ได้สำหรับคุณ
ทิม B

@patrix ฉันกำลังมองหายูทิลิตี้ขนาดเล็กไม่จำเป็นต้องฟรี แต่อยู่ในช่วงราคาที่แตกต่างกัน ถึงกระนั้นก็เป็นทางออกที่เป็นไปได้ขอบคุณ
magma

@ TimothyButler โชคไม่ดีที่ฉันต้องจัดการกับ PDF ที่สแกน (ภาพ) แต่คำใบ้ดีขอบคุณ
magma

คำตอบ:


5

ยังไม่ชัดเจนสำหรับฉันว่าความต้องการของคุณสำหรับ "สคริปต์" นี้จาก "บรรทัดคำสั่ง" คืออะไร

หากคุณกำลังพูดถึงระบบอัตโนมัติแสดงว่าเป็นไปได้ด้วยระบบสาธารณูปโภคจำนวนเท่าใดก็ได้

ABBYY FineReader Express + Keyboard Maestro + Hazel

ฉันใช้ ABBYY FineReader Express + Keyboard Maestro + Hazel อย่างนั้น:

  1. Hazel ตรวจสอบโฟลเดอร์ที่ระบุสำหรับ PDF ใหม่ ๆ

  2. หากพบ PDF จะเปิดใน "ABBYY FineReader Express"

  3. แป้นพิมพ์ Maestro จะทำการเปลี่ยน PDF ให้กลายเป็น Searchable PDF (OCR) โดยอัตโนมัติและบันทึกไฟล์ไปยังไดเรกทอรีอื่น

ตอนนี้ถ้าคุณไม่ได้เป็นเจ้าของ Hazel และ Keyboard Maestro แล้วค่าใช้จ่ายเริ่มต้นของคุณจะเพิ่มขึ้นอย่างรวดเร็ว (แม้ว่าฉันจะต้องพึ่งพาทั้งสองอย่างมาก

การกระทำของโฟลเดอร์ PDFPen + AppleScript +

คุณสามารถทำสิ่งที่คล้ายกับ PDFPen (หรือ PDFPenPro) และการกระทำของโฟลเดอร์และ AppleScript ดูhttps://gist.github.com/prenagha/1355037สำหรับตัวอย่างหนึ่ง

Marco Arment ทำการสำรวจแอพ OCR สำหรับ Macและพบว่า PDFPen มีผลลัพธ์ที่ยอดเยี่ยมและง่ายต่อการทำงานอัตโนมัติ

การค้นหา google สำหรับ "PDFpen applescript OCR" จะมีทางเลือกจำนวนมากขึ้น


คำตอบที่ดี TJ สีน้ำตาลแดงเป็นที่น่าอัศจรรย์ฉันเป็นเจ้าของและฉันสนุกกับการใช้มันอย่างมาก ปัจจุบันฉันไม่ได้เป็นเจ้าของแอ๊บบี้ / แป้นพิมพ์มาสโทร แต่ Hazel + PDFPen เป็นคอมโบที่น่าทึ่ง โดยรวมในขณะที่คำตอบทั้งหมดที่นี่โดยทั่วไปดีมากและให้บริการผู้ชมที่แตกต่างกันเล็กน้อยฉันคิดว่า Hazel + PDFPen เหมาะสำหรับปัญหาดั้งเดิม ได้รับการยอมรับ
magma

+1 บน ABBYYFineReader Express ซึ่งเป็น OCR ที่ดีที่สุดในตอนนี้และตอนนี้ฉันก็ผ่านมาเกือบหนึ่งโหลสำหรับโปรเจคของฉันเอง
TechZen

12

สิ่งที่คุณต้องการคือ Tesseract OCR มันเป็นโอเพ่นซอร์ส OCR ที่ดูแลโดย Google และสนับสนุนแพลตฟอร์มที่หลากหลาย นอกจากนี้ยังมีอินเตอร์เฟสบรรทัดคำสั่งดั้งเดิม มันเป็นสิ่งที่คุณกำลังมองหาและพร้อมใช้งานจากพอร์ต Mac โครงการเช่นเดียวกับhomebrew

โครงการบ้าน: https://github.com/tesseract-ocr

วิธีติดตั้งบน OS X: http://blog.matt-swain.com/post/26419042500/installing-tesseract-ocr-on-mac-os-x-lion

ตัวอย่างการใช้งาน: tesseract -l eng input.pdf output


โครงการที่ดี ในการทดสอบของฉันการรับรู้ไม่ดี แต่ฉันแน่ใจว่าขึ้นอยู่กับความไม่สามารถปรับแต่งได้ ฉันกำลังมองหาทางออกที่ดีกว่า แต่นี่อาจเป็นตัวเลือกที่ดีโดยเฉพาะถ้าคุณต้องการการควบคุมที่มากขึ้นและสามารถอุทิศเวลาให้กับมันได้
magma

tesseract ไม่ได้ดีมากเมื่อเทียบกับแอพที่เป็นกรรมสิทธิ์เพิ่มเติม โดยเฉพาะอย่างยิ่งมันมีปัญหาเกี่ยวกับการเข้ารหัสและคณิตศาสตร์มักจะทำให้ตัวอักษรกรีกจำนวนมากปั่นป่วน
TechZen

เวอร์ชั่น OS X อนุญาตอินพุต PDF หรือไม่ รุ่นของ windows ไม่ได้
ดั๊ก

8

คำเตือน: ไม่ใช่วิธีแก้ไขปัญหา OCR (แต่คำตอบนี้ยังมีประโยชน์ในการแยกข้อความจาก pdf)

มีโครงการ Apache Software Foundation ชื่อApache Tika :

ชุดเครื่องมือตรวจจับและแยกข้อมูลเมตาและเนื้อหาข้อความที่มีโครงสร้างจากเอกสารต่างๆโดยใช้ไลบรารีตัวแยกวิเคราะห์ที่มีอยู่

พวกเขาสนับสนุนการแยกข้อความ PDF โดยใช้PDFBox :

อนุญาตให้สร้างเอกสาร PDF ใหม่การจัดการเอกสารที่มีอยู่และความสามารถในการแยกเนื้อหาจากเอกสาร Apache PDFBox ยังรวมถึงโปรแกรมอรรถประโยชน์บรรทัดคำสั่งต่าง ๆ

และพวกเขาเพิ่งเพิ่มการสนับสนุนสำหรับOCR (ผ่าน Tesserac)

สำหรับการแก้ปัญหาด้วยข้อความ PDFBox ทำให้การดึงข้อความจาก PDF เป็นเรื่องง่าย:

  • ดาวน์โหลดpdfbox-appแพ็คเกจจากhttps://pdfbox.apache.org/downloads.html
  • รันExtractTextคำสั่งกับมัน:

    java -jar pdfbox-app-xyzjar ExtractText myNiceBook.pdf myNiceBook.txt

นอกจากนี้ยังมีบางตัวเลือกที่ดีอื่น ๆ ที่คุณสามารถเห็นในเอกสาร ExtractText


ตัวเลือกที่ดีอย่างแน่นอนสำหรับการแยกข้อความ แต่ไม่มีความสามารถ OCR ที่ฉันเห็น
magma

1
@magma OCR หมายถึง "การรู้จำอักขระด้วยแสง" มีความสามารถ OCR แน่นอน ตอนนี้คุณต้องชี้แจง: เป็นปัญหาของคุณที่จะดึงข้อความจากภาพที่มีความละเอียดต่ำเช่นที่สร้างด้วย VGA cam, สแกนเนอร์ที่ไม่ดีหรือรูปภาพที่อยู่ไกลออกไปหรือไม่? จากนั้นปัญหาของคุณจะแตกต่างกันและต้องการการพิจารณาทางกายภาพของสิ่งต่าง ๆ เช่นความละเอียดสูง กรุณาถามคำถามที่เฉพาะเจาะจงมากขึ้นและสั้นลงเพื่อให้สามารถตอบได้ ฉันขอแนะนำให้คุณทำให้คำถามนี้ง่ายขึ้นสำหรับหนึ่งคุณลักษณะที่คุณต้องการ หากคุณต้องการอะไรเพิ่มเติมให้ถามคำถามใหม่
hhh

3
@hhh สิ่งหนึ่งคือการแยกข้อความจากไฟล์ไบนารี (เช่น PDF) เพื่อให้สามารถใช้งานได้และอ่านได้โดยแยกวิเคราะห์รูปแบบไบนารี ไม่มีอะไรเกี่ยวกับเรื่องนี้ ข้อความมีอยู่แล้วยูทิลิตี้เหล่านี้แยกมันออกมาเพื่อให้ง่ายต่อการมองเห็นของคุณ การรู้จำอักขระด้วยแสงจะแตกต่างกันโดยจะพยายามจดจำรูปแบบของพิกเซลในบิตแมปและทำให้เข้าใจได้เพียงพอว่าสามารถสร้างส่วนของข้อความที่สอดคล้องกันได้
magma

นี่ไม่ได้ตอบคำถามเดิม AFAICT, pdfbox-app ไม่ได้ทำ OCR
Feuermurmel

5

ฉันจะแนะนำDEVONThink สำนักงาน มันเป็นแอปพลิเคชั่นที่ยอดเยี่ยมและมีการสนับสนุน AppleScript ที่ดีมาก อนิจจาเฉพาะรุ่น 'Pro Office' เท่านั้นที่มีความสามารถในการใช้งาน OCR ดังนั้นคุณจะต้องจ่าย $ 100 ($ 150)

มันจะเกินความจริงถ้าคุณเพียงแค่ใช้มันสำหรับ OCR สคริปต์ แต่มันเป็นแอพที่ดีมาก

[แก้ไข] - โอ้แค่อ่านโพสต์ของคุณอีกครั้ง - มันจะเกินราคาอย่างแน่นอน!

หากคุณต้องการ OCR จากเชลล์คุณสามารถลองคุยกับ ABBY ซึ่ง DEVON เป็นเจ้าของลิขสิทธิ์เครื่องยนต์:

http://www.abbyy-developers.com/en:tech:samples:commandline_ocr


แม้ว่า DEVONThink Pro Office ใน OS X นั้นเกินความจริง แต่ก็น่าสนใจ หากนักพัฒนาออกแบบโดยใช้ OS X และ iOS อาจเป็นไปได้ (ทำให้ UI ง่ายขึ้น) - คุณรู้อะไรเช่นนี้หรือไม่? แนวคิดที่ยอดเยี่ยม - ดังนั้นรุ่น Pro จะเพิ่มเลเยอร์ OCR โดยอัตโนมัติในทุกประเภทเช่นภาพหน้าจอและ PDF และผู้ใช้สามารถ "สคริปต์" มันได้หรือไม่
hhh

2
ใช่ - แอปนี้มีพจนานุกรม AppleScript ที่ดีซึ่งช่วยให้คุณสามารถแปลงภาพที่เก็บไว้ในแอปให้เป็น PDF ที่ค้นหาได้
Diggory

สมมติว่าฉันถ่ายภาพด้วย iPhone หรือภาพหน้าจอที่มี OS X และนำไปไว้ในโฟลเดอร์ ProjectA, DEVON คิดว่าเพิ่มเลเยอร์ OCR โดยอัตโนมัติหรือไม่โดยไม่ระบุภาษา สมมติว่าคุณนำพวกเขาไปที่ DropBox แล้วทำให้ DEVON คิดใน OSX เพื่อตรวจสอบโฟลเดอร์โดยอัตโนมัติคุณสามารถทำงานกับมันผ่าน OS X และ iOS ได้หรือไม่ มันเป็นแนวคิดที่น่าสนใจถ้าทำได้ดี ... +1
hhh

ในทางใดทางหนึ่งดูเหมือนว่า EverNote ที่ EverNote เพิ่ม OCR แต่ไม่อนุญาตให้ส่งออกเช่นนั้น เป็นไปได้หรือไม่ที่จะส่งออกโครงการของคุณจากซอฟต์แวร์นี้ด้วย OCR ถ้าไม่เช่นนั้น OCR lib แบบง่าย ๆ แล้ว lib การวิเคราะห์ทางภาษาบางอย่างอาจทำงานได้ดีที่สุด บางทีอีกอันคือ ABBY ฉันยังไม่รู้
hhh

2
มันสามารถรับรู้ได้ในหลายภาษา: i.stack.imgur.com/buDLI.png
ดิกกอรี่

5

คุณสามารถทำให้ PDF ที่มีอยู่ของคุณค้นหาได้โดยแปลงเป็นไฟล์ข้อความ คุณต้องการอย่างน้อยImagemagick , Ghostscript (สำหรับการแปลง PDF) และเครื่องมือTesseract OCR

ตัวอย่างบรรทัดคำสั่ง:

$ wget http://www.fmwconcepts.com/misc_tests/pdf_tests/test.pdf
$ convert -density 300 -depth 8 test.pdf test.png
$ tesseract test*.png test.txt
$ grep -i --color=auto the test*.txt
**The** details as told by surviving crew members, to **the** German publication Spiegel and published on ABC's

สิ่งนี้สามารถขยายเพิ่มเติมตามความต้องการของคุณ

ในการติดตั้งเครื่องมือที่จำเป็นบน OSX คุณสามารถติดตั้งผ่านHomebrew :

brew install imagemagick jpeg libpng ghostscript tesseract

เกี่ยวกับการใช้ลินุกซ์apt-getหรือแทนyumbrew

สำหรับเครื่องมือ OCR เพิ่มเติมให้ตรวจสอบ: OCR บนระบบ Linux

ที่เกี่ยวข้อง:


4

โซลูชันที่สามารถนำไปใช้งานได้อย่างง่ายดายและให้ไฟล์ PDF เอาต์พุตที่มีคุณภาพเดียวกันกับไฟล์อินพุตพร้อมขนาดที่เหมาะสมคือ OCRmyPDF:

https://github.com/jbarlow83/OCRmyPDF


ดูเหมือนว่าเป็นวิธีแก้ปัญหาที่ยอดเยี่ยมแม้ว่าฉันได้พบแบ็คเอนด์ OCR, Tesseract ค่อนข้างน่าผิดหวัง (ค่อนข้างแน่นอนเพราะข้อ จำกัด ของตัวเองในการกำหนดค่าอย่างถูกต้อง)
magma

ฉันรัก OCRmyPDF โปรดดูคำตอบของฉันด้านล่างซึ่งอธิบายวิธีการติดตั้งและลากและวางโดยอัตโนมัติได้อย่างรวดเร็วและไม่เจ็บปวดกับนักเทียบท่า
thadk

1

Stackoverflow มีคำถามที่เกี่ยวข้องภายใต้การแยกวิเคราะห์ PDFครอบคลุมสิ่งต่าง ๆ เช่น PDFBox และ TIKA ของ Apache ที่ PDFBox ใช้ รหัสทับทิมด้านล่างแยกการเขียนจาก PDF คุณต้องมีความละเอียดที่ดีพอสำหรับรหัสประเภทนี้ในการทำงานอย่างมีประสิทธิภาพ เพื่อให้ได้สแกนเนอร์ที่ดีพอที่มีความละเอียดสูงแล้วดูว่าซอฟต์แวร์บางตัวทำงานหรือไม่

ตัวอย่าง

  1. https://github.com/yob/pdf-reader/tree/master/examples

เธรด

  1. /programming/5217783/pdf-parse-to-text-in-java

  2. /programming/8149179/alternative-to-tika-pdfbox-for-parsing-pdf-in-solr-any-version-later-than-1-4

  3. /programming/320621/ruby-pdf-parsing-gem-library

  4. /programming/15186740/haskell-parsing-reading-content-of-pdf-files

[แก้ไข]

ฉันไม่แน่ใจว่าฉันเข้าใจปัญหาของคุณตอนนี้หรือไม่ คุณต้องการเพิ่มเลเยอร์ OCR ลงในวัสดุประเภทต่าง ๆ เช่นภาพถ่ายแบบสุ่มภาพหน้าจอไฟล์ PDF ที่ไม่มีเลเยอร์ OCR เป็นต้น ฉันไม่ทราบวิธีแก้ปัญหา แต่ฉันแน่ใจว่ามีคนรู้ดังนั้นถามคำถามเฉพาะวิธีการทำกับ Automator และซอฟต์แวร์ OCR:

สคริปต์อัตโนมัติพร้อมซอฟต์แวร์ OCR เพื่อเพิ่ม OCR ให้กับเนื้อหาโดยอัตโนมัติหรือไม่


อีกครั้ง: ฉันไม่ต้องการแยกหรือแยกข้อความที่มีอยู่แล้ว ฉันต้องการจดจำข้อความ (OCR) ในไฟล์ PDF ที่เป็นรูปภาพ, บิตแมป; แต่เดิมไม่มีข้อความใด ๆ
magma

@magma โปรดดูการอัปเดตของฉัน คุณต้องการเพิ่มเลเยอร์ OCR โดยอัตโนมัติเพื่อให้คุณสามารถค้นหาเอกสารประเภทต่างๆแม้จะไม่มี "ข้อความที่ค้นหาได้"? หากคุณสามารถทำได้คุณสามารถค้นหาเอกสารทั้งหมดใน Finder - เข้าใจไหม ฉันกำลังแปลกใจถ้าแอปเปิ้ลไม่ได้ทำเช่นนี้ในการอัพเกรดมา ...
hhh

ตามที่ระบุในคำถามของฉันใช่
magma

1

สำหรับแอปพลิเคชันกำกับตนเองประเภทนี้ฉันเป็นแฟนตัวยงของ Hazel

มันทำให้การกระทำสคริปต์ง่ายมากโดยไม่จำเป็นต้องเรียนรู้เครื่องมือบรรทัดคำสั่งเพิ่มเติมเช่น perl หรือ python และจับคู่กับเอ็นจิ้น OCR ที่คุณเลือก (ตอนนี้ฉันเป็น PDF Pen Pro) คุณไม่ควรมีปัญหากับไฟล์ เอะอะ.

ทั้งสองอย่างนี้เป็นซอฟต์แวร์ที่ได้รับค่าตอบแทน ในสถานการณ์ของฉันด้วยแรงงานที่มีส่วนร่วมในการแปลงบันทึกการสแกนในอดีตของฉัน (และเอกสารต่อเนื่อง) ราคาของสิ่งที่ไกลเกินกว่าเวลาที่ฉันจะใช้โปรแกรมนี้ที่อื่นและตอนนี้ที่ฉันเป็นเจ้าของเครื่องมือทั้งสองฉันสามารถทำงานอื่น ๆ พวกเขา


0

PDFScannerAppมีการสนับสนุนการเขียนสคริปต์ที่ไม่เป็นทางการ ติดต่อผู้เขียนสำหรับการดำเนินการอัตโนมัติ


0

ฉันใช้ Adobe acrobat เป็น OCR แบบแบตช์ สแกนเนอร์ดูเพล็กซ์ของฉันสามารถ OCR หลังจากการสแกน แต่เทคโนโลยี OCR ใน acrobat นั้นแม่นยำกว่าในความคิดของฉัน ฉันเพิ่งชี้ไปที่โฟลเดอร์ที่ไม่มี OCR จากนั้น acrobat จะบันทึก PDF เป็นไฟล์ PDF ที่ค้นหาได้ในขณะนี้รวมถึงเลเยอร์ข้อความ ถ้าฉันต้องการ OCR ผ่านทางบรรทัดคำสั่งฉันไม่รู้วิธี แต่ฉันสามารถทำให้สิ้นสุด GUI อัตโนมัติโดยใช้ Autohotkey ไม่น่าเชื่อถือหรือรวดเร็วเหมือนบรรทัดคำสั่ง แต่จะทำงานหลังจากคุณตั้งค่าการดำเนินการเวิร์กโฟลว์เพื่อลดการโต้ตอบกับ GUI

สำหรับ Mac สคริปต์ของ Apple ทำสิ่งที่ Autohotkey ทำบนพีซีแม้ว่าฉันจะยังไม่ได้ลองบน Mac

ออโต้ฮ็อตคีย์มาพร้อมกับเครื่องบันทึกดังนั้นการเขียนบทส่วนใหญ่จึงเป็นอาหารค่ำสำหรับคุณที่มีการแก้ไขเล็กน้อยเพื่อการปรับแต่งและอาจวนลูปถ้าคุณต้องการ

ฉันทดลองใช้ OCR ภาพ แต่ยังไม่ได้ทำกระบวนการอัตโนมัติทั้งหมดผ่าน acrobat บรรทัดคำสั่งนั้นเหมาะสมที่สุด แต่ยังไม่พบเอ็นจิ้น OCR ที่มีคุณภาพเกิน acrobat ดังนั้นตอนนี้ฉันจึงใช้ acrobat แทน


0

ฉันสะดุดเมื่อเร็ว ๆ นี้: http://ocrkit.com/faq.html

คุณต้องจ่ายหลังจาก 14 วันแม้ว่า


1
ยินดีต้อนรับสู่ถามที่แตกต่างกัน! เรากำลังพยายามหาคำตอบที่ดีที่สุดและคำตอบเหล่านั้นจะให้ข้อมูลว่าทำไมพวกเขาถึงดีที่สุด อธิบายว่าทำไมคุณคิดว่าซอฟต์แวร์ที่คุณแนะนำดีกว่าซอฟต์แวร์อื่น ๆ โดยทั่วไปคำตอบเฉพาะลิงก์จะอ่อนไหวต่อการถูกลบดังนั้นคุณจึงต้องการให้คำตอบของคุณครอบคลุมข้อมูลที่เกี่ยวข้องทั้งหมด ดูวิธีการตอบเกี่ยวกับวิธีการให้คำตอบที่มีคุณภาพ
fsb

0

ฉันได้รับการแปลง Drag & Drop คุณภาพสูงโดยใช้ Docker

ถ้าคุณ:

  1. ติดตั้ง Docker สำหรับ Macและ
  2. จากนั้นสร้างแอป Automator ใหม่
  3. ด้วยเนื้อหาเหล่านี้ภายในแอ็คชัน "Run a Shell Script" เลือก Pass Input:"as arguments"

/bin/bash ข้อความสคริปต์:

cd "`dirname "$1"`"
/usr/local/bin/docker run --rm -v "$(pwd):/home/docker" jbarlow83/OCRmyPDF --force-ocr "`basename "$1"`" "`basename -s .pdf "$1"`-ocr.pdf"

จากนั้นคุณก็ควรที่จะลากและวาง PDF ลงไปและคุณจะได้รับ PDF ที่มีชื่อคล้ายกันโดยมี "-ocr" ต่อท้ายชื่อไฟล์

ฉันคิดว่ามันสามารถแก้ไขได้อย่างง่ายดายเพื่อส่งคืนไฟล์ไปยัง Automator เพื่อคัดลอกที่อื่นเช่นกัน รายละเอียดเพิ่มเติมเกี่ยวกับแพ็คเกจตัวเทียบ OCRmyPDF ที่ละเอียด และเครื่องมือหลัก (กล่าวถึงในคำตอบที่แตกต่างกัน)

คุณสามารถทดสอบใน Automator เองได้ด้วยการกระทำ "รับรายการ Finder ที่ระบุ" เป็นอินพุตของสิ่งนี้

ครั้งแรกที่เรียกใช้จะใช้เวลามากขึ้นเนื่องจากจะต้องดาวน์โหลดอิมเมจ Docker สำหรับ OCRmyPDF (ล่องหน) ใน Terminal คุณสามารถเรียกใช้docker pull jbarlow83/ocrmypdfเพื่อเพิ่มความเร็วในการเรียกใช้ครั้งแรก การเรียกใช้ทั่วไปจะใช้เวลาประมาณ 10 วินาทีต่อหน้า DPI สูง แต่มีผลลัพธ์แบบข้อความเป็นภาษาที่ถอดออกได้โดยอัตโนมัติแม้ว่าจะมีตารางหรือไดอะแกรม ก่อน OCRing ฉันครอบตัดโดยใช้Sejdaดังนั้นคำที่ไม่มีขอบจากหน้าอื่นจะถูกลบ

--force-ocrอาร์กิวเมนต์บอกเครื่องมือที่จะไม่สนใจและเขียนทับใด ๆ พยายาม OCR ก่อนหน้านี้ซึ่งในกรณีของฉันมักจะมีเพียงบางส่วนและไร้ประโยชน์


0

OCRKit มีทั้ง AppleScript ที่รองรับและ CLI จากหน้าช่วยเหลือของพวกเขา:

AppleScript

คุณสามารถสคริปต์ OCRKit เพื่อรวมเข้ากับเวิร์กโฟลว์เฉพาะของคุณ ตัวอย่างเช่นการประมวลผลไฟล์ที่เข้ามา, ผ่านโฟลเดอร์ที่ใช้ร่วมกัน, จากเครื่องถ่ายเอกสาร MFP, ฯลฯ และเพียงแค่บอกให้ OCRKit เปิดและกระบวนการก็คือผ่าน AppleScript:

tell application "OCRKit"
   -- the wonders of AppleScript POSIX path handling, ...
   open "Users:admin:Desktop:orderform.pdf"
   open POSIX path of "/Users/Admin/Desktop/orderform.pdf"
end tell 

บรรทัดคำสั่ง

เนื่องจากสนับสนุนสคริปต์บรรทัดคำสั่งโดยตรงรุ่น OCRKit 2.5 สิ่งนี้ช่วยลดความยุ่งยากในการใช้ OCRKit ในการประมวลผลแบบแบตช์ช่วยให้สามารถตั้งค่าตัวเลือกได้มากขึ้นและมีความทนทานและข้ามแพลตฟอร์มมากกว่า AppleSCript

OCRKit.app/Contents/MacOS/OCRKit \ 
    --lang en | de | fr | es | ... \
    --format pdf | html | rtf | text \
    --no-progress \
    --output out-file in-file

เนื่องจากรองรับตัวเลือกบรรทัดคำสั่งเพิ่มเติมรุ่น OCRKit 16.9:

-r, --recursive directory

สแกนไดเรกทอรีซ้ำสำหรับไฟล์ใหม่ ข้ามไฟล์จาก OCRKit ด้วยเลเยอร์ข้อความหรือกราฟิกแบบเวกเตอร์

--pattern "regex"

รูปแบบที่ใช้เพื่อจับคู่ชื่อไฟล์ระหว่างการสแกนแบบเรียกซ้ำ ค่าเริ่มต้น%.pdf$คือคำแนะนำสำหรับ TIFF คือ%.tiff?$

--log file

เขียนข้อมูลล็อกไฟล์และสถิติระหว่างการสแกนซ้ำไปยังไฟล์

--password secret

ใช้รหัสผ่านลับในการถอดรหัสไฟล์ PDF ในระหว่างการประมวลผลแบบแบตช์

--test-run [ fast ]

เรียกใช้การประมวลผลชุดการทดสอบในโหมดทดสอบเพื่อทดสอบไฟล์ PDF หรือเพื่อให้ได้จำนวนหน้าเพื่อประมาณเวลาการประมวลผลทั้งหมด "fast" จะตรวจสอบเฉพาะหน้าแรกของแต่ละไฟล์แทนที่จะไปยังหน้าทั้งหมดเพื่อวิเคราะห์รูปภาพและเวกเตอร์

--tag name

ใช้ชื่อแอ็ตทริบิวต์ส่วนขยายเพื่อแท็กสถานะการประมวลผลของไฟล์ระหว่างการประมวลผลแบบแบตช์ macos:OCRKit (%s)จะใช้แท็ก Finder MacOS ดั้งเดิมแทนหรือmacos:OCRKitไม่รวมแอตทริบิวต์ของรัฐ คำสั่งของแอตทริบิวต์รัฐ ได้แก่ : started, analyzed, และนอกจากนี้ยังสามารถprocessedencrypted

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.