จะแยกข้อความจาก pdf ในสคริปต์บน Linux ได้อย่างไร

23

บน Linux - วิธีแยกข้อความจาก.pdfข้อความที่เป็นข้อความไม่ใช่ภาพสแกน? ฉันต้องการสิ่งที่ฉันสามารถใช้กับบรรทัดคำสั่ง / ในสคริปต์ไม่ใช่แบบโต้ตอบ (ฉันไม่ต้องการแปลงเป็น.tifและใช้ OCR - มีข้อความใน.pdfไฟล์อยู่แล้วเหตุใดจึงนำเสนอความไม่ถูกต้องจาก OCR ที่ไม่สมบูรณ์?)

— RobM
แหล่งที่มา

คำถามที่คล้ายกันที่ askubuntu

— Trevor Boyd Smith

25

pdftotext ที่มาพร้อมกับ poppler จะพยายามแยกข้อความที่พบใน PDF

— Ignacio Vazquez-Abrams
แหล่งที่มา

1

ขอบคุณสำหรับการตอบกลับอย่างรวดเร็ว Ignacio! ฉันกำลังตรวจสอบ pdftotext ที่มาพร้อม xpdf (จาก foolabs.com) - คำตอบของคุณทำให้ฉันดูอีกครั้งและฉันก็ทำงานได้ Poppler ดูเหมือนจะมีวิวัฒนาการมาจาก xpdf ดังนั้นฉันจะดูด้วยเช่นกัน ขอบคุณอีกครั้ง!

— RobM

9

คำตอบของอิกนาชิโอก็โอเค ความจริงมันเป็นสิ่งแรกในรายการของฉัน ดีและบางทีอาจจะแนะนำpdftohtmlเครื่องมือที่มาพร้อมกับ poppler รวมกับpdfreflowหากคุณต้องการรวมข้อความเป็นย่อหน้า ฯลฯ (แน่นอนว่าสิ่งนี้จะให้เอาต์พุต HTML แต่การแปลง HTML เป็นข้อความธรรมดาสามารถทำได้ ทำได้หลายวิธี)

นี่คือตัวเลือกอื่น ๆ ด้วย

ebook-convertเครื่องมือบรรทัดคำสั่งจากCaliberซึ่งสามารถแปลง .PDFs ข้อความธรรมดา (หรือ RTF หรือจำนวนของรูปแบบ ebook เช่น ePub, ฯลฯ )

pdftxtextractจากPodofo

Abiwordสามารถเรียกได้จาก commandline เพื่อแปลงระหว่างรูปแบบใด ๆ ที่สามารถป้อนจาก / ส่งออกเป็นและด้วยปลั๊กอินนำเข้าที่เหมาะสมซึ่งรวมถึง PDF:

abiword --to=txt file.pdf

(ในความเป็นธรรมฉันคิดว่า AbiWord และความสามารถทั้งสองใช้ห้องสมุด poppler แต่ฉันไม่ได้คิดบวก)

— frabjous
แหล่งที่มา

ขอขอบคุณ frabjous! ในกรณีนี้ฉันเพิ่งแยกข้อความเพื่อให้ฉันสามารถสแกนหาสตริงเฉพาะ (ชื่อผู้ขายหมายเลขบัญชี) และรูปแบบ (หมายเลขใบแจ้งหนี้และวันที่) - ดังนั้นไม่จำเป็นต้องฟอร์แมตใหม่หรือแสดงซ้ำ ฉันขอขอบคุณการยืนยันและทางเลือก - และฉันมั่นใจว่าคนอื่นจะเช่นกัน! - Rob

— RobM