จะแยกข้อความจาก pdf ในสคริปต์บน Linux ได้อย่างไร


23

บน Linux - วิธีแยกข้อความจาก.pdfข้อความที่เป็นข้อความไม่ใช่ภาพสแกน? ฉันต้องการสิ่งที่ฉันสามารถใช้กับบรรทัดคำสั่ง / ในสคริปต์ไม่ใช่แบบโต้ตอบ (ฉันไม่ต้องการแปลงเป็น.tifและใช้ OCR - มีข้อความใน.pdfไฟล์อยู่แล้วเหตุใดจึงนำเสนอความไม่ถูกต้องจาก OCR ที่ไม่สมบูรณ์?)


คำตอบ:


25

pdftotext ที่มาพร้อมกับ poppler จะพยายามแยกข้อความที่พบใน PDF


1
ขอบคุณสำหรับการตอบกลับอย่างรวดเร็ว Ignacio! ฉันกำลังตรวจสอบ pdftotext ที่มาพร้อม xpdf (จาก foolabs.com) - คำตอบของคุณทำให้ฉันดูอีกครั้งและฉันก็ทำงานได้ Poppler ดูเหมือนจะมีวิวัฒนาการมาจาก xpdf ดังนั้นฉันจะดูด้วยเช่นกัน ขอบคุณอีกครั้ง!
RobM

9

คำตอบของอิกนาชิโอก็โอเค ความจริงมันเป็นสิ่งแรกในรายการของฉัน ดีและบางทีอาจจะแนะนำpdftohtmlเครื่องมือที่มาพร้อมกับ poppler รวมกับpdfreflowหากคุณต้องการรวมข้อความเป็นย่อหน้า ฯลฯ (แน่นอนว่าสิ่งนี้จะให้เอาต์พุต HTML แต่การแปลง HTML เป็นข้อความธรรมดาสามารถทำได้ ทำได้หลายวิธี)

นี่คือตัวเลือกอื่น ๆ ด้วย

ebook-convertเครื่องมือบรรทัดคำสั่งจากCaliberซึ่งสามารถแปลง .PDFs ข้อความธรรมดา (หรือ RTF หรือจำนวนของรูปแบบ ebook เช่น ePub, ฯลฯ )

pdftxtextractจากPodofo

Abiwordสามารถเรียกได้จาก commandline เพื่อแปลงระหว่างรูปแบบใด ๆ ที่สามารถป้อนจาก / ส่งออกเป็นและด้วยปลั๊กอินนำเข้าที่เหมาะสมซึ่งรวมถึง PDF:

abiword --to=txt file.pdf

(ในความเป็นธรรมฉันคิดว่า AbiWord และความสามารถทั้งสองใช้ห้องสมุด poppler แต่ฉันไม่ได้คิดบวก)


ขอขอบคุณ frabjous! ในกรณีนี้ฉันเพิ่งแยกข้อความเพื่อให้ฉันสามารถสแกนหาสตริงเฉพาะ (ชื่อผู้ขายหมายเลขบัญชี) และรูปแบบ (หมายเลขใบแจ้งหนี้และวันที่) - ดังนั้นไม่จำเป็นต้องฟอร์แมตใหม่หรือแสดงซ้ำ ฉันขอขอบคุณการยืนยันและทางเลือก - และฉันมั่นใจว่าคนอื่นจะเช่นกัน! - Rob
RobM
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.