แสดง PDF น้อยลงอย่างไร


52

ฉันได้ลองใช้โปรแกรมหลายโปรแกรม: pdftotext, pdf2txt.py, ... พวกเขาทั้งหมดสามารถดึงข้อความจาก PDF ได้ แต่โปรแกรมที่ทำงานได้ดีกว่านี้ก็คือ ol ดี ' less: ข้อความจาก PDF มีรูปแบบที่เหมาะสม ทำสิ่งนี้ได้น้อยลงอย่างไร มันใช้ไลบรารีใด ๆ หรือมีการประมวลผล PDF ในตัวหรือไม่

ฉันถามเพราะฉันต้องการใช้ฟังก์ชั่น funcionality นี้โดยไม่จำเป็นต้องเรียกใช้เป็นโปรแกรมภายนอกน้อยลง (ฉันกำลังทำหลาม)

ระบบของฉันคือ

» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman

less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less

» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

คำตอบ:


63

การกระจายของคุณอาจใช้lesspipe.shสคริปต์ยอดนิยม ตรวจสอบLESSOPENตัวแปรสภาพแวดล้อม

สคริปต์นี้มีหลายรูปแบบ ฉันกำลังดูรุ่น Gentoo ในนั้นคุณจะพบบรรทัดต่อไปนี้:

*.ps|*.pdf) ps2ascii "$1" || pstotext "$1" || pdftotext "$1" ;;

นั่นหมายความว่ามันจะลองคำสั่งเหล่านั้นตามลำดับที่ปรากฏ $1เป็นชื่อไฟล์

รุ่นอื่นใช้คำสั่งต่อไปนี้:

pdftohtml -stdout "$t" | parsehtml -

15
ขอบคุณมันกลับกลายเป็นว่ากำลังใช้งานอยู่pdftotext -layout $1 -
dangonfast

@ jeckyll2hide คุณพบคำอธิบายสำหรับผลลัพธ์ที่ดีขึ้นด้วยน้อยลงหรือไม่?
vvy

@vvy อาจเป็น-layoutไปได้ว่าสวิตช์ ;)
Daniel B
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.