ฉันต้องการไฟล์ PDF เป็นข้อความเพื่อให้ฉันสามารถค้นหาไฟล์เหล่านั้นเป็นจำนวนมากจาก commandline มีตัวแปลงสำหรับ Ubuntu, OBSD หรือ distro ที่คล้ายกันบ้างไหม?
pdftotext
pdfcat
ฉันต้องการไฟล์ PDF เป็นข้อความเพื่อให้ฉันสามารถค้นหาไฟล์เหล่านั้นเป็นจำนวนมากจาก commandline มีตัวแปลงสำหรับ Ubuntu, OBSD หรือ distro ที่คล้ายกันบ้างไหม?
pdftotext
pdfcat
คำตอบ:
คุณมีตัวเลือกมากมาย!
pdftotext
จากpopplerได้ถูกกล่าวถึงแล้ว
มีโปรแกรม Haskell ที่เรียกว่าใช้pdf2line
งานได้ดี
ความสามารถของebook-convert
โปรแกรม commandline (หรือความสามารถของตัวเอง) เป็นอีกทางเลือกหนึ่ง; มันสามารถแปลง PDF เป็นข้อความธรรมดาหรือรูปแบบ ebook อื่น ๆ (RTF, ePub) ในความคิดของฉันมันสร้างผลลัพธ์ที่ดีกว่า pdftotext แม้ว่ามันจะช้ากว่ามาก
ebook-convert file.pdf file.txt
AbiWordสามารถแปลงระหว่างรูปแบบใดก็ได้ที่รู้จากบรรทัดคำสั่งและอย่างน้อยก็มีปลั๊กอินนำเข้า PDF:
abiword --to=txt file.pdf
อีกตัวเลือกหนึ่งคือpodofotextextract
จากไลบรารีเครื่องมือ PDF ของ podofo ฉันไม่ได้ลองอย่างนั้นจริงๆ
หากคุณรวมสองเครื่องมือ Ghostscript pdf2ps
และps2ascii
คุณยังมีตัวเลือกอื่น
จริง ๆ แล้วฉันสามารถคิดถึงวิธีการเพิ่มเติมได้สองสามอย่าง แต่ตอนนี้ฉันจะทิ้งมันไว้ ;)
pdftotext
ให้ผลลัพธ์ที่แม่นยำกว่าebook-convert
และรวดเร็วมาก ebook-convert
เฉื่อยชา
pdftotext
ด้วย-layout
ตัวเลือกหิน! calibre
ต้องการมากกว่า 600mb ในการติดตั้ง! มันบ้ามาก)
คุณสามารถแปลงไฟล์ PDF เป็นข้อความบนบรรทัดคำสั่งด้วยpdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utils
package)
คุณสามารถใช้Recoll
(Ubuntu: recoll ; OpenBSD: ไม่มีพอร์ต แต่มีหนึ่งFreeBSD ) เพื่อค้นหาภายในประเภทเอกสารข้อความที่จัดรูปแบบต่างๆรวมถึง PDF มี GUI และสร้างดัชนีโดยอัตโนมัติภายใต้ประทุน มันใช้pdftotext
ในการแปลงไฟล์ PDF เป็นข้อความ
Acrobat Reader (อย่างน้อยเวอร์ชัน 9 ภายใต้ Linux) มีความสามารถในการค้นหาไฟล์หลายไฟล์แบบ จำกัด (คุณสามารถค้นหาไฟล์ทั้งหมดในไดเรกทอรีได้)
pdftotext น่าจะเป็นสิ่งที่คุณกำลังมองหา: http://en.wikipedia.org/wiki/Pdftotextเว้นเสียแต่ว่าข้อความที่คุณต้องการแยกนั้นจะอยู่ภายใต้รูปแบบกราฟิกซึ่งไม่เหมือนกับเอกสาร pdf
gPDFText แปลงเนื้อหา PDF ebook เป็นข้อความ ASCII, จัดรูปแบบใหม่สำหรับย่อหน้ายาวบรรทัดมันใช้งานได้สำหรับฉันและมันมีส่วนต่อประสานกราฟิก
gPDFText
สามารถรับได้วิธีติดตั้งและวิธีใช้ในการตอบคำถามของ OP