ฉันต้องการไฟล์ PDF เป็นข้อความเพื่อให้ฉันสามารถค้นหาไฟล์เหล่านั้นเป็นจำนวนมากจาก commandline มีตัวแปลงสำหรับ Ubuntu, OBSD หรือ distro ที่คล้ายกันบ้างไหม?
pdftotext pdfcat
ฉันต้องการไฟล์ PDF เป็นข้อความเพื่อให้ฉันสามารถค้นหาไฟล์เหล่านั้นเป็นจำนวนมากจาก commandline มีตัวแปลงสำหรับ Ubuntu, OBSD หรือ distro ที่คล้ายกันบ้างไหม?
pdftotext pdfcat
คำตอบ:
คุณมีตัวเลือกมากมาย!
pdftotextจากpopplerได้ถูกกล่าวถึงแล้ว
มีโปรแกรม Haskell ที่เรียกว่าใช้pdf2lineงานได้ดี
ความสามารถของebook-convertโปรแกรม commandline (หรือความสามารถของตัวเอง) เป็นอีกทางเลือกหนึ่ง; มันสามารถแปลง PDF เป็นข้อความธรรมดาหรือรูปแบบ ebook อื่น ๆ (RTF, ePub) ในความคิดของฉันมันสร้างผลลัพธ์ที่ดีกว่า pdftotext แม้ว่ามันจะช้ากว่ามาก
ebook-convert file.pdf file.txt
AbiWordสามารถแปลงระหว่างรูปแบบใดก็ได้ที่รู้จากบรรทัดคำสั่งและอย่างน้อยก็มีปลั๊กอินนำเข้า PDF:
abiword --to=txt file.pdf
อีกตัวเลือกหนึ่งคือpodofotextextractจากไลบรารีเครื่องมือ PDF ของ podofo ฉันไม่ได้ลองอย่างนั้นจริงๆ
หากคุณรวมสองเครื่องมือ Ghostscript pdf2psและps2asciiคุณยังมีตัวเลือกอื่น
จริง ๆ แล้วฉันสามารถคิดถึงวิธีการเพิ่มเติมได้สองสามอย่าง แต่ตอนนี้ฉันจะทิ้งมันไว้ ;)
pdftotextให้ผลลัพธ์ที่แม่นยำกว่าebook-convertและรวดเร็วมาก ebook-convertเฉื่อยชา
pdftotextด้วย-layoutตัวเลือกหิน! calibreต้องการมากกว่า 600mb ในการติดตั้ง! มันบ้ามาก)
คุณสามารถแปลงไฟล์ PDF เป็นข้อความบนบรรทัดคำสั่งด้วยpdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage)
คุณสามารถใช้Recoll
(Ubuntu: recoll ; OpenBSD: ไม่มีพอร์ต แต่มีหนึ่งFreeBSD ) เพื่อค้นหาภายในประเภทเอกสารข้อความที่จัดรูปแบบต่างๆรวมถึง PDF มี GUI และสร้างดัชนีโดยอัตโนมัติภายใต้ประทุน มันใช้pdftotextในการแปลงไฟล์ PDF เป็นข้อความ
Acrobat Reader (อย่างน้อยเวอร์ชัน 9 ภายใต้ Linux) มีความสามารถในการค้นหาไฟล์หลายไฟล์แบบ จำกัด (คุณสามารถค้นหาไฟล์ทั้งหมดในไดเรกทอรีได้)
pdftotext น่าจะเป็นสิ่งที่คุณกำลังมองหา: http://en.wikipedia.org/wiki/Pdftotextเว้นเสียแต่ว่าข้อความที่คุณต้องการแยกนั้นจะอยู่ภายใต้รูปแบบกราฟิกซึ่งไม่เหมือนกับเอกสาร pdf
gPDFText แปลงเนื้อหา PDF ebook เป็นข้อความ ASCII, จัดรูปแบบใหม่สำหรับย่อหน้ายาวบรรทัดมันใช้งานได้สำหรับฉันและมันมีส่วนต่อประสานกราฟิก
gPDFTextสามารถรับได้วิธีติดตั้งและวิธีใช้ในการตอบคำถามของ OP