มีไฟล์ PDF เป็น text-converter บ้างไหม?


21

ฉันต้องการไฟล์ PDF เป็นข้อความเพื่อให้ฉันสามารถค้นหาไฟล์เหล่านั้นเป็นจำนวนมากจาก commandline มีตัวแปลงสำหรับ Ubuntu, OBSD หรือ distro ที่คล้ายกันบ้างไหม?

บางทีอาจจะโพสต์ที่เกี่ยวข้อง OCR กับอูบุนตูที่นี่



หากเป็น PDF "ของจริง" (ทำจากข้อความ ฯลฯ ) pdftotext เป็นทางออกที่ดีที่สุดของคุณ ถ้าเป็นรูปภาพทางออกที่ดีที่สุดของคุณคือสิ่ง OCR
vonbrand

1
ฉันมักจะใช้=pdftotext pdfcat
isomorphismes

คำตอบ:


22

คุณมีตัวเลือกมากมาย!

pdftotextจากpopplerได้ถูกกล่าวถึงแล้ว

มีโปรแกรม Haskell ที่เรียกว่าใช้pdf2lineงานได้ดี

ความสามารถของebook-convertโปรแกรม commandline (หรือความสามารถของตัวเอง) เป็นอีกทางเลือกหนึ่ง; มันสามารถแปลง PDF เป็นข้อความธรรมดาหรือรูปแบบ ebook อื่น ๆ (RTF, ePub) ในความคิดของฉันมันสร้างผลลัพธ์ที่ดีกว่า pdftotext แม้ว่ามันจะช้ากว่ามาก

ebook-convert file.pdf file.txt

AbiWordสามารถแปลงระหว่างรูปแบบใดก็ได้ที่รู้จากบรรทัดคำสั่งและอย่างน้อยก็มีปลั๊กอินนำเข้า PDF:

abiword --to=txt file.pdf

อีกตัวเลือกหนึ่งคือpodofotextextractจากไลบรารีเครื่องมือ PDF ของ podofo ฉันไม่ได้ลองอย่างนั้นจริงๆ

หากคุณรวมสองเครื่องมือ Ghostscript pdf2psและps2asciiคุณยังมีตัวเลือกอื่น

จริง ๆ แล้วฉันสามารถคิดถึงวิธีการเพิ่มเติมได้สองสามอย่าง แต่ตอนนี้ฉันจะทิ้งมันไว้ ;)


แปลง ebook ของ calibre ... คุณเคยเห็นไหมว่ามันทำอะไรกับการมัด? bleargh ลองทำแบบนี้สิ: มันไม่ใช่โปรแกรมที่ดีมาก pdftotext ซื่อสัตย์ยิ่งกว่ามาก ฉันไม่เคยพบข้อผิดพลาดในผลลัพธ์ของมัน
ixtmixilix

1
คุณสามารถใช้น้อยสำหรับการดูไฟล์ PDF เป็นข้อความ มันเรียกใช้ตัวประมวลผลล่วงหน้าเช่น lesspipe สำหรับเรียกใช้ pdftotext หรือเครื่องมือที่คล้ายกัน
Daniel Näslund

pdftotextให้ผลลัพธ์ที่แม่นยำกว่าebook-convertและรวดเร็วมาก ebook-convertเฉื่อยชา
Amit Patel

pdftotextด้วย-layoutตัวเลือกหิน! calibreต้องการมากกว่า 600mb ในการติดตั้ง! มันบ้ามาก)
Stalinko

9

คุณสามารถแปลงไฟล์ PDF เป็นข้อความบนบรรทัดคำสั่งด้วยpdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage)

คุณสามารถใช้Recoll (Ubuntu: recoll ; OpenBSD: ไม่มีพอร์ต แต่มีหนึ่งFreeBSD ) เพื่อค้นหาภายในประเภทเอกสารข้อความที่จัดรูปแบบต่างๆรวมถึง PDF มี GUI และสร้างดัชนีโดยอัตโนมัติภายใต้ประทุน มันใช้pdftotextในการแปลงไฟล์ PDF เป็นข้อความ

Acrobat Reader (อย่างน้อยเวอร์ชัน 9 ภายใต้ Linux) มีความสามารถในการค้นหาไฟล์หลายไฟล์แบบ จำกัด (คุณสามารถค้นหาไฟล์ทั้งหมดในไดเรกทอรีได้)


4

pdftotext น่าจะเป็นสิ่งที่คุณกำลังมองหา: http://en.wikipedia.org/wiki/Pdftotextเว้นเสียแต่ว่าข้อความที่คุณต้องการแยกนั้นจะอยู่ภายใต้รูปแบบกราฟิกซึ่งไม่เหมือนกับเอกสาร pdf



-1

gPDFText แปลงเนื้อหา PDF ebook เป็นข้อความ ASCII, จัดรูปแบบใหม่สำหรับย่อหน้ายาวบรรทัดมันใช้งานได้สำหรับฉันและมันมีส่วนต่อประสานกราฟิก


3
สวัสดีและยินดีต้อนรับสู่เว็บไซต์ เราชอบคำตอบที่จะครอบคลุมมากขึ้นเล็กน้อยที่นี่ ตัวอย่างเช่นคุณสามารถเพิ่มตำแหน่งที่gPDFTextสามารถรับได้วิธีติดตั้งและวิธีใช้ในการตอบคำถามของ OP
terdon
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.