ตกลง ... ฉันคิดว่าpdflatex
เป็นส่วนที่ขาดหายไปที่นี่
สหกรณ์กล่าวว่าเขาได้มองเข้าไปในและpoppler-utils
ผมขอเพิ่มว่าpdftk
pdfimages
เหล่านี้พร้อมกับpdflatex
เป็นชิ้นส่วนของการแก้ปัญหา
pdfimages -f 4 -l 20 -j -png target.pdf imageroot
ในรหัสตัวอย่างข้างต้นpdfimages
ลักษณ์ผ่านหน้า 4 ถึง 20 และสารสกัดจากภาพทั้งหมดลงในไฟล์ที่มีชื่อขึ้นต้น target.pdf
imageroot
poppler-utils
pdftotext
ให้ ฉันแนะนำ-layout
ตัวเลือกที่ใช้งานได้ดีมากในการรักษาเอกสารที่มนุษย์อ่านได้
pdftotext -layout $1.pdf $1.txt
ข้อคัดค้านของ OP ต่อimagemagick
วิธีแก้ปัญหาที่เสนอโดยpidosaurusคือรูปภาพไม่มีข้อความที่แตกได้ เมื่อยูทิลิตี้ที่ฉันระบุไว้ตอนนี้ OP จะมีรูปภาพทั้งหมดรวมถึงข้อความที่แยกออกมาทั้งหมดและหมายเลขหน้าและเนื้อหาจะยังคงอยู่ใน-layout
ตัวเลือก OP สามารถระบุหน้าที่ถูกต้องของข้อความและโยนมันลงใน.tex
ไฟล์ที่ลงท้ายด้วย%includegraphics
คำสั่งและอ้างถึงรูปภาพที่ถูกแทนที่ด้วยชื่อไฟล์ จากนั้นคุณpdflatex
นี้และจบลงด้วย .pdf pdftk
หน้าเดียวใหม่เพื่อแทรกลงในส่วนที่เหลือของเอกสารของคุณด้วย หากคุณรู้ว่าอยู่ที่ไหนในข้อความของภาพต้นฉบับที่อยู่คุณสามารถ%includegraphics [h]
และรับภาพในสถานที่ที่เหมาะสม