ตกลง ... ฉันคิดว่าpdflatexเป็นส่วนที่ขาดหายไปที่นี่
สหกรณ์กล่าวว่าเขาได้มองเข้าไปในและpoppler-utils ผมขอเพิ่มว่าpdftk pdfimagesเหล่านี้พร้อมกับpdflatexเป็นชิ้นส่วนของการแก้ปัญหา
pdfimages -f 4 -l 20 -j -png target.pdf imageroot
ในรหัสตัวอย่างข้างต้นpdfimages ลักษณ์ผ่านหน้า 4 ถึง 20 และสารสกัดจากภาพทั้งหมดลงในไฟล์ที่มีชื่อขึ้นต้น target.pdfimageroot
poppler-utilspdftotextให้ ฉันแนะนำ-layoutตัวเลือกที่ใช้งานได้ดีมากในการรักษาเอกสารที่มนุษย์อ่านได้
pdftotext -layout $1.pdf $1.txt
ข้อคัดค้านของ OP ต่อimagemagickวิธีแก้ปัญหาที่เสนอโดยpidosaurusคือรูปภาพไม่มีข้อความที่แตกได้ เมื่อยูทิลิตี้ที่ฉันระบุไว้ตอนนี้ OP จะมีรูปภาพทั้งหมดรวมถึงข้อความที่แยกออกมาทั้งหมดและหมายเลขหน้าและเนื้อหาจะยังคงอยู่ใน-layoutตัวเลือก OP สามารถระบุหน้าที่ถูกต้องของข้อความและโยนมันลงใน.texไฟล์ที่ลงท้ายด้วย%includegraphicsคำสั่งและอ้างถึงรูปภาพที่ถูกแทนที่ด้วยชื่อไฟล์ จากนั้นคุณpdflatexนี้และจบลงด้วย .pdf pdftkหน้าเดียวใหม่เพื่อแทรกลงในส่วนที่เหลือของเอกสารของคุณด้วย หากคุณรู้ว่าอยู่ที่ไหนในข้อความของภาพต้นฉบับที่อยู่คุณสามารถ%includegraphics [h]และรับภาพในสถานที่ที่เหมาะสม