ฉันมีไฟล์ PDF ที่มีแผนที่อาคารที่ฉันทำงานอยู่ที่นี่:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
ไฟล์ต้นฉบับต้นฉบับหายไปและฉันถูกขอให้ดึงภาพแผนที่โดยเฉพาะอย่างยิ่งถ้าไม่มีข้อความและไอคอนที่ซ้อนทับอยู่ด้านบน สิ่งนี้ได้พิสูจน์แล้วว่าเป็นเรื่องยากลำบาก
จนถึงตอนนี้ฉันได้ลองใช้โปรแกรม GUI ต่อไปนี้:
- Adobe Reader: ให้ฉันเลือกข้อความ แต่ไม่ใช่ภาพพื้นหลัง
- FoxIt PDF Viewer: ให้ฉันเลือกข้อความได้ แต่ไม่ใช่ภาพพื้นหลัง
- XPDF บน Ubuntu 10.10: อนุญาตให้เลือกข้อความ แต่ไม่ใช่ภาพพื้นหลัง
และโปรแกรมบรรทัดคำสั่งต่อไปนี้:
- pdfimages: แยกไอคอนระบุห้องน้ำได้ดี แต่ไม่ใช่ภาพพื้นหลัง
- pdftohtml: เหมือนกับ pdfimages และมันทำให้เอกสาร HTML ที่ทำเครื่องหมายไม่ดี
- pdfextract: เหมือนกับ pdfimages
- แปลง: บันทึกภาพสำเร็จ แต่ด้วยข้อความที่ถูกเผาเข้าไป
ฉันได้ลองเปิด PDF ด้วยตนเองในโปรแกรมแก้ไขข้อความและแยกวัตถุสตรีมโดยวางลงในไฟล์ใหม่และบันทึกด้วยนามสกุล. jpg, .png หรือ. bmp (แต่ละอัน) เมื่อพิจารณาถึงความรู้เกี่ยวกับโครงสร้างภายในของไฟล์ PDF ฉันไม่แปลกใจเลยว่ามันไม่ได้ผล
ดังนั้น ... มีวิธีใดบ้างที่ฉันสามารถดึงภาพแผนที่จากสิ่งนี้โดยไม่ได้รับข้อความและไอคอน?
qpdf
ในการแปลงส่วนไบนารีเป็น ASCII เท่าที่จะทำได้ (2) ใช้โปรแกรมแก้ไขข้อความเพื่อทำให้ข้อความทั้งหมดที่มองไม่เห็นที่ฉันไม่ต้องการเห็นบนหน้าจอหรือในงานพิมพ์ (สามารถทำได้อย่างง่ายดายและไม่มีความเสียหายกับตาราง XRef โดยการสลับธงที่มองไม่เห็น ) (3) กลั่นผลลัพธ์อีกครั้งด้วย Ghostscript เพื่อลดขนาดให้มากที่สุด - น่าเสียดายที่ไฟล์ของคุณไม่สามารถดาวน์โหลดได้อีกต่อไปเพื่อแสดงขั้นตอน ...