PDF ของฉันมี 600 หน้าพร้อมรูปภาพข้อความ มันมี2 ชั้น
ชั้นที่ 1: ภาพสีพื้นหลัง
ชั้นที่ 2: รูปภาพข้อความ
ฉันต้องการลบเลเยอร์ภาพพื้นหลังทั้งหมดในไฟล์ PDF ทั้งหมดตามที่แสดงในภาพ
คุณช่วยแนะนำซอฟต์แวร์ / เครื่องมือใด ๆ ให้ฉันได้ไหม
PDF ของฉันมี 600 หน้าพร้อมรูปภาพข้อความ มันมี2 ชั้น
ชั้นที่ 1: ภาพสีพื้นหลัง
ชั้นที่ 2: รูปภาพข้อความ
ฉันต้องการลบเลเยอร์ภาพพื้นหลังทั้งหมดในไฟล์ PDF ทั้งหมดตามที่แสดงในภาพ
คุณช่วยแนะนำซอฟต์แวร์ / เครื่องมือใด ๆ ให้ฉันได้ไหม
คำตอบ:
ภาพรวม
สิ่งที่คุณกำลังมองหาคือเครื่องมืออย่างScan Tailorและunpaperที่สามารถทำThresholding , Despeckling และ Noise Removalได้ เครื่องมือทั้งสองทำงานกับรูปภาพแทนที่จะเป็นไฟล์ PDF แต่คุณสามารถแปลงระหว่างรูปแบบต่างๆที่แอปพลิเคชันเหล่านี้ใช้และ PDF ได้อย่างง่ายดายโดยใช้เครื่องมือที่อธิบายไว้ท้ายคำตอบนี้
ScanTailor
คุณสามารถค้นหาวิดีโอสอนที่นี่ เอกสารอย่างกว้างขวางมากขึ้นมีอยู่ในวิกิพีเดียอย่างเป็นทางการ คุณอาจจะได้รับความสนใจมากที่สุดในหน้าเว็บในโหมดเอาท์พุทสีดำและสีขาวและตั้งค่าตัวกรอง
Unpaper
ฉันยังไม่ได้ทำงานกับunpaper
ตัวเอง จากสิ่งที่ฉันเข้าใจว่ามันมีคุณสมบัติมากกว่า ScanTailor แต่มันก็ยากกว่า
ไม่มีอินเตอร์เฟส GUI และคุณจะต้องใช้สวิตช์บรรทัดคำสั่งเพื่อทำงานให้เสร็จ ในทางกลับกันหมายความว่าการแปลงด้วยunpaper
สามารถเป็นอัตโนมัติได้อย่างง่ายดายโดยใช้สคริปต์
คุณสามารถหาตัวอย่างการเขียนสคริปต์บางส่วนที่เกี่ยวข้องกับการแปลงการสแกนสีดำและสีขาวและลบพื้นหลังที่นี่
เครื่องมือที่มีประโยชน์บางอย่างเมื่อทำงานกับ unpaper และ ScanTailer
ฉันไม่มีเวลามากพอที่จะเขียนบทแนะนำแบบเต็มบน ScanTailor และunpaper¹ แต่นี่เป็นคำแนะนำเกี่ยวกับการแปลงระหว่าง.pdf
และรูปแบบภาพที่เครื่องมือเหล่านี้สนับสนุน:
คุณสามารถใช้pdfimages
ในการแปลงเอกสาร PDF เป็น.ppm
ไฟล์หน้าเดียวซึ่งสามารถอ่านunpaper
ได้
ตัวอย่างการใช้งาน:
pdfimages *.pdf ./extracted-images
ScanTailor ไม่ได้ใช้.ppm
ไฟล์เป็นอินพุต คุณจะต้องแปลงเป็นรูปแบบอื่นเช่นลดความสูญเสีย.png
ก่อน mogrify
จาก imagemagick
ชุดเครื่องมือสามารถทำสิ่งนี้ให้คุณได้
ตัวอย่างการใช้งาน:
mogrify -format png *.ppm
รูปแบบผลลัพธ์ของ ScanTailor และ unpaper เป็น.tiff
ไฟล์หน้าเดียว เพื่อแปลงพวกเขากลับไป.pdf
ผมจะขอแนะนำให้ใช้และtiffcp
tiff2pdf
ตัวอย่างการใช้งาน:
tiffcp *.tiff all.tiff
tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
การติดตั้ง
คำสั่งนี้จะติดตั้งเครื่องมือทั้งหมดที่กล่าวถึงข้างต้น:
sudo apt-get install scantailor unpaper poppler-utils libtiff-tools
¹: สำหรับทุกคนที่อ่านข้อความนี้โปรดรวบรวมคำตอบที่ครอบคลุมมากขึ้นโดยใช้ ScanTailor และ / หรือ unpaper
ฉันเพิ่งพบทางออกที่ง่ายมาก:
gscan2pdf
ติดตั้ง
เปิดgscan2pdf
และนำเข้า PDF
Tools-> เกณฑ์ ค่าเริ่มต้นของ 80% ทำงานได้ดีสำหรับฉัน
บันทึก PDF ในตำแหน่งอื่น
บางทีโปรแกรมแก้ไข PDF Masterสามารถช่วยคุณได้แม้ว่าฉันจะไม่พบวิธีการนี้โดยอัตโนมัติในหน้า 600