ฉันจะลบพื้นหลังหน้าสีเทาของการสแกนเอกสาร PDF ในขณะที่รักษาข้อความได้อย่างไร (Binarization)


9

PDF ของฉันมี 600 หน้าพร้อมรูปภาพข้อความ มันมี2 ชั้น

  • ชั้นที่ 1: ภาพสีพื้นหลัง

  • ชั้นที่ 2: รูปภาพข้อความ

ฉันต้องการลบเลเยอร์ภาพพื้นหลังทั้งหมดในไฟล์ PDF ทั้งหมดตามที่แสดงในภาพ

ป้อนคำอธิบายรูปภาพที่นี่

คุณช่วยแนะนำซอฟต์แวร์ / เครื่องมือใด ๆ ให้ฉันได้ไหม

ป้อนคำอธิบายรูปภาพที่นี่


คุณใช้ Ubuntu รุ่นใดอยู่?
มิทช์

Ubuntu 13.10, 64- บิต
Raghu G

อัปเดตคำอธิบายคำถามแล้ว
Raghu G

คำตอบ:


9

ภาพรวม

สิ่งที่คุณกำลังมองหาคือเครื่องมืออย่างScan Tailorและunpaperที่สามารถทำThresholding , Despeckling และ Noise Removalได้ เครื่องมือทั้งสองทำงานกับรูปภาพแทนที่จะเป็นไฟล์ PDF แต่คุณสามารถแปลงระหว่างรูปแบบต่างๆที่แอปพลิเคชันเหล่านี้ใช้และ PDF ได้อย่างง่ายดายโดยใช้เครื่องมือที่อธิบายไว้ท้ายคำตอบนี้

ScanTailor

คุณสามารถค้นหาวิดีโอสอนที่นี่ เอกสารอย่างกว้างขวางมากขึ้นมีอยู่ในวิกิพีเดียอย่างเป็นทางการ คุณอาจจะได้รับความสนใจมากที่สุดในหน้าเว็บในโหมดเอาท์พุทสีดำและสีขาวและตั้งค่าตัวกรอง

Unpaper

ฉันยังไม่ได้ทำงานกับunpaperตัวเอง จากสิ่งที่ฉันเข้าใจว่ามันมีคุณสมบัติมากกว่า ScanTailor แต่มันก็ยากกว่า

ไม่มีอินเตอร์เฟส GUI และคุณจะต้องใช้สวิตช์บรรทัดคำสั่งเพื่อทำงานให้เสร็จ ในทางกลับกันหมายความว่าการแปลงด้วยunpaperสามารถเป็นอัตโนมัติได้อย่างง่ายดายโดยใช้สคริปต์

คุณสามารถหาตัวอย่างการเขียนสคริปต์บางส่วนที่เกี่ยวข้องกับการแปลงการสแกนสีดำและสีขาวและลบพื้นหลังที่นี่


เครื่องมือที่มีประโยชน์บางอย่างเมื่อทำงานกับ unpaper และ ScanTailer

ฉันไม่มีเวลามากพอที่จะเขียนบทแนะนำแบบเต็มบน ScanTailor และunpaper¹ แต่นี่เป็นคำแนะนำเกี่ยวกับการแปลงระหว่าง.pdfและรูปแบบภาพที่เครื่องมือเหล่านี้สนับสนุน:

  • คุณสามารถใช้pdfimagesในการแปลงเอกสาร PDF เป็น.ppmไฟล์หน้าเดียวซึ่งสามารถอ่านunpaperได้

    ตัวอย่างการใช้งาน:

    pdfimages *.pdf ./extracted-images
  • ScanTailor ไม่ได้ใช้.ppmไฟล์เป็นอินพุต คุณจะต้องแปลงเป็นรูปแบบอื่นเช่นลดความสูญเสีย.pngก่อน mogrifyจาก imagemagickชุดเครื่องมือสามารถทำสิ่งนี้ให้คุณได้

    ตัวอย่างการใช้งาน:

    mogrify -format png *.ppm
  • รูปแบบผลลัพธ์ของ ScanTailor และ unpaper เป็น.tiffไฟล์หน้าเดียว เพื่อแปลงพวกเขากลับไป.pdfผมจะขอแนะนำให้ใช้และtiffcptiff2pdf

    ตัวอย่างการใช้งาน:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
    

การติดตั้ง

คำสั่งนี้จะติดตั้งเครื่องมือทั้งหมดที่กล่าวถึงข้างต้น:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹: สำหรับทุกคนที่อ่านข้อความนี้โปรดรวบรวมคำตอบที่ครอบคลุมมากขึ้นโดยใช้ ScanTailor และ / หรือ unpaper


Scantailer ทำงานได้ แต่ในไฟล์ pdf คุณจะต้องแปลงมันเป็นรูปแบบภาพบางส่วนก่อน
ถึง

@ToDo ใช่ตามที่ระบุไว้ในคำตอบ :)
Glutanimate

ตอนนี้ฉันรู้แล้ว จะเป็นการดีกว่าที่จะจัดระเบียบคำตอบเพื่อให้ข้อมูลทั้งหมดในแต่ละโปรแกรมอยู่ในบล็อกเดียว
ถึง

@ ToDo เหตุผลดั้งเดิมที่ฉันวางเครื่องมือในส่วนของ spearate นั้นเป็นเพราะมันเกี่ยวข้องกับทั้งกระดาษที่ยังไม่ได้เขียนและ Scantailor คุณพูดถูก แต่มันก็ไม่มีการรวบรวมกันเล็กน้อย ฉันคิดว่ามันน่าจะดีกว่าตอนนี้
ลูตานา

3

ฉันเพิ่งพบทางออกที่ง่ายมาก:

  • gscan2pdfติดตั้ง

  • เปิดgscan2pdfและนำเข้า PDF

  • Tools-> เกณฑ์ ค่าเริ่มต้นของ 80% ทำงานได้ดีสำหรับฉัน

  • บันทึก PDF ในตำแหน่งอื่น


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.