วิธีการดึงภาพจากไฟล์ PDF

49

ปัจจุบันฉันใช้โปรแกรมอ่าน PDF ของ Foxit และฉันเพิ่งดาวน์โหลดรูปภาพจากอินเทอร์เน็ต แต่มันอยู่ในไฟล์ PDF ฉันจะแยกภาพนี้ได้อย่างไร

ระบบปฏิบัติการคือ Windows 7

— studiohack
แหล่งที่มา

คุณภาพการสกัดสูงสุดของคุณจะถูกดึงไปเป็นรูปแบบใดก็ตามที่จัดเก็บภาพไว้ใน pdf (อย่างน้อยผมคิดว่าเป็นวิธีการทำงานของภาพในไฟล์ PDF.)

— นักต้มตุ๋น Quixote

4

วิธีที่รวดเร็วหากคุณไม่ต้องการความละเอียดพิกเซลของภาพคือกดปุ่ม ALT และปุ่ม Print Screen จากนั้นเลือกวางที่คุณต้องการภาพ

วิธีอื่นในการรักษาความละเอียดคือการเปิด PDF ในโปรแกรมแก้ไขภาพเช่น Adobe Photoshop และทำงานกับมันที่นั่น

— UserSuUserDo
แหล่งที่มา

1

การเปิดเอกสาร PDF ใน Photoshop ทำให้ไดอะล็อก 'Rasterize Generic PDF Format' ปรากฏขึ้นดังนั้นจึงไม่สามารถรักษาความละเอียดไว้ได้ ทดสอบกับ PS7 Photoshop รุ่นใหม่กว่าแตกต่างกันหรือไม่?

— AffineMesh

1

ดังที่คุณพูด [alt] + [prnscr] ไม่รักษาความละเอียดพิกเซลดั้งเดิม (ใช้ความละเอียดใดก็ตามที่หน้าจอ / จอภาพปัจจุบันของคุณใช้)

— Kurt Pfeifle

1

@studiohack, @UserSuUserDo: ไม่เพียง แต่คุณจะพลาดความละเอียดดั้งเดิมหากคุณใช้ [alt] + [prnscr] แต่คุณจะได้หน้าต่างโปรแกรมดู PDF ที่สมบูรณ์เป็นรูปภาพ นี่อาจจะ 'ดีพอ' สำหรับกรณีการใช้งานจำนวนมาก แต่บางครั้งคุณต้องการให้กราฟิกฝังอยู่ในหน้า PDF เท่านั้น ที่นี่pdfimages.exeมีประโยชน์

— Kurt Pfeifle

1

หรือใช้เครื่องมือสนิปใน W7 เพื่อจับภาพพื้นที่ที่คุณต้องการ

— Moab

70

หากคุณดาวน์โหลด XPDF สำหรับ Windows ( ที่นี่ ) คุณจะพบไฟล์. exe บางไฟล์อยู่ภายใน คุณสามารถรันได้โดยไม่ต้อง "ติดตั้ง" ใช้pdfimages.exeแบบนี้:

pdfimages.exe -help

นี่แสดงหน้าจอวิธีใช้

pdfimages.exe ^
    -j ^
    c:\path\to\your.pdf ^
    c:\path\to\where\you\want\images\prefix\

สิ่งนี้จะแยก JPEG ทั้งหมดออกเป็นคำนำหน้า -00N.jpg และรูปภาพอื่น ๆ ทั้งหมดเป็นคำนำหน้า -00N.ppm (Portable PixMap)

[ แก้ไขโดย ComFreek:โปรดสังเกตเครื่องหมายทับต่อท้ายในเส้นทางปลายทางซึ่งเป็นสิ่งสำคัญหากคุณไม่ต้องการแยกรูปภาพทั้งหมดลงในไดเรกทอรีแม่ของมัน] -
{ แก้ไขโดย KurtPfeifle:ฉันไม่เห็นด้วยกับความคิดเห็นของ ComFreek แต่ปล่อยไว้ ให้ผู้อ่านทดสอบและหาความแตกต่างในผลลัพธ์ด้วยตนเอง พารามิเตอร์ดั้งเดิมของฉันไม่ได้ใช้เครื่องหมายสแลชต่อท้ายเช่นเดียวกับที่..\prefixจะนำหน้าชื่ออิมเมจที่ใช้สำหรับไฟล์ที่แตกออกมา}

pdfimages.exe ^
    -j ^
    -f 11 ^
    -l 13 ^
    c:\path\to\your.pdf ^
    c:\path\to\where\you\want\images\prefix\

เหมือนเมื่อก่อน แต่ จำกัด การแยกภาพเป็นหน้า 11 ('f' = แรก) ถึง 13 ('l' = ล่าสุด)

ปรับปรุง:

ในขณะเดียวกันฉันชอบเวอร์ชั่นของ Popplerpdfimages - โดยเฉพาะอย่างยิ่งเมื่อมันได้รับคุณสมบัติใหม่นี้: เพิ่ม-listไปยัง commandline เพื่อแสดงรายการ (ไม่แยก) ภาพที่อยู่ใน PDF รวมถึงคุณสมบัติบางอย่างของมัน ตัวอย่าง:

pdfimages -list -f 7 -l 8 ct-magazin-14-2012.pdf

  หน้า num ชนิดความกว้างความสูงสีคอมพ์ bpc enc รหัสวัตถุ interp
  -------------------------------------------------- -------------------
     7 0 ภาพ 581 838 rgb 3 8 jpeg no 39 0
     7 1 ภาพ 4 4 rgb 3 8 ภาพ no 40 0
     7 2 image 314 332 rgb 3 8 jpx no 44 0
     7 3 ภาพ 358 430 rgb 3 8 jpx no 45 0
     7 4 ภาพ 4 4 rgb 3 8 ภาพ no 46 0
     7 5 ภาพ 4 4 rgb 3 8 ภาพ no 47 0
     7 6 image 4 6 rgb 3 8 ภาพ no 48 0
     7 7 ภาพ 596 462 rgb 3 8 jpx no 49 0
     7 8 ภาพ 4 6 rgb 3 8 ภาพ no 50 0
     7 9 ภาพ 4 4 rgb 3 8 ภาพ no 51 0
     7 10 ภาพ 8 10 rgb 3 8 ภาพหมายเลข 41 0
     7 11 ภาพ 6 6 rgb 3 8 ภาพที่ 42 0
     7 12 ภาพ 113 27 rgb 3 8 jpx no 43 0
     8 13 ภาพ 582 839 สีเทา 1 8 jpeg no 2080 0
     8 14 ภาพ 344 364 สีเทา 1 8 jpx no 2079 0

หมายเหตุอีกครั้ง: รุ่นนี้เป็นรุ่นpdfimagesหนึ่งจาก Poppler (รุ่นหนึ่งจาก XPDF ไม่ได้ (ยัง?) รองรับคุณสมบัติใหม่นี้) และรุ่นต้องเป็น v0.20.2 หรือใหม่กว่า

— เคิร์ตไฟเฟิล
แหล่งที่มา

1

@harlev: Google สำหรับImageMagick มันมีเครื่องมือ commandline convertที่สามารถแปลงอะไรเพื่ออะไรที่เรียกว่า พร้อมใช้งานสำหรับ Linux, Windows, MacOS X และมีอะไรบ้าง กรณีใช้งานที่ง่ายที่สุดสำหรับคุณ: convert some.ppm some.jpeg.

— Kurt Pfeifle

3

หมายเหตุ: XPDF ไม่ได้รับการดูแลอย่างแข็งขันเช่นเดียวกับห้องสมุด popplerซึ่งแยกจากกันเมื่อไม่นานมานี้ Poppler ให้pdfimagesเช่นกันและบางคนอาจต้องการใช้สิ่งนั้น

— MvG

1

@BurhanKhalid: ไบนารีที่สร้างไว้ล่วงหน้าอยู่ที่นี่: sourceforge.net/projects/poppler-win32

— Kurt Pfeifle

2

@KurtPfeifle แต่น่าเสียดายที่ไฟล์เหล่านั้นไม่มีไฟล์ exe เลย

— Chris

3

ฉันรู้ว่ามันเก่า แต่อยากจะแบ่งปันหากใครกำลังมองหาไบนารีไบนารีของ Windows คุณสามารถหาได้ที่นี่blog.alivate.com.au/poppler-windows

— Aivan Monceller

8

คุณสามารถลองนำเข้า PDF ไปยังInkscapeและทำงานจากที่นั่น Inkscape จะเปิดเพียงหนึ่งหน้าในเวลา แต่จะให้คุณควบคุมเนื้อหาของหน้าได้อย่างสมบูรณ์ คุณจะสามารถแยกและจัดการกับกราฟิกแบบเวกเตอร์จาก PDF ได้อย่างง่ายดาย

อย่างไรก็ตามหากคุณต้องการแยกภาพแรสเตอร์จาก PDF ฉันค่อนข้างมั่นใจว่าpdfimagesจาก XPDF นั้นง่ายกว่า (แต่คุณยังสามารถลองใช้ Inkscape ได้หลังจากเรียนรู้วิธีดึงภาพที่ฝังมาจากไฟล์ SVG )

— Denilson Sá Maia
แหล่งที่มา

GIMP ( gimp.org ) เป็นอีกเครื่องมือการออกแบบกราฟิกที่สามารถนำเข้าและจัดการไฟล์ PDF ไม่แน่ใจว่าความสามารถของ GIMP แตกต่างกับ Inkscape อย่างไร

— coderworks

@coderworks: GIMP จะแปลงหน้า PDF ที่นำเข้ามาเป็นความละเอียดที่กำหนด มันจะดีกว่าการใช้ "Print Screen" เล็กน้อย ในทางกลับกัน Inkscape จะรักษาข้อมูลเวกเตอร์ดั้งเดิมเช่นเดียวกับภาพแรสเตอร์ดั้งเดิม

— Denilson Sá Maia

5

โดยไม่ต้องติดตั้งซอฟต์แวร์ใด ๆ คุณสามารถเปลี่ยนเป็นPDF-XChange Viewer (เลือกรุ่นพกพา ) ซึ่งมีความสามารถนี้อยู่ในตัวแล้ว

ส่งออกหน้าทั้งหมดหรือที่เลือกไว้เป็นรูปภาพ
รูปแบบผลลัพธ์: PNG, JPG, TIFF, BMP
เลือก DPI, ระดับการบีบอัด, ระดับสีเทา
สามารถบันทึกหลาย ๆ หน้าเป็น TIFF แบบหลายหน้าได้

^{คลิกเพื่อดูภาพขยาย}

โปรดระวังในขณะที่วิธีนี้แปลงหน้า PDF ทั้งหมดเป็นภาพวิธีการอธิบายจาก @Laurenz โดยใช้ Sumatra PDFนั้นเหนือกว่าถ้าคุณต้องการดึงภาพจากหน้า PDF ที่มีเนื้อหาผสม (รูปภาพ + ข้อความ) เพื่อให้ได้ภาพเท่านั้น

— nixda
แหล่งที่มา

2

@MarkSeemann ฉันไม่สามารถติดตามได้ "โดยไม่ต้องติดตั้งซอฟต์แวร์ใด ๆ " หมายถึงในบริบทนี้ว่ามีรุ่นพกพาให้ใช้งาน ซอฟต์แวร์แบบพกพาไม่สามารถ "ติดตั้ง" ต่อคำจำกัดความ คุณเพียงแค่ดาวน์โหลดแยกและเริ่มมัน

— nixda

3

ความจริงที่ว่าคุณต้อง "เลือก DPI" เอาชนะวัตถุประสงค์ คุณกำลังปรับขนาดภาพแรสเตอร์ (อาร์เรย์พิกเซล) และการปรับขนาดภาพแรสเตอร์ใด ๆ จะส่งผลให้คุณภาพและข้อมูลสูญหาย

— anthony

แปลงไฟล์ PPM เป็น png หรือ jpeg?

— Kiquenet

4

Sumatra PDFเป็นโปรแกรมอ่าน PDF แบบโอเพ่นซอร์สที่รวดเร็วและน้ำหนักเบาที่สามารถคัดลอกรูปภาพไปยังคลิปบอร์ดได้โดยตรงโดยไม่ต้องมีการแปลงซ้ำ

— Laurenz
แหล่งที่มา

3

MuPDFเป็นโปรแกรมดู PDF แบบหลากหลาย (สร้างในปี 2549) (เดสก์ท็อปและมือถือ) ที่เปิดตัวภายใต้ใบอนุญาต AGPL มันจะยังคงอยู่โดยคนเดียวกันของGhostscript

มันมีเครื่องมือบรรทัดคำสั่งเพื่อดึงภาพจาก PDF:

mutool extract [options] file.pdf [object numbers]

คำสั่งดึงข้อมูลสามารถใช้เพื่อแยกรูปภาพและไฟล์ฟอนต์จาก PDF หากไม่มีการระบุหมายเลขวัตถุในบรรทัดคำสั่งรูปภาพและแบบอักษรทั้งหมดจะถูกแตกออกมา

-p password
       Use the specified password if the file is encrypted.

-r     Convert images to RGB when extracting them.

— Denilson Sá Maia
แหล่งที่มา

2

ใช้จากpdftocairo poppler toolkitมันสามารถแยกและแปลงภาพของไฟล์ PDF เป็นรูปแบบที่ต้องการ มันสร้างภาพเสมอและไม่เคยสร้าง ppm หรือเล่นลูกเต๋าชนิดหนึ่งเช่นนั้น คำสั่งดังต่อไปนี้ปกปิดหน้า pdf เพื่อภาพ jpg ของมัน:

pdftocairo.exe -jpeg "my.pdf" "my"

คุณสามารถรับได้จากที่นี่สำหรับ windows: http://blog.alivate.com.au/poppler-windows/

มีให้ใน Linux ด้วย

— MSS
แหล่งที่มา

คำสั่งนี้จะไม่สกัดภาพที่ฝังอยู่ในไฟล์ PDF (ตามที่ OP ระบุ) แต่จะแปลงหน้า PDF ที่สมบูรณ์ให้เป็นรูปแบบภาพแทน คำตอบนี้ไม่ตรงกับคำถามที่ถาม

— Kurt Pfeifle

1

http://www.sumnotes.net/เป็นเครื่องมือออนไลน์ในการแยกบันทึกย่อไฮไลท์และรูปภาพ ฉันใช้มันที่มหาวิทยาลัยอย่างกว้างขวางสำหรับวิทยานิพนธ์ของฉันและฉันก็พอใจจริงๆ

— ทิโมธี
แหล่งที่มา

เชิงพาณิชย์พร้อมทดลองใช้ฟรีจำนวน จำกัด นอกจากนี้ยังเป็นออนไลน์ซึ่งหมายความว่าไม่สามารถรับประกันความเป็นส่วนตัวได้!

— แอนโธนี

-1

โดยปกติฉันจะแยกภาพที่ฝังอยู่ด้วย 'pdfimages' ที่ความละเอียดดั้งเดิมแล้วใช้ ImageMagick's conversion เป็นรูปแบบที่ต้องการ:

$ pdfimages -list fileName.pdf
$ pdfimages fileName.pdf fileName   # save in .ppm format
$ convert fileName-000.ppm fileName-000.png

สิ่งนี้จะสร้างไฟล์ผลลัพธ์ที่ดีที่สุดและเล็กที่สุด

หมายเหตุ: สำหรับภาพที่ฝัง JPG แบบสูญหายคุณต้องใช้ -j:

$ pdfimages -j fileName.pdf fileName   # save in .jpg format

บนแพลตฟอร์ม Win ที่ให้มาเล็กน้อยคุณต้องดาวน์โหลดไบนารี 'poppler-util' ไบนารีล่าสุด (0.37, 2015) จาก: http://blog.alivate.com.au/poppler-windows/

อัปเดต: เมื่อเร็ว ๆ นี้ "poppler-util" 0.50+ (2016), pdfunite มีตัวเลือก "-all" เพื่อแยกบิตแมปที่บีบอัดแบบ lossless เป็น. png และบิตแมปที่บีบอัดแบบ lossy เป็น. jpg ดังนั้นง่าย:

$ pdfimages -all fileName.pdf ชื่อไฟล์ทั้งหมด

แยกเนื้อหาที่มีคุณภาพดีที่สุดจาก PDF เสมอ

— Valerio
แหล่งที่มา

ก่อนหน้านี้เคยอยู่ในคำตอบของ Kurt Pfeifle

— daniel.neumann