ปัจจุบันฉันใช้โปรแกรมอ่าน PDF ของ Foxit และฉันเพิ่งดาวน์โหลดรูปภาพจากอินเทอร์เน็ต แต่มันอยู่ในไฟล์ PDF ฉันจะแยกภาพนี้ได้อย่างไร
ระบบปฏิบัติการคือ Windows 7
ปัจจุบันฉันใช้โปรแกรมอ่าน PDF ของ Foxit และฉันเพิ่งดาวน์โหลดรูปภาพจากอินเทอร์เน็ต แต่มันอยู่ในไฟล์ PDF ฉันจะแยกภาพนี้ได้อย่างไร
ระบบปฏิบัติการคือ Windows 7
คำตอบ:
วิธีที่รวดเร็วหากคุณไม่ต้องการความละเอียดพิกเซลของภาพคือกดปุ่ม ALT และปุ่ม Print Screen จากนั้นเลือกวางที่คุณต้องการภาพ
วิธีอื่นในการรักษาความละเอียดคือการเปิด PDF ในโปรแกรมแก้ไขภาพเช่น Adobe Photoshop และทำงานกับมันที่นั่น
pdfimages.exe
มีประโยชน์
หากคุณดาวน์โหลด XPDF สำหรับ Windows ( ที่นี่ ) คุณจะพบไฟล์. exe บางไฟล์อยู่ภายใน คุณสามารถรันได้โดยไม่ต้อง "ติดตั้ง" ใช้pdfimages.exe
แบบนี้:
pdfimages.exe -help
นี่แสดงหน้าจอวิธีใช้
pdfimages.exe ^
-j ^
c:\path\to\your.pdf ^
c:\path\to\where\you\want\images\prefix\
สิ่งนี้จะแยก JPEG ทั้งหมดออกเป็นคำนำหน้า -00N.jpg และรูปภาพอื่น ๆ ทั้งหมดเป็นคำนำหน้า -00N.ppm (Portable PixMap)
[ แก้ไขโดย ComFreek:โปรดสังเกตเครื่องหมายทับต่อท้ายในเส้นทางปลายทางซึ่งเป็นสิ่งสำคัญหากคุณไม่ต้องการแยกรูปภาพทั้งหมดลงในไดเรกทอรีแม่ของมัน] -
{ แก้ไขโดย KurtPfeifle:ฉันไม่เห็นด้วยกับความคิดเห็นของ ComFreek แต่ปล่อยไว้ ให้ผู้อ่านทดสอบและหาความแตกต่างในผลลัพธ์ด้วยตนเอง พารามิเตอร์ดั้งเดิมของฉันไม่ได้ใช้เครื่องหมายสแลชต่อท้ายเช่นเดียวกับที่..\prefix
จะนำหน้าชื่ออิมเมจที่ใช้สำหรับไฟล์ที่แตกออกมา}
pdfimages.exe ^
-j ^
-f 11 ^
-l 13 ^
c:\path\to\your.pdf ^
c:\path\to\where\you\want\images\prefix\
เหมือนเมื่อก่อน แต่ จำกัด การแยกภาพเป็นหน้า 11 ('f' = แรก) ถึง 13 ('l' = ล่าสุด)
ในขณะเดียวกันฉันชอบเวอร์ชั่นของ Popplerpdfimages
- โดยเฉพาะอย่างยิ่งเมื่อมันได้รับคุณสมบัติใหม่นี้: เพิ่ม-list
ไปยัง commandline เพื่อแสดงรายการ (ไม่แยก) ภาพที่อยู่ใน PDF รวมถึงคุณสมบัติบางอย่างของมัน ตัวอย่าง:
pdfimages -list -f 7 -l 8 ct-magazin-14-2012.pdf หน้า num ชนิดความกว้างความสูงสีคอมพ์ bpc enc รหัสวัตถุ interp -------------------------------------------------- ------------------- 7 0 ภาพ 581 838 rgb 3 8 jpeg no 39 0 7 1 ภาพ 4 4 rgb 3 8 ภาพ no 40 0 7 2 image 314 332 rgb 3 8 jpx no 44 0 7 3 ภาพ 358 430 rgb 3 8 jpx no 45 0 7 4 ภาพ 4 4 rgb 3 8 ภาพ no 46 0 7 5 ภาพ 4 4 rgb 3 8 ภาพ no 47 0 7 6 image 4 6 rgb 3 8 ภาพ no 48 0 7 7 ภาพ 596 462 rgb 3 8 jpx no 49 0 7 8 ภาพ 4 6 rgb 3 8 ภาพ no 50 0 7 9 ภาพ 4 4 rgb 3 8 ภาพ no 51 0 7 10 ภาพ 8 10 rgb 3 8 ภาพหมายเลข 41 0 7 11 ภาพ 6 6 rgb 3 8 ภาพที่ 42 0 7 12 ภาพ 113 27 rgb 3 8 jpx no 43 0 8 13 ภาพ 582 839 สีเทา 1 8 jpeg no 2080 0 8 14 ภาพ 344 364 สีเทา 1 8 jpx no 2079 0
หมายเหตุอีกครั้ง: รุ่นนี้เป็นรุ่นpdfimages
หนึ่งจาก Poppler (รุ่นหนึ่งจาก XPDF ไม่ได้ (ยัง?) รองรับคุณสมบัติใหม่นี้) และรุ่นต้องเป็น v0.20.2 หรือใหม่กว่า
convert
ที่สามารถแปลงอะไรเพื่ออะไรที่เรียกว่า พร้อมใช้งานสำหรับ Linux, Windows, MacOS X และมีอะไรบ้าง กรณีใช้งานที่ง่ายที่สุดสำหรับคุณ: convert some.ppm some.jpeg
.
pdfimages
เช่นกันและบางคนอาจต้องการใช้สิ่งนั้น
คุณสามารถลองนำเข้า PDF ไปยังInkscapeและทำงานจากที่นั่น Inkscape จะเปิดเพียงหนึ่งหน้าในเวลา แต่จะให้คุณควบคุมเนื้อหาของหน้าได้อย่างสมบูรณ์ คุณจะสามารถแยกและจัดการกับกราฟิกแบบเวกเตอร์จาก PDF ได้อย่างง่ายดาย
อย่างไรก็ตามหากคุณต้องการแยกภาพแรสเตอร์จาก PDF ฉันค่อนข้างมั่นใจว่าpdfimages
จาก XPDF นั้นง่ายกว่า (แต่คุณยังสามารถลองใช้ Inkscape ได้หลังจากเรียนรู้วิธีดึงภาพที่ฝังมาจากไฟล์ SVG )
โดยไม่ต้องติดตั้งซอฟต์แวร์ใด ๆ คุณสามารถเปลี่ยนเป็นPDF-XChange Viewer (เลือกรุ่นพกพา ) ซึ่งมีความสามารถนี้อยู่ในตัวแล้ว
สามารถบันทึกหลาย ๆ หน้าเป็น TIFF แบบหลายหน้าได้
โปรดระวังในขณะที่วิธีนี้แปลงหน้า PDF ทั้งหมดเป็นภาพวิธีการอธิบายจาก @Laurenz โดยใช้ Sumatra PDFนั้นเหนือกว่าถ้าคุณต้องการดึงภาพจากหน้า PDF ที่มีเนื้อหาผสม (รูปภาพ + ข้อความ) เพื่อให้ได้ภาพเท่านั้น
Sumatra PDFเป็นโปรแกรมอ่าน PDF แบบโอเพ่นซอร์สที่รวดเร็วและน้ำหนักเบาที่สามารถคัดลอกรูปภาพไปยังคลิปบอร์ดได้โดยตรงโดยไม่ต้องมีการแปลงซ้ำ
MuPDFเป็นโปรแกรมดู PDF แบบหลากหลาย (สร้างในปี 2549) (เดสก์ท็อปและมือถือ) ที่เปิดตัวภายใต้ใบอนุญาต AGPL มันจะยังคงอยู่โดยคนเดียวกันของGhostscript
มันมีเครื่องมือบรรทัดคำสั่งเพื่อดึงภาพจาก PDF:
mutool extract [options] file.pdf [object numbers]
คำสั่งดึงข้อมูลสามารถใช้เพื่อแยกรูปภาพและไฟล์ฟอนต์จาก PDF หากไม่มีการระบุหมายเลขวัตถุในบรรทัดคำสั่งรูปภาพและแบบอักษรทั้งหมดจะถูกแตกออกมา
-p password
Use the specified password if the file is encrypted.
-r Convert images to RGB when extracting them.
ใช้จากpdftocairo
poppler toolkit
มันสามารถแยกและแปลงภาพของไฟล์ PDF เป็นรูปแบบที่ต้องการ มันสร้างภาพเสมอและไม่เคยสร้าง ppm หรือเล่นลูกเต๋าชนิดหนึ่งเช่นนั้น คำสั่งดังต่อไปนี้ปกปิดหน้า pdf เพื่อภาพ jpg ของมัน:
pdftocairo.exe -jpeg "my.pdf" "my"
คุณสามารถรับได้จากที่นี่สำหรับ windows: http://blog.alivate.com.au/poppler-windows/
มีให้ใน Linux ด้วย
http://www.sumnotes.net/เป็นเครื่องมือออนไลน์ในการแยกบันทึกย่อไฮไลท์และรูปภาพ ฉันใช้มันที่มหาวิทยาลัยอย่างกว้างขวางสำหรับวิทยานิพนธ์ของฉันและฉันก็พอใจจริงๆ
โดยปกติฉันจะแยกภาพที่ฝังอยู่ด้วย 'pdfimages' ที่ความละเอียดดั้งเดิมแล้วใช้ ImageMagick's conversion เป็นรูปแบบที่ต้องการ:
$ pdfimages -list fileName.pdf
$ pdfimages fileName.pdf fileName # save in .ppm format
$ convert fileName-000.ppm fileName-000.png
สิ่งนี้จะสร้างไฟล์ผลลัพธ์ที่ดีที่สุดและเล็กที่สุด
หมายเหตุ: สำหรับภาพที่ฝัง JPG แบบสูญหายคุณต้องใช้ -j:
$ pdfimages -j fileName.pdf fileName # save in .jpg format
บนแพลตฟอร์ม Win ที่ให้มาเล็กน้อยคุณต้องดาวน์โหลดไบนารี 'poppler-util' ไบนารีล่าสุด (0.37, 2015) จาก: http://blog.alivate.com.au/poppler-windows/
อัปเดต: เมื่อเร็ว ๆ นี้ "poppler-util" 0.50+ (2016), pdfunite มีตัวเลือก "-all" เพื่อแยกบิตแมปที่บีบอัดแบบ lossless เป็น. png และบิตแมปที่บีบอัดแบบ lossy เป็น. jpg ดังนั้นง่าย:
$ pdfimages -all fileName.pdf ชื่อไฟล์ทั้งหมด
แยกเนื้อหาที่มีคุณภาพดีที่สุดจาก PDF เสมอ