เหตุใด PDF ที่สร้างจาก MS Word จึงมีขนาดใหญ่มาก


70

ฉันสร้างเอกสาร MS Word อย่างง่ายที่มีเพียงประโยคนี้:

นี่เป็นเอกสารขนาดเล็ก

ไม่มีอะไรอีกแล้ว. จากนั้นฉันได้บันทึกเอกสารนี้เป็น DOCX และ PDF นี่คือขนาดไฟล์:

DOCX: 12 kB
PDF: 89 kB

ความแตกต่างนี้มีขนาดใหญ่มากในทางเทคนิคและมันเริ่มรบกวนฉันจริง ๆ เมื่อเอกสารต้นฉบับที่มีขนาดเป็นหมื่น kBใน DOCX เริ่มสร้าง PDF ที่มีขนาดใหญ่หลายร้อย kB ไม่มีประสิทธิภาพอะไรเกี่ยวกับรูปแบบ PDF? หรือว่าเป็นเพียงแค่ Word ใช้อัลกอริทึมเอาต์พุตที่น่ากลัว

BTW, การตั้งค่าเอาต์พุต PDF ถูกตั้งค่าให้สร้างไฟล์ที่เล็กที่สุดเท่าที่จะเป็นไปได้:

ตัวเลือกเอาต์พุต PDF


28
ฉันเดาว่า PDF จะฝังแบบอักษรซึ่งจำเป็นถ้าเอกสารจะต้องพกพาอย่างแท้จริง
AFH

2
ใช่ชุดย่อยแบบอักษรจะถูกฝัง นั่นอาจเป็นได้ ฉันพยายามที่จะทำซ้ำประโยคเดิมสองสามร้อยครั้งและขนาดไฟล์ PDF เพิ่มขึ้นเพียง 4 kB ซึ่งใกล้เคียงแล้ว (DOCX อยู่ที่ 12kB ซึ่งไม่น่าแปลกใจเพราะเป็นรูปแบบซิปและข้อความซ้ำจะแทบไม่ต้องใช้ไบต์ใหม่ใด ๆ )
Borek Bernard

1
@AFH มันไม่ได้ฝัง Arial i.stack.imgur.com/aUZgt.png
MonkeyZeus

1
เมื่อพิจารณาจากจุดยืนความซับซ้อนของ Kolmogorov แล้ว Microsoft Word จะใหญ่กว่าโปรแกรมดู PDF ทั่วไปของคุณมากกว่าสองสามร้อย kB
ฮอบส์

8
ฉันคิดว่าคำถามจริงคือทำไมรูปแบบการประมวลผลคำของคุณจึงใหญ่กว่า LaTeX ที่เท่ากัน ... :-p
Toby Speight

คำตอบ:


104

หากคุณเปิด PDF ในแผ่นจดบันทึก ++ คุณจะพบ:

9 0 obj
<</Filter/FlateDecode/Length 79100/Length1 171804>>
stream
xœì}    XTGºvÕ9½/t7Ðl
..... many more bytes  ...   ëH|  
endstream
endobj
10 0 obj

และวัตถุนั้นถูกอ้างถึงที่นี่ในตอนท้ายในคำสั่ง / FontFile2:

6 0 obj
<</Type/FontDescriptor/FontName/ABCDEE+Calibri/Flags 32/ItalicAngle 0/Ascent 750/Descent -250/CapHeight 750/AvgWidth 521/MaxWidth 1743/FontWeight 400/XHeight 250/StemV 52/FontBBox[ -503 -250 1240 750] /FontFile2 9 0 R>>
endobj

แบบอักษรที่ใช้ในเอกสาร Word จะถูกฝังลงใน PDF ดังนั้น PDF จึงมีอยู่ในตัว

ฉันใช้สไลด์เดสก์ท็อปนี้เพื่อแยกคำแนะนำ PDF ออก

หากคุณต้องการป้องกันไม่ให้ฟอนต์ฝังอยู่ในไฟล์ PDF ตรวจสอบให้แน่ใจว่าเอกสาร Word ของคุณใช้หนึ่งใน 14 รูปแบบมาตรฐานที่มีอยู่ในโปรแกรมดู PDF (ซอร์สWikipedia )

  • Times New Roman> Times (v3) (ตามปกติตัวเอียงตัวหนาและตัวหนาตัวหนา)
  • Courier ใหม่> Courier (ปกติเฉียงเอียงหนาและหนา)
  • Arial> Helvetica (v3) (ปกติเฉียงเอียงหนาและหนา)
  • สัญลักษณ์> สัญลักษณ์
  • Wingdings> Zapf Dingbats

6
ที่เกี่ยวข้อง: superuser.com/questions/607840/…
Borek Bernard

2
Sidenote: เด็คสไลด์ที่เชื่อมโยง (การนำเสนอ Powershell) มีค่าที่ควรอ่าน มีรายละเอียดมาก อย่าพลาดความคิดเห็นที่เขาอธิบายถึงโครงสร้างของ PDF
nixda

3

สิ่งนี้เกิดขึ้นกับฉันใน Microsoft Word หลายครั้งเมื่อพยายามส่งออกต้นฉบับอย่างง่าย ๆ ไปยัง PDF เอกสาร Word ขนาด 5–8 หน้าขนาด ~ 50 KB จะเป็นไฟล์ PDF ขนาด 10+ MB ซึ่งมีขนาดใหญ่เกินไปที่จะส่งอีเมลถึงใครบางคนอย่างสมเหตุสมผล

คำตอบของ Reneอยู่ในแนวทางที่ถูกต้องปัญหาคือว่าแบบอักษรฝังอยู่ในเอกสาร แต่การใช้รูปแบบมาตรฐานอย่างใดอย่างหนึ่งอาจไม่สามารถแก้ไขปัญหาได้

เอกสารทั้งหมดของฉันอยู่ใน Times New Roman โดยไม่ต้องใช้อะไรมากไปกว่าตัวหนาและตัวเอียง หรืออย่างนั้นฉันก็คิด ปรากฎว่าฉันเปิดใช้งานการปรับช่องไฟอัตโนมัติในเทมเพลตเริ่มต้นของฉัน ( ด้วยเหตุผลที่ชัดเจน ) เมื่อส่งออกเป็น PDF Word ได้ฝังอักษรภาษาอังกฤษแต่ละอันเหล่านั้นเป็นวัตถุแบบอักษรแยกต่างหากลงในเอกสาร

การแก้ไขนั้นง่ายคุณต้องจำให้ทำทุกครั้ง:

  1. เลือกข้อความทั้งหมดในเอกสาร
  2. รูปแบบ→แบบอักษร→ขั้นสูง
  3. ยกเลิกการเลือก "การจัดช่องไฟแบบอักษร"

น่าสนใจคุณสามารถปล่อยให้ตัวเลือกภาษาปริบทบริบทและฟีเจอร์การพิมพ์ขั้นสูงอื่น ๆ เปิดใช้งาน ไม่มีผลกระทบต่อขนาดของ PDF ที่เป็นผลลัพธ์

ส่งออกเอกสารเป็น PDF อีกครั้งและมีขนาดไม่เกินหนึ่งร้อย KB น่าเสียดายที่การปรับระยะสั้นนั้นไม่ได้มาตรฐานดังนั้นฉันจะไม่แนะนำให้พิมพ์ด้วยวิธีนี้ แต่ใช้งานได้ดีสำหรับการส่งอีเมลเอกสาร


-3

เพื่อให้คำตอบทางเทคนิคน้อยกว่าที่อาจช่วยได้คือ PDF ใช้พาหะ (เช่น: สมการทางคณิตศาสตร์) เพื่ออธิบายทุกสิ่งที่คุณเห็น เส้นโค้งและเส้นทั้งหมดถูกกำหนดโดยสมการทางคณิตศาสตร์ดังนั้นจึงจำเป็นต้องมีข้อมูลจำนวนมากโดยเฉพาะเมื่อคุณมีรูปภาพในเอกสารของคุณ

ประโยชน์ของการทำเช่นนี้คือคุณสามารถซูมเข้าใกล้อย่างไม่มีเหตุผลโดยไม่สูญเสียความละเอียดหรือรายละเอียดใด ๆ เนื่องจากเส้นและส่วนโค้งไม่มีความกว้างจึงสามารถปรับขนาดด้วยการซูมของคุณ

เช่นเดียวกับที่การเปลี่ยนแบบอักษรล่าสุดของ Google ลดขนาดโลโก้จาก ~ 14KB เป็น ~ 300B แบบอักษรที่เรียบง่ายอาจช่วยลดขนาดไฟล์ของคุณได้


4
การเปรียบเทียบนั้นไม่ได้ผล เลย การเปลี่ยนโลโก้ของ Google ไม่ได้เป็นเพียงแบบอักษรเท่านั้น แต่ยังเปลี่ยนจากการไล่สีเป็นแบบแบนซึ่งทำให้ขนาดแตกต่างกัน นอกจากนี้การส่งออกเอกสารไปยังบิตแมปขนาดใหญ่จะมีขนาดใหญ่กว่าแบบอักษร + ข้อความ สมการทางคณิตศาสตร์ในขณะที่คุณวางมันผิดเป็นเพียงจำนวนเต็มพิกัดคู่ซึ่งอาจจะมีไม่กี่โหลต่อสัญลักษณ์ และเนื่องจากเป็นแบบอักษรจึงไม่จำเป็นต้องทำซ้ำสำหรับตัวอักษรทุกตัว
Joey
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.