ทำไม Google Chrome และ Adobe Acrobat Pro คัดลอกข้อความต่าง ๆ ไปยังคลิปบอร์ดเมื่อฉันเลือกข้อความเดียวกันใน PDF

1

ใน Adobe Acrobat Pro XI กดปุ่มCtrl+ Cเมื่อเลือกข้อความต่อไปนี้

ป้อนคำอธิบายรูปภาพที่นี่

จะคัดลอกรายการต่อไปนี้ไปยังคลิปบอร์ด:

Training
1. Collect
a
set
of
representa8ve
training
documents

ใน Google Chrome กดปุ่มCtrl+ Cเมื่อข้อความต่อไปนี้ถูกเลือก

ป้อนคำอธิบายรูปภาพที่นี่

จะคัดลอกรายการต่อไปนี้ไปยังคลิปบอร์ด:

Training+
1. Collect+a+set+of+representa8ve+training+documents

ฉันใช้ Windows 7 SP1 x64 Ultimate สามารถเข้าถึงไฟล์ PDF ได้ที่นี่ (ภาพหน้าจอด้านบนแสดงหน้า 16)

ทำไม Google Chrome และ Adobe Acrobat Pro คัดลอกข้อความต่าง ๆ ไปยังคลิปบอร์ดเมื่อฉันเลือกข้อความเดียวกันใน PDF

— Franck Dernoncourt
แหล่งที่มา

3

ปัญหานี้มีอยู่ในเอกสารต้นฉบับแล้วในแบบที่มันถูกสร้างขึ้น

ดูเหมือนว่างานนำเสนอต้นฉบับถูกสร้างขึ้นด้วย PowerPoint (อะไรอีก…) บน Mac (งานนำเสนออาจถูกสร้างขึ้นบน Windows แล้วนำมายัง Mac เพื่อสร้าง PDF) ไม่มี OCR ที่เกี่ยวข้อง

การสร้าง PDF เกิดขึ้นโดยใช้เครื่องมือของ Apple และดูเหมือนว่าเครื่องมือเหล่านี้มีปัญหาเกี่ยวกับลิ้น แทนที่จะใช้อักขระ Ligature จากไฟล์ฟอนต์ "main" มันจะสร้างเซ็ตย่อยอีกอันที่มีอักขระการมัด แต่ไม่ได้เข้ารหัสรหัส Unicode อย่างถูกต้องและผลลัพธ์ก็คือการแปลงการเข้ารหัสเป็นการเข้ารหัสฟอนต์ "main" จะนำไปสู่ ตัวละคร 8

อย่างที่เราทุกคนรู้ใน PDF ข้อความเป็นชุดของ "คำ" วางไว้บนผืนผ้าใบโดยที่ "คำ" คั่นด้วยช่องว่าง การเชื่อมต่อระหว่าง "คำ" เพื่อสร้างประโยคไม่มีอยู่ใน PDF พื้นฐาน สำหรับการคัดลอกตัวแสดง PDF จะทำฮิวริสติกบางอย่างเพื่อพิจารณาว่า "คำ" เหล่านั้นอยู่ด้วยกันหรือไม่และ / หรือใช้ข้อมูลโครงสร้าง (ถ้ามี) ตรรกะของ Chrome นั้นแตกต่างจากตรรกะของ Acrobat และนั่นคือสิ่งที่ปรากฏต่างกัน

ที่จริง Acrobat XI มีตัวเลือกในเมนูบริบทของการเลือก "คัดลอกด้วยการจัดรูปแบบ" และลูกค้าเป้าหมาย (หลังจากวางลงใน BBEdit) ไปที่:

"Training"
"1.    Collect a set of representa8ve training documents"

ตัวเลือกนี้เห็นได้ชัดว่าใช้ตรรกะมากขึ้นในการสร้างประโยค แต่การมัดนั้นผิดเพราะมันไม่สามารถสร้างใหม่ได้อย่างถูกต้อง

คำตัดสิน PDF ที่สร้างขึ้นไม่ดีนำไปสู่ความคลาดเคลื่อนเมื่อพยายามเปลี่ยนเนื้อหาด้วยผู้ชม PDF ที่ต่างกัน ...

— Max Wyss
แหล่งที่มา

ข้อความประกอบด้วยอักขระที่สามารถอ่านได้ (ตัวอักษรตัวเลขสัญลักษณ์เครื่องหมายวรรคตอน) และอักขระที่เป็นตำแหน่ง (ช่องว่างแท็บการขึ้นบรรทัดใหม่การขึ้นบรรทัดใหม่) คุณกำลังบอกว่ารูปแบบ PDF ละเว้นอักขระตำแหน่งที่เป็นส่วนหนึ่งของข้อความและทำสิ่งที่เป็นของตัวเองหรือไม่?

— fixer1234

ขอบคุณสำหรับคำอธิบายที่ชัดเจนและชี้ไปที่การกระทำ "คัดลอกด้วยการจัดรูปแบบ"!

— Franck Dernoncourt

@ fixer1234: ใน PDF คำว่า "word" (ซึ่งเป็นลำดับของอักขระที่อ่านได้) แต่ละรายการจะถูกวางแยกกัน ในความเป็นจริงแล้วขึ้นอยู่กับเครื่องมือแก้ไขสตริงข้อความที่มี (แมนนวล) การจัดช่องไฟอาจขาด คุณจะพบรายละเอียดทั้งหมดใน ISO 32000 (หรือการอ้างอิงรูปแบบเอกสารพกพาซึ่งเป็นส่วนหนึ่งของเอกสารของ Acrobat SDK ซึ่งสามารถดาวน์โหลดได้จากเว็บไซต์ Adobe)

— Max Wyss

2

คุณสามารถไปที่ pdf จากเอกสารประเภทต่าง ๆ หากคุณเริ่มต้นด้วยสิ่งที่บันทึกโดยตรงจากโปรแกรมประมวลผลคำไฟล์ PDF จะมีข้อความที่ดีและแก้ไขได้ หากคุณเริ่มต้นด้วยรูปภาพของหน้า PDF จะมีรูปภาพซึ่งไม่สามารถแก้ไขได้หากไม่มี OCR ในระหว่างเป็นเอกสารเรียงพิมพ์ พวกเขามีข้อความ แต่ทุกอย่างถูกจัดรูปแบบอย่างหนักเพื่อควบคุมลักษณะที่ปรากฏที่แม่นยำในหน้า การพยายามที่จะแก้ไขสิ่งเหล่านั้นหรือแม้กระทั่งทำความสะอาดเพื่อแก้ไขอาจเป็นฝันร้าย

ในเอกสารนี้ระยะห่างระหว่างคำถูกควบคุมด้วยแท็บ (หรืออักขระพิเศษตีความเป็นแท็บ) แทนที่จะเว้นวรรค ตัวแทน "8" แปลกอาจเกิดจากการใช้สายรัด (การเข้ารหัสพิเศษหรือการจับคู่แบบคู่กันเพื่อกระชับระยะห่างระหว่าง "t" และ "i") มันจะไม่น่าแปลกใจถ้าผู้ชมที่แตกต่างกันจัดการรหัสควบคุมการเรียงพิมพ์แตกต่างกัน

— fixer1234
แหล่งที่มา