ปัญหานี้มีอยู่ในเอกสารต้นฉบับแล้วในแบบที่มันถูกสร้างขึ้น
ดูเหมือนว่างานนำเสนอต้นฉบับถูกสร้างขึ้นด้วย PowerPoint (อะไรอีก…) บน Mac (งานนำเสนออาจถูกสร้างขึ้นบน Windows แล้วนำมายัง Mac เพื่อสร้าง PDF) ไม่มี OCR ที่เกี่ยวข้อง
การสร้าง PDF เกิดขึ้นโดยใช้เครื่องมือของ Apple และดูเหมือนว่าเครื่องมือเหล่านี้มีปัญหาเกี่ยวกับลิ้น แทนที่จะใช้อักขระ Ligature จากไฟล์ฟอนต์ "main" มันจะสร้างเซ็ตย่อยอีกอันที่มีอักขระการมัด แต่ไม่ได้เข้ารหัสรหัส Unicode อย่างถูกต้องและผลลัพธ์ก็คือการแปลงการเข้ารหัสเป็นการเข้ารหัสฟอนต์ "main" จะนำไปสู่ ตัวละคร 8
อย่างที่เราทุกคนรู้ใน PDF ข้อความเป็นชุดของ "คำ" วางไว้บนผืนผ้าใบโดยที่ "คำ" คั่นด้วยช่องว่าง การเชื่อมต่อระหว่าง "คำ" เพื่อสร้างประโยคไม่มีอยู่ใน PDF พื้นฐาน สำหรับการคัดลอกตัวแสดง PDF จะทำฮิวริสติกบางอย่างเพื่อพิจารณาว่า "คำ" เหล่านั้นอยู่ด้วยกันหรือไม่และ / หรือใช้ข้อมูลโครงสร้าง (ถ้ามี) ตรรกะของ Chrome นั้นแตกต่างจากตรรกะของ Acrobat และนั่นคือสิ่งที่ปรากฏต่างกัน
ที่จริง Acrobat XI มีตัวเลือกในเมนูบริบทของการเลือก "คัดลอกด้วยการจัดรูปแบบ" และลูกค้าเป้าหมาย (หลังจากวางลงใน BBEdit) ไปที่:
"Training"
"1. Collect a set of representa8ve training documents"
ตัวเลือกนี้เห็นได้ชัดว่าใช้ตรรกะมากขึ้นในการสร้างประโยค แต่การมัดนั้นผิดเพราะมันไม่สามารถสร้างใหม่ได้อย่างถูกต้อง
คำตัดสิน PDF ที่สร้างขึ้นไม่ดีนำไปสู่ความคลาดเคลื่อนเมื่อพยายามเปลี่ยนเนื้อหาด้วยผู้ชม PDF ที่ต่างกัน ...