การตัดและวางอักขระภาษาเวียดนามจาก PDF


2

ฉันกำลังพยายามคัดลอก / วางข้อความภาษาเวียดนามจำนวนมากจากเอกสาร PDF ไปยัง Notepad ++ (หรืออะไรก็ได้ไม่ทำงาน) ข้อความที่วางแตกต่างจากข้อความต้นฉบับ อะไรจะเป็นวิธีที่ดีที่สุดในการแก้ไขปัญหานี้

ตัวอย่างเช่น:

ข้อความต้นฉบับ: (ดูภาพหน้าจอสำหรับข้อความต้นฉบับ) enter image description here

ข้อความที่วางแล้ว: ส้มตำ ~ GÕiñuûûTôm

ขอบคุณมาก.

แก้ไข: ปรากฏว่าหากแหล่งที่มาเป็นเอกสาร Word จะคัดลอก & amp; วางตามที่คาดไว้ PDF เป็นปัญหาที่นี่


แบบอักษรที่ใช้ใน PDF อาจแตกต่างกันไปตามแต่ละโอกาส
jay

@ เจย์น่าสนใจ .. แต่น่าเสียดายที่นี่เป็นไคลเอนต์ที่ให้บริการ PDF ฉันไม่มีวิธีในการเปลี่ยนแบบอักษร ถึงเวลาที่ต้องใช้เอกสารคำในอนาคต ... ขอบคุณ
Mahdi.Montgomery

ลอง แปลง PDF เป็น Word และดูสิ่งที่คุณได้รับ
jay

คำตอบ:


6

มันเป็นเพราะการเข้ารหัสที่ใช้ใน PDF นั้นเป็นเรื่องที่ไม่แน่นอน

Acrobat File properties

จาก PDF บางส่วนเป็นภาษาเวียดนาม ฉันพบใน intertubes

" การเข้ารหัส: ที่กำหนดเอง "อาจหมายถึงการเข้ารหัส (ดูสุ่ม) ที่สร้างขึ้นเพื่อความสะดวกของตัวเองโดยโปรแกรมที่สร้าง PDF นี้

" ชุดย่อยที่ฝัง "หมายถึงโปรแกรมไม่ต้องการอักขระจำนวนมากจากแบบอักษรนี้ดังนั้นจึงเลือกไม่กี่ตัวที่ต้องการและจัดเรียงตามลำดับแบบสุ่ม (อาจเป็นลำดับที่โปรแกรมพบในข้อความ) และการเข้ารหัสที่คิดค้นขึ้นใหม่ ในการสั่งซื้อนี้

มันไม่ใช่ "ตัวละคร" จริงๆ โดยพื้นฐานแล้วไฟล์ PDF จะไม่มีข้อมูลที่มีความหมายสากลเกี่ยวกับ "ตัวละคร" ที่มีอยู่อีกต่อไป มันมีเพียงกลุ่มของดัชนีที่มีการจัดทำดัชนีและรายการตำแหน่งและขนาดที่แสดงรูปร่างที่มีการจัดทำดัชนีเหล่านั้น


Wikipedia พูดว่า

แบบอักษร CID ที่คีย์อาจทำได้โดยไม่อ้างอิงถึงการรวบรวมอักขระโดยใช้การเข้ารหัส "ข้อมูลประจำตัว" เช่น Identity-H (สำหรับการเขียนในแนวนอน) หรือ Identity-V (สำหรับแนวตั้ง) แบบอักษรดังกล่าวอาจแต่ละชุดมีชุดอักขระที่ไม่ซ้ำกันและในกรณีเช่นนี้หมายเลข CID ของ glyph ไม่ได้ให้ข้อมูล โดยทั่วไปการเข้ารหัส Unicode จะใช้แทนอาจมีข้อมูลเพิ่มเติม

ดังนั้นคุณอาจลองดูว่าการเข้ารหัส UTF-16 นั้นเหมาะสมหรือไม่


ก็ไม่สะดวก PDF ของฉันมี: "การเข้ารหัส: Ansi", "การเข้ารหัส: Ansi", "การเข้ารหัส: Identity-H" ฉันคิดว่าไม่มีทางที่จะเปลี่ยนแปลงสิ่งนี้ใน PDF ที่คอมไพล์แล้ว? ขอบคุณ!
Mahdi.Montgomery

@ Mahdi.Montgomery: มันไม่สะดวก หากคุณสามารถระบุได้ว่า "Identity-H" คืออะไร (และสอดคล้องกับ PDF เป็น PDF) หรือไม่คุณอาจใช้คำจำกัดความที่คุณสามารถป้อนให้กับตัวแปลงการเข้ารหัสเช่น iconv ซึ่งสามารถแปลงข้อความที่แยกออกมา พวกเราส่วนใหญ่คงไม่คิดว่ามันคุ้มค่า
RedGrittyBrick

ฉันพบว่ามีเวลามากขึ้นในการส่งอีเมลที่น่ารำคาญ ขอบคุณอีกครั้ง.
Mahdi.Montgomery

-1

ฉันพบวิธีแก้ปัญหาที่เหมาะกับฉัน - แต่ไม่สามารถอธิบายได้ว่าทำไม เมื่อฉันเปิด PDF ใน Acrobat ฉันไม่สามารถคัดลอกและวางอักขระภาษาเวียดนามได้ อย่างไรก็ตามหากฉันเปิด PDF ในเวอร์ชันแอปดูตัวอย่าง (ฉันมีรุ่น 5.5.3 (719.31)) บน Mac ของฉันฉันสามารถคัดลอกและวางได้โดยไม่มีปัญหา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.