ไฟล์ PDF บางไฟล์สร้างขยะ (" mojibake ") เมื่อคุณคัดลอกข้อความ (แม้ว่าไฟล์นั้นจะแสดงว่าตกลง) สิ่งนี้ทำให้ไม่สามารถค้นหาได้ (สิ่งที่คุณค้นหาจะไม่ตรงกับขยะ)
ใครบ้างมีวิธีแก้ปัญหาง่าย ๆ ?
ตัวอย่าง:
- คู่มือ TEAC TV EU2816STF (ให้เหนือปัญหาใน Adobe Reader บนทั้ง Windows และ Mac แต่ทำงานได้ดีใน Preview บน Mac)
- คู่มือ Leadtek Winfast PVR2 (ลิงก์ FTP และยังมีปัญหาในดูตัวอย่างบน Mac)
- คู่มือการ์ดจูนเนอร์ทีวี Swann (ลิงค์ FTP และยังมีปัญหาในดูตัวอย่างบน Mac)
- ข้อตกลงใบอนุญาต Phonedisc (จากนี้หมดอายุเจ )
- Macquarie IFP ทบทวนกองทุนรายไตรมาส
- BAN-TACS หนังสือธุรกิจขนาดเล็ก (รุ่นที่เก็บถาวร)
- ใบปลิว Easterfest 2004 (เช่นจากที่เก็บถาวร)
ฉันใช้ Adobe Reader (เวอร์ชั่นล่าสุด) สำหรับ Windows - บางทีผู้ดูที่เป็นทางเลือกอาจช่วยได้? ฉันกำลังมองหาโซลูชันฟรีสำหรับ Windows โอเพ่นซอร์สจะดียิ่งขึ้น
แก้ไข: เอกสารสำหรับเครื่องมือ Multivalent Extract Textมีบทสรุปที่ดีว่าทำไมสิ่งต่าง ๆ จึงผิดพลาดได้ซึ่งรวมถึง: (เอกสารที่ยกมาล่าสุดแก้ไขเมื่อมกราคม 2549)
- ข้อความอาจไม่มีการแมป Unicode ฟอนต์ PDF ชนิดที่ 3 มักไม่มีและ TeX DVI มีอักขระที่ไม่มี Unicode ที่เทียบเท่า
- การเข้ารหัส Unicode อาจมีข้อผิดพลาด Open Office จะแมปอักขระบางตัวเป็น Unicode เดียวกันส่งผลให้ตัวอักษรลดลงและเพิ่มเป็นสองเท่า
ฉันเดาทางออกที่ดีที่สุดในกรณีเหล่านี้คือ OCR แต่ละสัญลักษณ์ในฟอนต์เพื่อหาว่าตัวละครมันคืออะไรจริงๆ โปรดทราบว่านี่จะง่ายกว่า OCR ที่สแกนเอกสารที่มีเสียงรบกวนเนื่องจากมีรูปร่างที่แน่นอนของรูปสัญลักษณ์ (ที่ความละเอียดไม่สิ้นสุดเนื่องจากเป็นภาพ "เวกเตอร์")
clipbrd.exe
(ดูmydigitallife.info/2008/11/06/… ) คุณสามารถดูว่ามีอะไรอยู่ในคลิปบอร์ด นั่นให้อะไรคุณ