ค้นหา PDF ด้วยการเข้ารหัสอักขระที่ไม่ได้มาตรฐาน


19

ไฟล์ PDF บางไฟล์สร้างขยะ (" mojibake ") เมื่อคุณคัดลอกข้อความ (แม้ว่าไฟล์นั้นจะแสดงว่าตกลง) สิ่งนี้ทำให้ไม่สามารถค้นหาได้ (สิ่งที่คุณค้นหาจะไม่ตรงกับขยะ)

ใครบ้างมีวิธีแก้ปัญหาง่าย ๆ ?

ตัวอย่าง:

  1. คู่มือ TEAC TV EU2816STF (ให้เหนือปัญหาใน Adobe Reader บนทั้ง Windows และ Mac แต่ทำงานได้ดีใน Preview บน Mac)
  2. คู่มือ Leadtek Winfast PVR2 (ลิงก์ FTP และยังมีปัญหาในดูตัวอย่างบน Mac)
  3. คู่มือการ์ดจูนเนอร์ทีวี Swann (ลิงค์ FTP และยังมีปัญหาในดูตัวอย่างบน Mac)
  4. ข้อตกลงใบอนุญาต Phonedisc (จากนี้หมดอายุเจ )
  5. Macquarie IFP ทบทวนกองทุนรายไตรมาส
  6. BAN-TACS หนังสือธุรกิจขนาดเล็ก (รุ่นที่เก็บถาวร)
  7. ใบปลิว Easterfest 2004 (เช่นจากที่เก็บถาวร)

ฉันใช้ Adobe Reader (เวอร์ชั่นล่าสุด) สำหรับ Windows - บางทีผู้ดูที่เป็นทางเลือกอาจช่วยได้? ฉันกำลังมองหาโซลูชันฟรีสำหรับ Windows โอเพ่นซอร์สจะดียิ่งขึ้น

แก้ไข: เอกสารสำหรับเครื่องมือ Multivalent Extract Textมีบทสรุปที่ดีว่าทำไมสิ่งต่าง ๆ จึงผิดพลาดได้ซึ่งรวมถึง: (เอกสารที่ยกมาล่าสุดแก้ไขเมื่อมกราคม 2549)

  • ข้อความอาจไม่มีการแมป Unicode ฟอนต์ PDF ชนิดที่ 3 มักไม่มีและ TeX DVI มีอักขระที่ไม่มี Unicode ที่เทียบเท่า
  • การเข้ารหัส Unicode อาจมีข้อผิดพลาด Open Office จะแมปอักขระบางตัวเป็น Unicode เดียวกันส่งผลให้ตัวอักษรลดลงและเพิ่มเป็นสองเท่า

ฉันเดาทางออกที่ดีที่สุดในกรณีเหล่านี้คือ OCR แต่ละสัญลักษณ์ในฟอนต์เพื่อหาว่าตัวละครมันคืออะไรจริงๆ โปรดทราบว่านี่จะง่ายกว่า OCR ที่สแกนเอกสารที่มีเสียงรบกวนเนื่องจากมีรูปร่างที่แน่นอนของรูปสัญลักษณ์ (ที่ความละเอียดไม่สิ้นสุดเนื่องจากเป็นภาพ "เวกเตอร์")


การใช้clipbrd.exe(ดูmydigitallife.info/2008/11/06/… ) คุณสามารถดูว่ามีอะไรอยู่ในคลิปบอร์ด นั่นให้อะไรคุณ
Arjan

@ Arjan van Bentem: มันทำให้ฉันเหมือนกันกับขยะที่ฉันได้รับเมื่อวางลงใน Notepad
Hugh Allen

รายละเอียดเกี่ยวกับรูปแบบใด? ฉันใช้ Mac แต่ฉันสมมติว่า Windows จะบอกคุณว่ามีบางอย่างเป็นรูปภาพหรือข้อความและสำหรับข้อความอาจแสดงถึงการเข้ารหัสด้วยหรือไม่
Arjan

สำหรับตัวอย่างคู่มือทีวี: ปัญหาเดียวกันใน Adobe Reader 8.1.2 บน Mac แต่ไม่มีปัญหาในการใช้ Preview ของ Mac เพื่อคัดลอกหรือค้นหาข้อความ คุณสมบัติของเอกสารแสดง "การเข้ารหัส: กำหนดเอง" สำหรับแบบอักษร (ดูที่img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png ) เอกสาร PDF อื่น ๆ แสดงสิ่งต่าง ๆ เช่น "การเข้ารหัส: Ansi" หรือ "โรมัน" และไม่มีปัญหาใน Adobe Reader บน Mac (เช่นadobe.com/education/pdf/type_primer.pdfผลผลิตimg.skitch.com/20100318-tbyjrny9bsg684eqhr7b3au7fb.png )
Arjan

1
นอกจากนี้pdftextonline.comไม่สามารถดึงข้อความจากคู่มือ TV หรือเอกสาร Phonedisc (ไม่ได้ลองอื่น ๆ ) แต่การส่งไปยัง Gmail จากนั้นการดูในรูปแบบ HTML จะใช้งานได้กับ TV Manual (เช่นเดียวกับ Preview ไม่มีปัญหากับเอกสารนั้น) ...
Arjan

คำตอบ:


3

Foxit Readerบางที

สำหรับสิ่งที่คุ้มค่าฉันเพียงแค่การตรวจสอบรูปแบบไฟล์ PDF ที่คุณเชื่อมโยงกับ Safari 4.0.4 บน Mac OS X 10.6.2 และในขณะที่มีเป็นบางอิงริช , ไฟล์ PDF มันทำให้ไม่มีที่ติโดยไม่ต้อง "ขยะ" บนหน้าจอใด ๆ บางทีคุณอาจประสบปัญหา Unicode (พบได้ทั่วไปบน Windows มากกว่า Mac OS)?


ขยะไม่ได้อยู่บนหน้าจอ - มันอยู่ในคลิปบอร์ดเมื่อฉันคัดลอกข้อความ เกิดอะไรขึ้นกับคุณเมื่อคุณลองทำ
Hugh Allen

@Hugh: คุณสมบัติ􏰃มันเป็นโทรทัศน์สีควบคุมจากระยะไกล 􏰃โปรแกรม 100 รายการจาก VHF, ย่านความถี่ UHF หรือช่องสัญญาณเคเบิลสามารถตั้งค่าล่วงหน้าได้ 􏰃สามารถจูนช่องสัญญาณเคเบิลได้ 􏰃การควบคุมทีวีนั้นง่ายมากโดยใช้ระบบขับเคลื่อนเมนู 􏰃มีซ็อกเก็ต Euroconnector สามช่องสำหรับอุปกรณ์ภายนอก (เช่นคอมพิวเตอร์, วิดีโอ, วิดีโอเกม, ชุดเครื่องเสียง ฯลฯ )
Alex

@Hugh: กระสุนไม่ได้คัดลอกอย่างถูกต้อง แต่ส่วนที่เหลือคือ คุณกำลังมีปัญหาในส่วน / หน้า / ย่อหน้าโดยเฉพาะและฉันจะลองทำดู
Alex

ทั้งหมดของมัน. ฉันใช้ Adobe Reader สำหรับ Windows ฉันเพิ่งอัปเดตเป็นเวอร์ชันล่าสุดซึ่งไม่ได้ช่วย +1 ขอบคุณสำหรับข้อมูล ฉันเดาว่า Adobe Reader มีข้อบกพร่องที่ไม่ได้แชร์โดย OSX ที่เทียบเท่า
Hugh Allen

4
ฉันลอง Foxit Reader และมีปัญหาเดียวกัน ติดตั้งมันยังล่วงล้ำจริงๆอยากจะติดตั้งแถบเครื่องมือแก้ไขของคุณในหน้าแรก ฯลฯ :(
ฮิวจ์อัลเลน

3

วิธีที่ง่ายที่สุดในการหลีกเลี่ยงปัญหานี้คือการเปิดไฟล์ในGoogle Chrome เวอร์ชันล่าสุดด้วยปลั๊กอินการอ่าน PDF ในตัว จากนั้นคุณสามารถใช้คุณลักษณะการค้นหาของ Chrome เพื่อค้นหาข้อความและคัดลอกวางทำงานได้อย่างถูกต้อง


2

สำหรับตัวอย่างคู่มือทีวี : ปัญหาเดียวกันใน Adobe Reader 8.1.2 บน Mac แต่ไม่มีปัญหาในการใช้ Preview ของ Mac เพื่อคัดลอกหรือค้นหาข้อความ และส่งไปยังบัญชี Gmail จากนั้นเลือก "ดู" จากนั้น "ธรรมดา HTML" จะแสดงข้อความ แต่ Adobe Reader ไม่ชอบ

คุณสมบัติของเอกสารแสดง "การเข้ารหัส: กำหนดเอง" สำหรับแบบอักษร เอกสารอื่นแสดงสิ่งต่าง ๆ เช่น "การเข้ารหัส: Ansi" หรือ "โรมัน" และไม่มีปัญหาในการแสดงตัวอย่างหรือ Adobe Reader บน Mac:

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามทั้งLeadtekและตัวอย่างSwann มีปัญหาใน Preview บน Mac เช่นกันและใน Gmail และทั้งสองแสดง "Encoding: Identity-H" การทดสอบPhonediscล้มเหลวด้วย "การเข้ารหัส: กำหนดเอง"

เกิดความสับสนและไม่สอดคล้องกัน แต่ในฟอรัม Adobe บางตัวฉันพบคำอธิบายต่อไปนี้สำหรับตัวอย่างอื่น ๆที่แสดง "การเข้ารหัส: กำหนดเอง" (เน้นที่เหมือง):

หลังจากดูใน PDF แล้วปรากฎว่าไม่มีข้อมูลการเข้ารหัสที่ใช้งานได้ (ไม่ได้อยู่ในรูปแบบ PDF หรือในข้อมูลตัวอักษรแบบฝัง) เพื่อให้ได้ความหมายของอักขระ / ร่ายมนตร์ที่แสดงบนหน้าในเอกสาร

แบบอักษรที่แท้จริงของคุณทั้งหมดฝังอยู่ แต่ในแบบที่ข้อมูลการเข้ารหัสทั้งหมดถูกลบ นี่เป็นตัวอย่างทั่วไปของ PDF ที่สอดคล้องกับข้อกำหนดของไวยากรณ์ PDF อย่างสมบูรณ์ แต่ข้อมูลสำคัญเกี่ยวกับความหมายของข้อความในนั้นถูกทิ้งไปในระหว่างกระบวนการสร้าง PDF เท่าที่ฉันสามารถบอกได้ว่ามันยากมากที่จะกู้คืนข้อมูลการเข้ารหัส

นี่ไม่ได้อธิบายว่าทำไม Preview ของ Mac (และเห็นได้ชัดว่า Infix เป็นอย่างดี) สามารถจัดการกับตัวอย่างบางส่วนเมื่อ Adobe Reader ล้มเหลวแม้จะมี "Encoding: Custom" บางที Preview ไม่มีปัญหาเมื่อมีแบบอักษรที่แน่นอนปรากฏบนคอมพิวเตอร์ หรืออาจเป็นเพียงการคาดเดาการเข้ารหัสที่เกิดขึ้นกับเอกสารบางส่วน แต่ไม่ใช่ทั้งหมดหรือไม่

สิ่งที่ทำให้เกิดนี้ถ้าผ่าน Google Docs หรือ Gmail ไม่ทำงานแล้วบางทีที่ง่ายที่สุด ( แต่ไกลจากง่าย) วิธีแก้ปัญหาที่เป็นจริงที่จะบันทึกเป็น TIFF แล้วทำOCR บริการเช่นEvernoteอาจทำได้ทันที (เป็น OCR กับภาพฉันสงสัยว่ามันจะทำ OCR ในรูปแบบ PDF)


-1

การดาวน์โหลดไฟล์ 1 ล้มเหลวสำหรับฉันไฟล์ 2 ฉันสามารถเปิดด้วย xpdf โปรแกรมดูไฟล์ PDF ที่รวดเร็วและโอเพนซอร์ส ฉันเดาว่ามันไม่สามารถจัดการรูปแบบได้ แต่สำหรับข้อความล้วนและกราฟิกฉันชอบมันสำหรับเวลาเริ่มต้นที่รวดเร็ว


1
คำถามไม่ได้เกี่ยวกับ "การเปิด" PDF หรือเกี่ยวกับ "การเปิดด้วยเวลาเริ่มต้นที่รวดเร็ว" แต่เป็นเรื่องเกี่ยวกับการไม่สามารถคัดลอกตัวอย่างข้อความ '' จากหน้าแสดงผล ดังนั้นคำตอบของคุณอาจเป็นคำตอบที่ดี แต่ไม่เหมาะกับคำถามนี้
Kurt Pfeifle

-2

น่าเสียดายที่มันไม่สามารถช่วยได้ เอกสาร PDF ไม่มีตัวอักษรใด ๆ จริง ๆ แต่มีตัวอักษรที่เป็นรูปร่าง กล่าวอีกนัยหนึ่งแทนที่จะอ่านตัวอักษรและวาดบนหน้าจอ Adobe Reader เช่นเดียวกับแอปพลิเคชั่นการอ่าน PDF อื่น ๆ เพียงแค่วาดกราฟิกแบบเวกเตอร์ที่เข้ารหัสในไฟล์

อย่างไรก็ตามโปรแกรมอ่าน PDF บางรุ่นมาพร้อมกับซอฟต์แวร์ที่ช่วยในการวิเคราะห์รูปร่างและกู้คืนข้อความโดยใช้การจดจำข้อความ มันทำงานเหมือนกับว่าคุณสแกนกระดาษข้อความที่พิมพ์ออกมาและซอฟต์แวร์ที่ใช้เช่น ABBYY FineReader เพื่อแปลงกลับเป็นข้อความ แต่เนื่องจากคุณภาพแบบเวกเตอร์ของผลการวาดแบบเวกเตอร์นั้นโดยทั่วไปแล้วจะดีกว่าเอกสารที่สแกน

เอกสารบางอย่างสามารถป้องกันไม่ให้ถูกแปลงเป็นข้อความโดยหลอก Adobe Reader ตัวอย่างเช่นตัวอักษรสามารถวาดในรูปทรงที่ซ้อนทับกันหลายแบบในลักษณะที่มองเห็นพวกเขาจะยังคงเหมือนเดิมในขณะที่ซอฟต์แวร์การรู้จำข้อความจะไม่สามารถจดจำข้อความได้ เอกสารของคุณเป็นตัวอย่างของการป้องกันดังกล่าว

วิธีหนึ่งคือพิมพ์เอกสารลงในภาพและให้ซอฟต์แวร์จดจำข้อความรู้จัก ความละเอียดที่สูงขึ้นสำหรับภาพจะปรับปรุงคุณภาพ อย่างไรก็ตามวิธีนี้ไม่สะดวกจริงๆ


2
เอกสาร PDF ไม่มีตัวอักษรจริง ๆ - ซึ่งไม่เป็นความจริงสำหรับเอกสารที่ไม่สแกนส่วนใหญ่ ดูen.wikipedia.org/wiki/Portable_Document_Format#Text
Arjan

ขอขอบคุณ. ข้อมูลที่น่าสนใจ ฉันมีเสมอว่าไม่มีข้อมูลเกี่ยวกับข้อความใน PDF อย่างไรก็ตามดูเหมือนว่าเอกสารที่อเล็กซานเดอร์ให้ไว้ไม่มีข้อความฝังอยู่ หรืออาจเป็นไปได้ว่าแบบอักษรที่ใช้ในนั้นมีการเข้ารหัสอักขระที่แปลกประหลาดนั่นคือพวกมันไม่สอดคล้องกับการเข้ารหัส ASCII ทั่วไป
Sergiy Belozorov

2
ฉันจะคัดลอกข้อความจาก PDF ได้อย่างไรหากเป็นเพียงรูปทรง? คุณเป็นส่วนหนึ่งที่ถูกต้อง - มันไม่ใช่ rasterized ใน PDF (เว้นแต่ว่าจะมาจากแหล่งสแกน) แต่มีการรวมข้อมูลข้อความ อย่างไรก็ตามฟอนต์นั้น (โดยปกติ) ก็ฝังอยู่ด้วยทำให้สามารถรวมข้อความที่จะแสดงผลแบบเวกเตอร์ได้
Alex
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.