PDF มีข้อความที่อ่านไม่ออกเมื่อคัดลอกการวาง


23

ฉันพยายามคัดลอกและวางข้อความจากไฟล์ PDF

อย่างไรก็ตามเมื่อใดก็ตามที่ฉันวางข้อความต้นฉบับมันเป็นเรื่องยุ่งมากของตัวละครที่อ่านไม่ออก ข้อความมีลักษณะดังต่อไปนี้ (นี่เป็นเพียงหนึ่งแยกเล็ก ๆ ):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

ฉันลองใช้ทั้งในโปรแกรมอ่าน Adobe และ Foxit PDF ฉันทำ 'บันทึกเป็นข้อความ' ใน Adobe Reader และไฟล์ข้อความผลลัพธ์เป็นข้อความที่อ่านไม่ออกเหมือนกัน

ความคิดใดที่ฉันจะทำให้ข้อความนี้ไม่อ่านไม่ออก? (นอกเหนือจากการพิมพ์ด้วยตนเอง ... มีข้อความจำนวนมากที่จะดึงออกมา)


ลองบางส่วนสาธารณูปโภคโปรแกรมอ่านหน้าจอ (ซึ่งทำงานร่วมกับ jpeg, ทำหน้าจอพิมพ์และมีคุณไป) หรือนี่เป็นวิธีที่แตกต่างกัน (แค่ 'เดา' อย่ากัดฉันฉันใช้วิธีแรกแล้วหวังว่าจะมีวิธีที่สะดวกกว่า)
Apache

คำถามที่คล้ายกัน: superuser.com/questions/119393/…
Hugh Allen

ฉันยังสามารถยืนยันปัญหานี้กับ OS X อย่างน้อยเป็น 10.8.2 ฉันใช้เวลาเล็กน้อยในการผ่านโครงสร้างไฟล์ PDF แต่น่าเสียดายที่ฉันไม่เห็นวิธีการซ่อมแซมความเสียหาย "PreFlight" ของ Acrobat Pro จะรายงานปัญหาเกี่ยวกับไฟล์เมื่อตรวจสอบกับมาตรฐาน PDF / A และรายงานสินค้าคงคลังจะแสดงสัญลักษณ์ที่ถูกแมปเทียบกับอักขระ Unicode ที่ไม่ถูกต้องอย่างชัดเจน ฉันได้รับรายงานข้อผิดพลาดกับ Apple - ID 12655651 ฉันจะรายงานกลับที่นี่ถ้า / เมื่อฉันได้รับการปรับปรุงใด ๆ
KenD

ไม่ควรมีประโยชน์superuser.com/a/481510/153937
Ankit

คำตอบ:


11

วิธีที่ง่ายที่สุดในการหลีกเลี่ยงปัญหานี้คือการเปิดไฟล์ในGoogle Chrome เวอร์ชันล่าสุดด้วยปลั๊กอินการอ่าน PDF ในตัว จากนั้นคุณสามารถใช้คุณลักษณะการค้นหาของ Chrome เพื่อค้นหาข้อความและคัดลอกวางทำงานได้อย่างถูกต้อง

ฉันต้องการให้คะแนนความคิดเห็นของ pipitas ในคำตอบของ Shiki แต่ฉันไม่มีเครดิต :( ปัญหาอาจเป็นการเข้ารหัสแบบอักษรที่กำหนดเองไม่ใช่การเข้ารหัสใน Acrobat ให้คลิกไฟล์ -> คุณสมบัติจากนั้นคลิกแท็บแบบอักษรเพื่อดูการเข้ารหัส และแท็บความปลอดภัยเพื่อดูว่ามีการเข้ารหัสหรือไม่


อันที่จริงการเข้ารหัสตัวอักษรที่กำหนดเองเป็นผู้ร้ายสำหรับฉัน อย่างไรก็ตาม Chrome ไม่ใช่วิธีแก้ปัญหา ฉันแก้ไขปัญหาบางส่วนด้วย Ghostscript สร้าง PDF จาก PS (ฉันโชคดีที่มีซอร์ส PS) กลุ่มตัวละครใด ๆ ที่ LaTeX ใช้ตัวยึด (เช่น ff, c, fi, ฯลฯ ) จะไม่แสดงในข้อความที่คัดลอกของ PDF ซึ่งจะต้องมีการแก้ไขเมื่อคุณคัดลอก / วาง
Fuhrmanator

1
ปัญหาเดียวกันกับโครเมี่ยม
JinSnow

4

ฉันค้นพบปัญหานี้ด้วย PDF ที่ฉันสร้างขึ้นและฉันเชื่อว่าฉันติดตามสาเหตุของปัญหาด้วยการใช้ Preview ของ Mac OS X เพื่อลดขนาดไฟล์ PDF

ฉันได้สร้างตัวกรองควอตซ์บางส่วนโดยใช้ Colorsync Utility เพื่อบีบอัดภาพในรูปแบบ PDF เพื่อลดขนาดไฟล์โดยรวมของ PDF ด้วยภาพ เช่นที่อธิบายไว้ที่นี่: http://www.macosxhints.com/article.php?story=20031106133852693

ฉันพบว่าฉันสามารถคัดลอกและวางข้อความจากไฟล์ PDF ต้นฉบับ (ไม่บีบอัด) ได้อย่างง่ายดาย แต่หลังจากเรียกใช้ PDF นั้นผ่านตัวกรองลดขนาดไฟล์ที่ฉันสร้างขึ้นไฟล์ PDF ที่บีบอัดที่ได้จะไม่คัดลอกอย่างชัดเจน สตริงที่คุณโพสต์)

อย่างไรก็ตามการเรียกใช้ PDF ต้นฉบับเดียวกันผ่านทางเอกสารของ Adobe Acrobat Pro> ลดขนาดไฟล์ฟังก์ชั่น PDF ที่ได้รับการบีบอัดที่ได้นั้นสามารถคัดลอกและวางข้อความได้สำเร็จ

ดังนั้นสิ่งนี้จะไม่เป็นประโยชน์อย่างสิ้นเชิงในกรณีของคุณโดยสันนิษฐานว่าไฟล์ PDF ของคุณได้รับจากที่อื่นและคุณไม่สามารถไปที่เวอร์ชันดั้งเดิมหากไฟล์นั้นถูกบีบอัดในบางวิธี แต่นั่นอาจเป็นคำอธิบาย - ไฟล์ดังกล่าวถูกทำให้ยุ่งเหยิงในความพยายามที่จะลดขนาดไฟล์

สิ่งนี้อาจมีประโยชน์สำหรับผู้สร้างเนื้อหาที่มีปัญหาคล้ายกันในการคัดลอกและวางข้อความจาก PDF โปรดใช้ตัวกรอง OS X Quartz เพื่อลดขนาดไฟล์ PDF ของคุณ!

- ฉันได้สังเกตเห็นปัญหานี้เมื่อรวม PDF กับ Preview แหล่ง PDF สองแหล่งสามารถคัดลอกและวางได้ แต่เมื่อลากหน้าจากไฟล์หนึ่งไปยังไฟล์อื่นจากนั้นบันทึก PDF ที่รวมกันข้อความในเอกสารที่รวมกันจะไม่สามารถคัดลอก / วางได้ เอกสารทั้งสองนี้สร้างขึ้นพร้อมกันด้วย Filemaker Pro 11 บน Mac - ฉันไม่สามารถจินตนาการได้ว่าพวกเขาจะมีการเข้ารหัสที่แตกต่างกันหรือสิ่งใด ๆ


ฉันได้รับไฟล์ PDF สองสามไฟล์จากผู้ใช้ mac os เลือกไม่เป็นไร แต่การคัดลอกและวางจะทำให้คุณมีขยะ ลองใช้โปรแกรมแปลงไฟล์ PDF เป็น word converter รวมถึง googledoc, adobe save เป็น text ซึ่งทั้งหมดนี้จะให้ข้อความที่อ่านไม่ออก
tigr

ฉันสงสัยว่าการหดตัวของ OS X PDF เป็นสาเหตุของปัญหา มีใครรู้วิธีการ "ยกเลิก" การดำเนินการดังกล่าวหรือไม่? ขอบคุณ!
tigr

ฉันพิมพ์ไฟล์ pdf ไปยังเครื่องพิมพ์ (เสมือน) หลายตัวและฉันได้รับไฟล์ PDF ขนาด 4x4 ที่สูงเกินจริง ไฟล์ที่พิมพ์จะปรากฏเป็นรูปภาพโดยไม่สามารถเลือกข้อความได้ในขณะที่ต้นฉบับสามารถเลือกได้ (อ่านไม่ออก)
tigr

4

มีวิธีง่าย ๆ อีกวิธีในการแก้ไขปัญหา :)

เพียงพิมพ์เอกสารโดยใช้ CutePdf เครื่องพิมพ์ Adobe 2 Pdf หรือสิ่งอื่นที่คล้ายคลึงกัน บรรทัดล่างคือคุณต้องพิมพ์ในรูปแบบ pdf

ในหลายกรณีจะสามารถลบปัญหาได้อย่างง่ายดาย


2

โซลูชันที่เหมาะกับฉัน:

  • อัปโหลดเอกสารไปยัง Google ไดรฟ์ / เอกสาร
  • Google จะนำเข้า (ในปี 2013) ในรูปแบบ PDF
  • เปิดมุมมอง PDF และเลือกไฟล์ > เปิดด้วย > Google เอกสาร
  • จะใช้เวลาประมาณหนึ่งนาทีในการส่งออกเอกสาร

ผลลัพธ์ไม่สมบูรณ์ แต่ได้รับฉัน 80% จากที่นั่นและให้ข้อความที่เพียงพอแก่ฉันซึ่งฉันไม่ต้องเขียนใหม่ทุกอย่าง!


2

แก้ไขแล้ว: (ทำงานให้ฉันใน Windows 8, Acrobat XI, Office 2010)

ตัวเลือกที่ 1:

  1. พิมพ์จาก Acrobat โดยใช้ "Microsoft XPS Document Writer" ผลลัพธ์คือ: "your name.oxps"
  2. เปิด "... oxps" ด้วย XPS Viewer * (ดูลิงค์ดาวน์โหลดในความคิดเห็นด้านล่าง)
  3. พิมพ์เป็น PDF (Acrobat PDF หรือ CutePDF) โดยใช้ความละเอียดสูงสุด (600 DPI)
  4. เปิดด้วย Acrobat และใช้ตัวเลือก OCR (ภาพที่ค้นหาได้ (แน่นอน))

บิงโก!

ความคิดเห็นที่:

  • การใช้ความละเอียดสูงสุดและภาพที่ค้นหาได้ (แน่นอน) จะบันทึกข้อความของคุณโดยไม่สูญเสียลักษณะที่สะอาด ความละเอียดต่ำจะทำให้ข้อความของคุณอ่าน แต่ดูเส็งเคร็ง
  • ดาวน์โหลด Microsoft XPS (ไฟล์): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • หากคุณไม่ทราบว่า OCR คืออะไรหรือจะค้นหารูปภาพที่ค้นหาได้ (แน่นอน) หรือวิธีพิมพ์โดยใช้ "Microsoft XPS Document Writer", โปรด, Google ด้วยตัวคุณเองเพื่อประสบการณ์ที่ดีที่สุดของคุณเอง

* ดาวน์โหลดเฉพาะเมื่อคุณไม่ได้ติดตั้ง XPS

ตัวเลือก 2:

ทำสิ่งที่คล้ายกัน แต่บันทึกเป็นรูปภาพ (png, tiff, ... ) จากนั้นคุณจะต้องรวมหน้าทั้งหมดในไฟล์ "PDF"


1
ขั้นตอนที่ 1,2 และ 3 ดูเหมือนจะนานเมื่อคุณสามารถข้ามไปที่ขั้นตอนที่ 3 พิมพ์เป็น PDF (เช่นจากภายในโปรแกรมอ่าน PDF ของคุณ) ไม่จำเป็นต้องอ้อมผ่าน XPS
Hennes

@Hennes การทำขั้นตอนที่ 4 ทำให้เกิดข้อผิดพลาดAcrobat could not perform OCR on this page because: This page contains renderable text
Fuhrmanator

'ข้อความที่แสดงได้' ฟังดูเหมือนเป็นสิ่งที่ยังต้องวาด (แสดงผล) เป็นไปได้ทำไปแล้วและเก็บไว้เป็นบิตแมปที่สามารถใช้ OCR ได้หากคุณใช้ XPS แต่นั่นเป็นเพียงการเดา
Hennes

1

มีความเสี่ยงที่ข้อมูลจะไม่สามารถเรียกคืนได้ทั้งหมด เอกสาร PDF เป็นเอกสารหนึ่งที่วางอยู่เหนือเอกสารอื่นหนึ่งข้อความแบบง่ายรูปภาพอื่น เมื่อคุณคัดลอกและวางจากเอกสารคุณทำเครื่องหมายข้อความในขณะที่ดูรูปภาพ แต่สิ่งที่คัดลอกไปยังคลิปบอร์ดของคุณเป็นส่วนที่เกี่ยวข้องของส่วนข้อความ

ขึ้นอยู่กับวิธีสร้างเอกสารคุณภาพและความพร้อมใช้งานของส่วนข้อความอาจแตกต่างกันอย่างมาก หากคุณบันทึกเอกสารโปรแกรมประมวลผลคำในรูปแบบ PDF โดยใช้ Acrobat, Word, ไดรเวอร์เครื่องพิมพ์ PDF หรือวิธีการอื่นคุณภาพมักจะยอดเยี่ยมเนื่องจากไฟล์ข้อความสามารถสร้างได้จากข้อความต้นฉบับ อักขระพิเศษบางตัวอาจผิดเพี้ยน แต่โดยทั่วไปแล้วข้อความธรรมดาก็ใช้ได้

หากเอกสารถูกสร้างขึ้นจากภาพที่สแกนอย่างไรก็ตามส่วนของข้อความจะถูกสร้างขึ้นโดยการประมวลผล OCR ของภาพซึ่งสามารถให้ผลลัพธ์ที่ค่อนข้างน่าเศร้าโดยเฉพาะอย่างยิ่งหากต้นฉบับนั้นน้อยกว่าจุดประสงค์ที่เหมาะสมที่สุด

โปรแกรมที่ไม่ดีที่ใช้ในการสร้าง PDF หรือการตั้งค่าที่ไม่ถูกต้องอาจทำให้ส่วนของข้อความที่อ่านไม่ออกอย่างสมบูรณ์อาจเป็นไปได้ว่าการเข้ารหัสบางชนิดทำงานบนไฟล์หลังจากที่มันถูกสร้างขึ้น

บรรทัดล่างคือถ้าส่วนข้อความของเอกสารไม่ดีจริง ๆ ไม่มีวิธีที่จะทำให้ดีขึ้น ทางออกที่ดีที่สุดของคุณคือการลบส่วนข้อความทั้งหมดและให้โปรแกรมทำซ้ำกระบวนการ OCR ฉันคิดว่าอาจทำได้จากภายใน Acrobat แต่ฉันไม่แน่ใจทั้งหมด


1

เหตุผลหนึ่งที่เป็นไปได้สำหรับสิ่งนี้อาจเป็นได้ว่าแบบอักษรที่ฝังใน PDF นั้นใช้การเข้ารหัสแบบกำหนดเองซึ่งใช้ไม่ถูกต้องเมื่อคัดลอกข้อความจาก PDF

คุณสามารถใช้วิธีการต่าง ๆ เพื่อช่วยตัวเองจากการพิมพ์เนื้อหาทั้งหมดด้วยตนเอง

  1. คุณพยายามที่จะแยกข้อความด้วยหนึ่งในเครื่องมือ 'pdftotext.exe' ที่ดาวน์โหลดได้ทั่วทั้ง 'net หรือไม่? (ฉันขอแนะนำให้รวมอยู่ในftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip )
  2. รุ่นล่าสุดของ Acrobat Reader มีตัวเลือก"บันทึกเป็นข้อความ ..." สิ่งนี้ไม่ได้ใช้ "copy'n'paste" (ซึ่งให้ข้อความที่อ่านไม่ออก) แต่อาจใช้รูทีนซอฟต์แวร์เดียวกันกับที่ใช้ในการแสดงข้อความบนหน้าจอและอาจให้ผลลัพธ์ที่ใช้ได้มากกว่า
  3. ถ้า '2. ' ไม่ทำงานและหากคุณมีสิทธิ์เข้าถึง Acrobat Professional ให้ลองกลั่น PDF อีกครั้งโดยใช้หนึ่งในโปรไฟล์การฝังแบบอักษร
  4. ถ้า '3. ' ไม่ทำงานแม้ว่าคุณจะสามารถเข้าถึง Acrobat Professional ได้แล้วให้ลองกลั่น PDF อีกครั้ง แต่คราวนี้คุณควรใช้ตัวเลือก 'พิมพ์เป็นภาพ' (ใช้งานได้ผ่านปุ่ม 'ขั้นสูง' ที่มุมซ้ายล่างของงานพิมพ์หลัก โต้ตอบ) ตรวจสอบให้แน่ใจว่าคุณใช้ 600dpi (แม้ว่าไฟล์นั้นอาจสร้างไฟล์ขนาดใหญ่) PDF ที่เป็นผลลัพธ์จากนั้นคุณจะเปิดอีกครั้งใน Acrobat Pro ตอนนี้ใช้อัลกอริทึม 'OCR' ของ Acrobat กับไฟล์ซึ่งจะส่งผลให้ข้อความฝังตัว (ไม่ได้ใช้สำหรับการแสดงผลบนหน้าจอใน Reader แต่ใช้สำหรับการค้นหาและเน้นสตริง) ตอนนี้คุณสามารถลองอีกครั้งเพื่อแยกข้อความจาก PDF นี้โดยใช้วิธีที่กล่าวถึงข้างต้น

สำหรับฉันแล้วการใช้Acrobat Pro XIเพื่อพิมพ์ซ้ำเป็น PDF - แต่เมื่อเลือก"พิมพ์เป็นรูปภาพ" (ที่ 600 dpi) ในปุ่ม / กล่องโต้ตอบย่อยขั้นสูง ...จากกล่องโต้ตอบพิมพ์ ... - เป็นเคล็ดลับ จากนั้นคุณสามารถที่สุด OCR ผลได้อย่างถูกต้อง ไม่มีวิธีการแก้ปัญหาอื่น ๆ ที่กล่าวถึงหน้านี้ใช้งานได้ หมายเหตุ: สำหรับเอกสารขนาดใหญ่อาจใช้เวลาสักครู่และ PDF ที่ได้อาจมีขนาดค่อนข้างใหญ่
Glenn Slayden

@ GlennSlayden: ดีใจที่คำแนะนำของฉันใช้ได้กับคุณ ... สิ่งที่หายไปในนั้นที่คุณคิดว่ามันยังไม่สมควรได้รับการโหวตขึ้น?
Kurt Pfeifle

อืมฉันโหวตขึ้น มันยังคงแสดงให้ฉันในฐานะ '1' ข้อร้องเรียนเดียวของฉันคือคำตอบของคุณอยู่ที่ด้านล่างและฉันใช้เวลาสักครู่เพื่อค้นหา (ไม่ใช่ความผิดของคุณ ... )
Glenn Slayden

ตกลง @GlennSlayden แล้ว upvote นั้นต้องเป็น loooong มาแล้ว (นานก่อนที่ความคิดเห็นของคุณจะอยู่ด้านบน)
Kurt Pfeifle

ไม่ฉัน upvoted "12 ชั่วโมงที่ผ่านมา" ในเวลาเดียวกันฉันเขียนความคิดเห็น ... ฉันยังเห็นลูกศรสีน้ำเงินซึ่ง (ฉันเชื่อว่า) หมายถึงการลงคะแนนของฉันคือ (หนึ่ง) โหวตที่ลงทะเบียนในปัจจุบัน และฉันจำได้ว่ามันเป็น '0' ก่อนที่ฉันจะโหวตเมื่อคืนที่ผ่านมา
Glenn Slayden

1

หนึ่งในผู้ใช้ของฉันเพิ่งรายงานปัญหาเดียวกัน (PDF ถูกสร้างด้วย Distiller สำหรับ Windows) ว่าข้อความที่คัดลอกเป็นข้อความที่อ่านไม่ออกและเขาไม่สามารถค้นหาภายในเอกสารได้ ฉันลองบน Mac แล้วไม่พบปัญหาใด ๆ ปรากฏว่าฉันใช้แอปพลิเคชั่นดูตัวอย่างของ Apple ในขณะที่เขาใช้ Adobe Reader บนเครื่อง Windows ของเขา จากนั้นฉันลอง Adobe Reader บน Mac ของฉันโดยใช้เอฟเฟกต์เดียวกัน สำหรับฉันมันดูเหมือนว่า:

  • Adobe Reader กำลัง coyping และค้นหาในข้อความที่บันทึกไว้

  • ตัวอย่างของ Apple จะคัดลอกและค้นหาหลังจากใช้เวกเตอร์การเข้ารหัส

ฉันไม่สามารถพูดสิ่งนี้ได้อย่างแน่นอน แต่มันจะอธิบายการสังเกตของฉัน และมันจะอนุญาตให้ทำการเข้ารหัสทุกชนิดเมื่อทำการบันทึกไฟล์แบบรวม / ลดลงตามที่อธิบายไว้ในโพสต์อื่นที่นี่: ด้วย Preview คุณยังสามารถออกข้อความได้อีก

ครั้งแรกฉันคิดว่ามันจะมีเหตุผลมากขึ้นที่จะเข้ารหัสชุดย่อยแบบอักษรที่ฝังไว้เป็นรายการที่ต่อเนื่องกันแทนที่จะทิ้งไว้ข้างในและใช้ตำแหน่งอักขระดั้งเดิม แต่จากนั้นฉันก็รู้ว่าการใช้เวกเตอร์ที่เข้ารหัสไปยังชุดย่อยแบบอักษรกับรายการดั้งเดิมอักขระที่ใช้บ่อยสามารถมีบิตน้อยตั้งค่าเป็น 1 ในไบต์ของพวกเขาและสามารถบีบอัดในวิธีที่ดีกว่า ข้อความโดยรวมในลักษณะนี้)


1

การอัปโหลดไปยังGoogle เอกสารและการใช้ตัวเลือกมุมมอง> HTML ธรรมดาให้ข้อความที่สามารถคัดลอกข้อความได้ถูกต้องประมาณ 80% โดยที่ไม่มีช่องว่างเล็กน้อย

นี้หัวข้อที่มีคำตอบที่ได้รับการยอมรับที่จะปัญหาเดียวกันอธิบายนี้กับตัวอย่างการทำงาน


1

ฉันยังไม่ได้ลองใช้ตัวเลือก Google เอกสารเนื่องจากยังไม่รองรับในสำนักงานของฉัน อย่างไรก็ตามโดยการพิมพ์ไฟล์ไปที่ "ScanSoft PDF Create!" จาก "Acrobat 9" (พิมพ์ไฟล์ทั้งหมดเป็นภาพ) และเปิดไฟล์ที่พิมพ์ใน "Nuance PDF Converter" (จะแจ้งให้ฉันทราบหากฉันต้องการให้ไฟล์รูปภาพสามารถค้นหาและแก้ไขได้ซึ่งฉันเลือก) ฉันสามารถ มีเอกสาร Word ที่ฉันสามารถคัดลอกและวางได้อย่างง่ายดาย มันไม่สมบูรณ์แบบแม้ว่าจะมีความแม่นยำประมาณ 80-90% เท่านั้น แต่เดี๋ยวก่อนคุณยังมีไฟล์ PDF ต้นฉบับเพื่อเปรียบเทียบและชดเชยส่วนที่ไม่สามารถแก้ไขได้ ประหยัดเวลาในการพิมพ์ทุกอย่าง 2c ของฉัน


0

ฉันสร้าง PDF ข้อความที่แก้ไขได้ด้วย Scansoft PDF Converter รุ่นเก่าสำหรับ Windows XP แล้วรวมหน้าต่างๆในโปรแกรม Preview ของ Mac สำหรับแต่ละหน้าแยกฉันสามารถค้นหาคัดลอกและส่งออกข้อความอย่างถูกต้องจาก Adobe Reader บน Mac เมื่อรวมกันโดยดูตัวอย่างและบันทึกเป็นไฟล์เดียวทุกอย่างดูดีบนหน้าจอ แต่มีเพียงไม่กี่ข้อความเท่านั้นที่สามารถค้นหา / ส่งออกได้อย่างถูกต้อง ปัญหานั้นทำให้ฉันมาที่นี่

โพสต์ที่นี่ให้คำแนะนำที่ดีแก่ฉัน (ขอบคุณ!) ฉันดูคุณสมบัติของไฟล์สำหรับแบบอักษร ไฟล์หน้าเดียวจาก Win XP (ที่ทุกอย่างดี) กล่าวว่าการเข้ารหัสเป็น ANSI ไฟล์ที่รวมอยู่ในภาพตัวอย่าง (โดยที่ข้อความที่คัดลอกนั้นอ่านไม่ออก) แสดงการเข้ารหัสสำหรับแบบอักษรส่วนใหญ่ว่า "มีอยู่ในตัว" โดยมีบางส่วนเป็น "โรมัน"

วิธีการแก้ไขปัญหาของฉันอยู่ภายใต้จมูกของฉันตลอดเวลา - โปรแกรม Scansoft สามารถรวมไฟล์ได้ เมื่อฉันใช้ combiner ของ Scansoft และเปิดไฟล์บน Mac แบบอักษรทั้งหมดจะแสดงเป็นแบบเข้ารหัส ANSI และข้อความทั้งหมดถูกส่งออก / คัดลอกอย่างสมบูรณ์ ทำไมบนโลกนี้ฉันไม่ได้รวมมันเข้ากับตัวแปลง PDF ในตอนแรกฉันไม่รู้ ขอบคุณผู้โพสต์!

สิ่งเดียวกันคือการเปิดไฟล์บนระบบ Linux

ฉันรู้ว่านี่ไม่ได้อธิบายปัญหาที่เกิดขึ้นกับ Windows เท่านั้น - ยกเว้นว่า PDF จะมีต้นกำเนิดที่คล้ายกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.