PDF มีข้อความที่อ่านไม่ออกเมื่อคัดลอกการวาง

23

ฉันพยายามคัดลอกและวางข้อความจากไฟล์ PDF

อย่างไรก็ตามเมื่อใดก็ตามที่ฉันวางข้อความต้นฉบับมันเป็นเรื่องยุ่งมากของตัวละครที่อ่านไม่ออก ข้อความมีลักษณะดังต่อไปนี้ (นี่เป็นเพียงหนึ่งแยกเล็ก ๆ ):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14,

ฉันลองใช้ทั้งในโปรแกรมอ่าน Adobe และ Foxit PDF ฉันทำ 'บันทึกเป็นข้อความ' ใน Adobe Reader และไฟล์ข้อความผลลัพธ์เป็นข้อความที่อ่านไม่ออกเหมือนกัน

ความคิดใดที่ฉันจะทำให้ข้อความนี้ไม่อ่านไม่ออก? (นอกเหนือจากการพิมพ์ด้วยตนเอง ... มีข้อความจำนวนมากที่จะดึงออกมา)

pdf adobe-reader foxit-reader

— NGM
แหล่งที่มา

ลองบางส่วนสาธารณูปโภคโปรแกรมอ่านหน้าจอ (ซึ่งทำงานร่วมกับ jpeg, ทำหน้าจอพิมพ์และมีคุณไป) หรือนี่เป็นวิธีที่แตกต่างกัน (แค่ 'เดา' อย่ากัดฉันฉันใช้วิธีแรกแล้วหวังว่าจะมีวิธีที่สะดวกกว่า)

— Apache

คำถามที่คล้ายกัน: superuser.com/questions/119393/…

— Hugh Allen

ฉันยังสามารถยืนยันปัญหานี้กับ OS X อย่างน้อยเป็น 10.8.2 ฉันใช้เวลาเล็กน้อยในการผ่านโครงสร้างไฟล์ PDF แต่น่าเสียดายที่ฉันไม่เห็นวิธีการซ่อมแซมความเสียหาย "PreFlight" ของ Acrobat Pro จะรายงานปัญหาเกี่ยวกับไฟล์เมื่อตรวจสอบกับมาตรฐาน PDF / A และรายงานสินค้าคงคลังจะแสดงสัญลักษณ์ที่ถูกแมปเทียบกับอักขระ Unicode ที่ไม่ถูกต้องอย่างชัดเจน ฉันได้รับรายงานข้อผิดพลาดกับ Apple - ID 12655651 ฉันจะรายงานกลับที่นี่ถ้า / เมื่อฉันได้รับการปรับปรุงใด ๆ

— KenD

ไม่ควรมีประโยชน์superuser.com/a/481510/153937

— Ankit

11

วิธีที่ง่ายที่สุดในการหลีกเลี่ยงปัญหานี้คือการเปิดไฟล์ในGoogle Chrome เวอร์ชันล่าสุดด้วยปลั๊กอินการอ่าน PDF ในตัว จากนั้นคุณสามารถใช้คุณลักษณะการค้นหาของ Chrome เพื่อค้นหาข้อความและคัดลอกวางทำงานได้อย่างถูกต้อง

ฉันต้องการให้คะแนนความคิดเห็นของ pipitas ในคำตอบของ Shiki แต่ฉันไม่มีเครดิต :( ปัญหาอาจเป็นการเข้ารหัสแบบอักษรที่กำหนดเองไม่ใช่การเข้ารหัสใน Acrobat ให้คลิกไฟล์ -> คุณสมบัติจากนั้นคลิกแท็บแบบอักษรเพื่อดูการเข้ารหัส และแท็บความปลอดภัยเพื่อดูว่ามีการเข้ารหัสหรือไม่

— acatalept
แหล่งที่มา

อันที่จริงการเข้ารหัสตัวอักษรที่กำหนดเองเป็นผู้ร้ายสำหรับฉัน อย่างไรก็ตาม Chrome ไม่ใช่วิธีแก้ปัญหา ฉันแก้ไขปัญหาบางส่วนด้วย Ghostscript สร้าง PDF จาก PS (ฉันโชคดีที่มีซอร์ส PS) กลุ่มตัวละครใด ๆ ที่ LaTeX ใช้ตัวยึด (เช่น ff, c, fi, ฯลฯ ) จะไม่แสดงในข้อความที่คัดลอกของ PDF ซึ่งจะต้องมีการแก้ไขเมื่อคุณคัดลอก / วาง

— Fuhrmanator

1

ปัญหาเดียวกันกับโครเมี่ยม

— JinSnow

4

ฉันค้นพบปัญหานี้ด้วย PDF ที่ฉันสร้างขึ้นและฉันเชื่อว่าฉันติดตามสาเหตุของปัญหาด้วยการใช้ Preview ของ Mac OS X เพื่อลดขนาดไฟล์ PDF

ฉันได้สร้างตัวกรองควอตซ์บางส่วนโดยใช้ Colorsync Utility เพื่อบีบอัดภาพในรูปแบบ PDF เพื่อลดขนาดไฟล์โดยรวมของ PDF ด้วยภาพ เช่นที่อธิบายไว้ที่นี่: http://www.macosxhints.com/article.php?story=20031106133852693

ฉันพบว่าฉันสามารถคัดลอกและวางข้อความจากไฟล์ PDF ต้นฉบับ (ไม่บีบอัด) ได้อย่างง่ายดาย แต่หลังจากเรียกใช้ PDF นั้นผ่านตัวกรองลดขนาดไฟล์ที่ฉันสร้างขึ้นไฟล์ PDF ที่บีบอัดที่ได้จะไม่คัดลอกอย่างชัดเจน สตริงที่คุณโพสต์)

อย่างไรก็ตามการเรียกใช้ PDF ต้นฉบับเดียวกันผ่านทางเอกสารของ Adobe Acrobat Pro> ลดขนาดไฟล์ฟังก์ชั่น PDF ที่ได้รับการบีบอัดที่ได้นั้นสามารถคัดลอกและวางข้อความได้สำเร็จ

ดังนั้นสิ่งนี้จะไม่เป็นประโยชน์อย่างสิ้นเชิงในกรณีของคุณโดยสันนิษฐานว่าไฟล์ PDF ของคุณได้รับจากที่อื่นและคุณไม่สามารถไปที่เวอร์ชันดั้งเดิมหากไฟล์นั้นถูกบีบอัดในบางวิธี แต่นั่นอาจเป็นคำอธิบาย - ไฟล์ดังกล่าวถูกทำให้ยุ่งเหยิงในความพยายามที่จะลดขนาดไฟล์

สิ่งนี้อาจมีประโยชน์สำหรับผู้สร้างเนื้อหาที่มีปัญหาคล้ายกันในการคัดลอกและวางข้อความจาก PDF โปรดใช้ตัวกรอง OS X Quartz เพื่อลดขนาดไฟล์ PDF ของคุณ!

- ฉันได้สังเกตเห็นปัญหานี้เมื่อรวม PDF กับ Preview แหล่ง PDF สองแหล่งสามารถคัดลอกและวางได้ แต่เมื่อลากหน้าจากไฟล์หนึ่งไปยังไฟล์อื่นจากนั้นบันทึก PDF ที่รวมกันข้อความในเอกสารที่รวมกันจะไม่สามารถคัดลอก / วางได้ เอกสารทั้งสองนี้สร้างขึ้นพร้อมกันด้วย Filemaker Pro 11 บน Mac - ฉันไม่สามารถจินตนาการได้ว่าพวกเขาจะมีการเข้ารหัสที่แตกต่างกันหรือสิ่งใด ๆ

— แดเนียล
แหล่งที่มา

ฉันได้รับไฟล์ PDF สองสามไฟล์จากผู้ใช้ mac os เลือกไม่เป็นไร แต่การคัดลอกและวางจะทำให้คุณมีขยะ ลองใช้โปรแกรมแปลงไฟล์ PDF เป็น word converter รวมถึง googledoc, adobe save เป็น text ซึ่งทั้งหมดนี้จะให้ข้อความที่อ่านไม่ออก

— tigr

ฉันสงสัยว่าการหดตัวของ OS X PDF เป็นสาเหตุของปัญหา มีใครรู้วิธีการ "ยกเลิก" การดำเนินการดังกล่าวหรือไม่? ขอบคุณ!

— tigr

ฉันพิมพ์ไฟล์ pdf ไปยังเครื่องพิมพ์ (เสมือน) หลายตัวและฉันได้รับไฟล์ PDF ขนาด 4x4 ที่สูงเกินจริง ไฟล์ที่พิมพ์จะปรากฏเป็นรูปภาพโดยไม่สามารถเลือกข้อความได้ในขณะที่ต้นฉบับสามารถเลือกได้ (อ่านไม่ออก)

— tigr

4

มีวิธีง่าย ๆ อีกวิธีในการแก้ไขปัญหา :)

เพียงพิมพ์เอกสารโดยใช้ CutePdf เครื่องพิมพ์ Adobe 2 Pdf หรือสิ่งอื่นที่คล้ายคลึงกัน บรรทัดล่างคือคุณต้องพิมพ์ในรูปแบบ pdf

ในหลายกรณีจะสามารถลบปัญหาได้อย่างง่ายดาย

— Nick Olszanski
แหล่งที่มา

2

โซลูชันที่เหมาะกับฉัน:

อัปโหลดเอกสารไปยัง Google ไดรฟ์ / เอกสาร
Google จะนำเข้า (ในปี 2013) ในรูปแบบ PDF
เปิดมุมมอง PDF และเลือกไฟล์ > เปิดด้วย > Google เอกสาร
จะใช้เวลาประมาณหนึ่งนาทีในการส่งออกเอกสาร

ผลลัพธ์ไม่สมบูรณ์ แต่ได้รับฉัน 80% จากที่นั่นและให้ข้อความที่เพียงพอแก่ฉันซึ่งฉันไม่ต้องเขียนใหม่ทุกอย่าง!

— กาวินมิลเลอร์
แหล่งที่มา

2

แก้ไขแล้ว: (ทำงานให้ฉันใน Windows 8, Acrobat XI, Office 2010)

ตัวเลือกที่ 1:

พิมพ์จาก Acrobat โดยใช้ "Microsoft XPS Document Writer" ผลลัพธ์คือ: "your name.oxps"
เปิด "... oxps" ด้วย XPS Viewer * (ดูลิงค์ดาวน์โหลดในความคิดเห็นด้านล่าง)
พิมพ์เป็น PDF (Acrobat PDF หรือ CutePDF) โดยใช้ความละเอียดสูงสุด (600 DPI)
เปิดด้วย Acrobat และใช้ตัวเลือก OCR (ภาพที่ค้นหาได้ (แน่นอน))

บิงโก!

ความคิดเห็นที่:

การใช้ความละเอียดสูงสุดและภาพที่ค้นหาได้ (แน่นอน) จะบันทึกข้อความของคุณโดยไม่สูญเสียลักษณะที่สะอาด ความละเอียดต่ำจะทำให้ข้อความของคุณอ่าน แต่ดูเส็งเคร็ง
ดาวน์โหลด Microsoft XPS (ไฟล์): http://www.microsoft.com/en-us/download/details.aspx?id=11816
หากคุณไม่ทราบว่า OCR คืออะไรหรือจะค้นหารูปภาพที่ค้นหาได้ (แน่นอน) หรือวิธีพิมพ์โดยใช้ "Microsoft XPS Document Writer", โปรด, Google ด้วยตัวคุณเองเพื่อประสบการณ์ที่ดีที่สุดของคุณเอง

* ดาวน์โหลดเฉพาะเมื่อคุณไม่ได้ติดตั้ง XPS

ตัวเลือก 2:

ทำสิ่งที่คล้ายกัน แต่บันทึกเป็นรูปภาพ (png, tiff, ... ) จากนั้นคุณจะต้องรวมหน้าทั้งหมดในไฟล์ "PDF"

— user210118
แหล่งที่มา

1

ขั้นตอนที่ 1,2 และ 3 ดูเหมือนจะนานเมื่อคุณสามารถข้ามไปที่ขั้นตอนที่ 3 พิมพ์เป็น PDF (เช่นจากภายในโปรแกรมอ่าน PDF ของคุณ) ไม่จำเป็นต้องอ้อมผ่าน XPS

— Hennes

@Hennes การทำขั้นตอนที่ 4 ทำให้เกิดข้อผิดพลาดAcrobat could not perform OCR on this page because: This page contains renderable text

— Fuhrmanator

'ข้อความที่แสดงได้' ฟังดูเหมือนเป็นสิ่งที่ยังต้องวาด (แสดงผล) เป็นไปได้ทำไปแล้วและเก็บไว้เป็นบิตแมปที่สามารถใช้ OCR ได้หากคุณใช้ XPS แต่นั่นเป็นเพียงการเดา

— Hennes

1

มีความเสี่ยงที่ข้อมูลจะไม่สามารถเรียกคืนได้ทั้งหมด เอกสาร PDF เป็นเอกสารหนึ่งที่วางอยู่เหนือเอกสารอื่นหนึ่งข้อความแบบง่ายรูปภาพอื่น เมื่อคุณคัดลอกและวางจากเอกสารคุณทำเครื่องหมายข้อความในขณะที่ดูรูปภาพ แต่สิ่งที่คัดลอกไปยังคลิปบอร์ดของคุณเป็นส่วนที่เกี่ยวข้องของส่วนข้อความ

ขึ้นอยู่กับวิธีสร้างเอกสารคุณภาพและความพร้อมใช้งานของส่วนข้อความอาจแตกต่างกันอย่างมาก หากคุณบันทึกเอกสารโปรแกรมประมวลผลคำในรูปแบบ PDF โดยใช้ Acrobat, Word, ไดรเวอร์เครื่องพิมพ์ PDF หรือวิธีการอื่นคุณภาพมักจะยอดเยี่ยมเนื่องจากไฟล์ข้อความสามารถสร้างได้จากข้อความต้นฉบับ อักขระพิเศษบางตัวอาจผิดเพี้ยน แต่โดยทั่วไปแล้วข้อความธรรมดาก็ใช้ได้

หากเอกสารถูกสร้างขึ้นจากภาพที่สแกนอย่างไรก็ตามส่วนของข้อความจะถูกสร้างขึ้นโดยการประมวลผล OCR ของภาพซึ่งสามารถให้ผลลัพธ์ที่ค่อนข้างน่าเศร้าโดยเฉพาะอย่างยิ่งหากต้นฉบับนั้นน้อยกว่าจุดประสงค์ที่เหมาะสมที่สุด

โปรแกรมที่ไม่ดีที่ใช้ในการสร้าง PDF หรือการตั้งค่าที่ไม่ถูกต้องอาจทำให้ส่วนของข้อความที่อ่านไม่ออกอย่างสมบูรณ์อาจเป็นไปได้ว่าการเข้ารหัสบางชนิดทำงานบนไฟล์หลังจากที่มันถูกสร้างขึ้น

บรรทัดล่างคือถ้าส่วนข้อความของเอกสารไม่ดีจริง ๆ ไม่มีวิธีที่จะทำให้ดีขึ้น ทางออกที่ดีที่สุดของคุณคือการลบส่วนข้อความทั้งหมดและให้โปรแกรมทำซ้ำกระบวนการ OCR ฉันคิดว่าอาจทำได้จากภายใน Acrobat แต่ฉันไม่แน่ใจทั้งหมด

— เอมิล
แหล่งที่มา

1

เหตุผลหนึ่งที่เป็นไปได้สำหรับสิ่งนี้อาจเป็นได้ว่าแบบอักษรที่ฝังใน PDF นั้นใช้การเข้ารหัสแบบกำหนดเองซึ่งใช้ไม่ถูกต้องเมื่อคัดลอกข้อความจาก PDF

คุณสามารถใช้วิธีการต่าง ๆ เพื่อช่วยตัวเองจากการพิมพ์เนื้อหาทั้งหมดด้วยตนเอง

คุณพยายามที่จะแยกข้อความด้วยหนึ่งในเครื่องมือ 'pdftotext.exe' ที่ดาวน์โหลดได้ทั่วทั้ง 'net หรือไม่? (ฉันขอแนะนำให้รวมอยู่ในftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip )
รุ่นล่าสุดของ Acrobat Reader มีตัวเลือก"บันทึกเป็นข้อความ ..." สิ่งนี้ไม่ได้ใช้ "copy'n'paste" (ซึ่งให้ข้อความที่อ่านไม่ออก) แต่อาจใช้รูทีนซอฟต์แวร์เดียวกันกับที่ใช้ในการแสดงข้อความบนหน้าจอและอาจให้ผลลัพธ์ที่ใช้ได้มากกว่า
ถ้า '2. ' ไม่ทำงานและหากคุณมีสิทธิ์เข้าถึง Acrobat Professional ให้ลองกลั่น PDF อีกครั้งโดยใช้หนึ่งในโปรไฟล์การฝังแบบอักษร
ถ้า '3. ' ไม่ทำงานแม้ว่าคุณจะสามารถเข้าถึง Acrobat Professional ได้แล้วให้ลองกลั่น PDF อีกครั้ง แต่คราวนี้คุณควรใช้ตัวเลือก 'พิมพ์เป็นภาพ' (ใช้งานได้ผ่านปุ่ม 'ขั้นสูง' ที่มุมซ้ายล่างของงานพิมพ์หลัก โต้ตอบ) ตรวจสอบให้แน่ใจว่าคุณใช้ 600dpi (แม้ว่าไฟล์นั้นอาจสร้างไฟล์ขนาดใหญ่) PDF ที่เป็นผลลัพธ์จากนั้นคุณจะเปิดอีกครั้งใน Acrobat Pro ตอนนี้ใช้อัลกอริทึม 'OCR' ของ Acrobat กับไฟล์ซึ่งจะส่งผลให้ข้อความฝังตัว (ไม่ได้ใช้สำหรับการแสดงผลบนหน้าจอใน Reader แต่ใช้สำหรับการค้นหาและเน้นสตริง) ตอนนี้คุณสามารถลองอีกครั้งเพื่อแยกข้อความจาก PDF นี้โดยใช้วิธีที่กล่าวถึงข้างต้น

— เคิร์ตไฟเฟิล
แหล่งที่มา

สำหรับฉันแล้วการใช้Acrobat Pro XIเพื่อพิมพ์ซ้ำเป็น PDF - แต่เมื่อเลือก"พิมพ์เป็นรูปภาพ" (ที่ 600 dpi) ในปุ่ม / กล่องโต้ตอบย่อยขั้นสูง ...จากกล่องโต้ตอบพิมพ์ ... - เป็นเคล็ดลับ จากนั้นคุณสามารถที่สุด OCR ผลได้อย่างถูกต้อง ไม่มีวิธีการแก้ปัญหาอื่น ๆ ที่กล่าวถึงหน้านี้ใช้งานได้ หมายเหตุ: สำหรับเอกสารขนาดใหญ่อาจใช้เวลาสักครู่และ PDF ที่ได้อาจมีขนาดค่อนข้างใหญ่

— Glenn Slayden

@ GlennSlayden: ดีใจที่คำแนะนำของฉันใช้ได้กับคุณ ... สิ่งที่หายไปในนั้นที่คุณคิดว่ามันยังไม่สมควรได้รับการโหวตขึ้น?

— Kurt Pfeifle

อืมฉันโหวตขึ้น มันยังคงแสดงให้ฉันในฐานะ '1' ข้อร้องเรียนเดียวของฉันคือคำตอบของคุณอยู่ที่ด้านล่างและฉันใช้เวลาสักครู่เพื่อค้นหา (ไม่ใช่ความผิดของคุณ ... )

— Glenn Slayden

ตกลง @GlennSlayden แล้ว upvote นั้นต้องเป็น loooong มาแล้ว (นานก่อนที่ความคิดเห็นของคุณจะอยู่ด้านบน)

— Kurt Pfeifle

ไม่ฉัน upvoted "12 ชั่วโมงที่ผ่านมา" ในเวลาเดียวกันฉันเขียนความคิดเห็น ... ฉันยังเห็นลูกศรสีน้ำเงินซึ่ง (ฉันเชื่อว่า) หมายถึงการลงคะแนนของฉันคือ (หนึ่ง) โหวตที่ลงทะเบียนในปัจจุบัน และฉันจำได้ว่ามันเป็น '0' ก่อนที่ฉันจะโหวตเมื่อคืนที่ผ่านมา

— Glenn Slayden

1

หนึ่งในผู้ใช้ของฉันเพิ่งรายงานปัญหาเดียวกัน (PDF ถูกสร้างด้วย Distiller สำหรับ Windows) ว่าข้อความที่คัดลอกเป็นข้อความที่อ่านไม่ออกและเขาไม่สามารถค้นหาภายในเอกสารได้ ฉันลองบน Mac แล้วไม่พบปัญหาใด ๆ ปรากฏว่าฉันใช้แอปพลิเคชั่นดูตัวอย่างของ Apple ในขณะที่เขาใช้ Adobe Reader บนเครื่อง Windows ของเขา จากนั้นฉันลอง Adobe Reader บน Mac ของฉันโดยใช้เอฟเฟกต์เดียวกัน สำหรับฉันมันดูเหมือนว่า:

Adobe Reader กำลัง coyping และค้นหาในข้อความที่บันทึกไว้
ตัวอย่างของ Apple จะคัดลอกและค้นหาหลังจากใช้เวกเตอร์การเข้ารหัส

ฉันไม่สามารถพูดสิ่งนี้ได้อย่างแน่นอน แต่มันจะอธิบายการสังเกตของฉัน และมันจะอนุญาตให้ทำการเข้ารหัสทุกชนิดเมื่อทำการบันทึกไฟล์แบบรวม / ลดลงตามที่อธิบายไว้ในโพสต์อื่นที่นี่: ด้วย Preview คุณยังสามารถออกข้อความได้อีก

ครั้งแรกฉันคิดว่ามันจะมีเหตุผลมากขึ้นที่จะเข้ารหัสชุดย่อยแบบอักษรที่ฝังไว้เป็นรายการที่ต่อเนื่องกันแทนที่จะทิ้งไว้ข้างในและใช้ตำแหน่งอักขระดั้งเดิม แต่จากนั้นฉันก็รู้ว่าการใช้เวกเตอร์ที่เข้ารหัสไปยังชุดย่อยแบบอักษรกับรายการดั้งเดิมอักขระที่ใช้บ่อยสามารถมีบิตน้อยตั้งค่าเป็น 1 ในไบต์ของพวกเขาและสามารถบีบอัดในวิธีที่ดีกว่า ข้อความโดยรวมในลักษณะนี้)

— Reuti
แหล่งที่มา

1

การอัปโหลดไปยังGoogle เอกสารและการใช้ตัวเลือกมุมมอง> HTML ธรรมดาให้ข้อความที่สามารถคัดลอกข้อความได้ถูกต้องประมาณ 80% โดยที่ไม่มีช่องว่างเล็กน้อย

นี้หัวข้อที่มีคำตอบที่ได้รับการยอมรับที่จะปัญหาเดียวกันอธิบายนี้กับตัวอย่างการทำงาน

— Teqchiqe
แหล่งที่มา

1

ฉันยังไม่ได้ลองใช้ตัวเลือก Google เอกสารเนื่องจากยังไม่รองรับในสำนักงานของฉัน อย่างไรก็ตามโดยการพิมพ์ไฟล์ไปที่ "ScanSoft PDF Create!" จาก "Acrobat 9" (พิมพ์ไฟล์ทั้งหมดเป็นภาพ) และเปิดไฟล์ที่พิมพ์ใน "Nuance PDF Converter" (จะแจ้งให้ฉันทราบหากฉันต้องการให้ไฟล์รูปภาพสามารถค้นหาและแก้ไขได้ซึ่งฉันเลือก) ฉันสามารถ มีเอกสาร Word ที่ฉันสามารถคัดลอกและวางได้อย่างง่ายดาย มันไม่สมบูรณ์แบบแม้ว่าจะมีความแม่นยำประมาณ 80-90% เท่านั้น แต่เดี๋ยวก่อนคุณยังมีไฟล์ PDF ต้นฉบับเพื่อเปรียบเทียบและชดเชยส่วนที่ไม่สามารถแก้ไขได้ ประหยัดเวลาในการพิมพ์ทุกอย่าง 2c ของฉัน

— Jhonrie
แหล่งที่มา

0

ฉันสร้าง PDF ข้อความที่แก้ไขได้ด้วย Scansoft PDF Converter รุ่นเก่าสำหรับ Windows XP แล้วรวมหน้าต่างๆในโปรแกรม Preview ของ Mac สำหรับแต่ละหน้าแยกฉันสามารถค้นหาคัดลอกและส่งออกข้อความอย่างถูกต้องจาก Adobe Reader บน Mac เมื่อรวมกันโดยดูตัวอย่างและบันทึกเป็นไฟล์เดียวทุกอย่างดูดีบนหน้าจอ แต่มีเพียงไม่กี่ข้อความเท่านั้นที่สามารถค้นหา / ส่งออกได้อย่างถูกต้อง ปัญหานั้นทำให้ฉันมาที่นี่

โพสต์ที่นี่ให้คำแนะนำที่ดีแก่ฉัน (ขอบคุณ!) ฉันดูคุณสมบัติของไฟล์สำหรับแบบอักษร ไฟล์หน้าเดียวจาก Win XP (ที่ทุกอย่างดี) กล่าวว่าการเข้ารหัสเป็น ANSI ไฟล์ที่รวมอยู่ในภาพตัวอย่าง (โดยที่ข้อความที่คัดลอกนั้นอ่านไม่ออก) แสดงการเข้ารหัสสำหรับแบบอักษรส่วนใหญ่ว่า "มีอยู่ในตัว" โดยมีบางส่วนเป็น "โรมัน"

วิธีการแก้ไขปัญหาของฉันอยู่ภายใต้จมูกของฉันตลอดเวลา - โปรแกรม Scansoft สามารถรวมไฟล์ได้ เมื่อฉันใช้ combiner ของ Scansoft และเปิดไฟล์บน Mac แบบอักษรทั้งหมดจะแสดงเป็นแบบเข้ารหัส ANSI และข้อความทั้งหมดถูกส่งออก / คัดลอกอย่างสมบูรณ์ ทำไมบนโลกนี้ฉันไม่ได้รวมมันเข้ากับตัวแปลง PDF ในตอนแรกฉันไม่รู้ ขอบคุณผู้โพสต์!

สิ่งเดียวกันคือการเปิดไฟล์บนระบบ Linux

ฉันรู้ว่านี่ไม่ได้อธิบายปัญหาที่เกิดขึ้นกับ Windows เท่านั้น - ยกเว้นว่า PDF จะมีต้นกำเนิดที่คล้ายกัน

— Jimbo
แหล่งที่มา