วิธีคัดลอกข้อความจาก PDF โดยไม่เสียรูปแบบ?


41

เมื่อฉันคัดลอกข้อความออกจากไฟล์ PDF และลงในตัวแก้ไขข้อความมันจะจบลงด้วยการจัดการหลายวิธี การจัดรูปแบบเหมือนตัวหนาและตัวเอียงจะหายไป ตัวแบ่งบรรทัดที่อ่อนนุ่มภายในย่อหน้าของข้อความจะถูกแปลงเป็นตัวแบ่งบรรทัดที่ยาก เครื่องหมายขีดคั่นเพื่อแบ่งคำข้ามสองบรรทัดจะถูกเก็บรักษาไว้แม้ว่าจะไม่ควรเป็น และคำพูดเดี่ยวและคู่จะถูกแทนที่ด้วย? สัญญาณ

เป็นการดีที่ฉันต้องการที่จะสามารถคัดลอกข้อความจาก PDF และมีการจัดรูปแบบการแปลงเป็นรหัส HTML, "คำพูดสมาร์ท" แปลงเป็น "และ" และแบ่งบรรทัดอย่างถูกต้องมีวิธีการทำเช่นนี้?


2
Word 2013 สามารถเปิด PDF ได้ ไม่สมบูรณ์ แต่ทำได้
pratnala

อาจเกี่ยวข้อง: superuser.com/a/455278/13787
Steven R. Loomis

คำตอบ:


54

ประการแรกคุณต้องเข้าใจว่า PDF คืออะไร ไฟล์ PDF ถูกออกแบบมาเพื่อเลียนแบบที่พิมพ์หน้าและพวกเขาได้รับการออกแบบเฉพาะเป็นรูปแบบการส่งออกไม่ได้เป็นรูปแบบการป้อน PDF นั้นเป็นแผนที่ที่มีตำแหน่งที่แน่นอนของตัวละคร (ตัวอักษรหรือเครื่องหมายวรรคตอน ฯลฯ ) หรือรูปภาพ ในกรณีส่วนใหญ่ PDF ไม่ได้จัดเก็บข้อมูลเกี่ยวกับที่หนึ่งคำลงท้ายและอื่นเริ่มต้นสิ่งที่น้อยมากเช่นตัวแบ่งอ่อนเมื่อเทียบกับตัวแบ่งหนักสำหรับย่อหน้าท้าย

(PDF ล่าสุดไม่กี่แห่งจะเก็บข้อมูลบางอย่างเกี่ยวกับสิ่งนี้ แต่เป็นเทคโนโลยีใหม่และคุณโชคดีที่ได้พบ PDF เช่นนั้นแม้ว่าคุณจะทำเช่นนั้นโปรแกรมดู PDF ของคุณอาจไม่ทราบ)

อย่างไรก็ตามมันก็ขึ้นอยู่กับซอฟต์แวร์ของคุณที่จะใช้ "ปัญญาประดิษฐ์" บางอย่างเพื่อแยกออกจากที่ตั้งของตัวละครแต่ละตัวว่าอะไรคือคำอะไรคือย่อหน้าอะไรและอื่น ๆ ซอฟต์แวร์ที่แตกต่างกันจะทำสิ่งนี้ได้ดีกว่าซอฟต์แวร์อื่นและมันก็ขึ้นอยู่กับว่า PDF นั้นถูกสร้างขึ้นมาอย่างไร ไม่ว่าในกรณีใดคุณไม่ควรคาดหวังผลลัพธ์ที่สมบูรณ์แบบ การมีเอาต์พุต PDF ไม่เหมือนกับการมีเอกสารต้นฉบับ ดีกว่าที่จะลองรับว่าถ้าคุณสามารถ

ทางออกมาตรฐานสำหรับปัญหาของคุณคือการใช้ Adobe Acrobat Professional (อันที่แพงไม่ใช่ตัวอ่านฟรี) เพื่อแปลง PDF เป็น HTML แม้นั่นจะไม่ได้ผลลัพธ์ที่สมบูรณ์แบบ

มีซอฟต์แวร์ฟรีที่สามารถใช้ดึงข้อความจาก PDF ด้วยการฟอร์แมตบางส่วนได้ แต่อย่าคาดหวังผลลัพธ์ที่สมบูรณ์แบบอีกครั้ง ดูตัวอย่างขนาด (ซึ่งสามารถแปลงเป็นรูปแบบ RTF), pdftohtml / pdfreflowหรือAbiWord word processor (เปิดใช้งานปลั๊กอินการนำเข้า / ส่งออกทั้งหมด) นอกจากนี้ยังมีปลั๊กอินนำเข้า PDF สำหรับ OpenOffice

แต่โปรดอย่าคาดหวังความสมบูรณ์แบบด้วยผลลัพธ์เหล่านี้ คุณกำลังต่อต้านข้าวที่นี่ PDF ไม่ได้หมายถึงรูปแบบอินพุตที่แก้ไขได้


2
ข้อเสนอแนะ 5 ปีต่อมา: ไม่มีการปรับปรุงใหญ่: ฉันต้องแปลงเป็น HTML (โดยใช้ acrobat x) แล้วใส่แต่ละแถวลงในตาราง MSword (การออมสำหรับ word หรือ excel หรือ txt เพียงแค่ทำให้ทุกอย่างสับสนการคัดลอกที่ผ่านมาจาก chrome ก็ไม่ได้ผลเลย) ยังคงรอซอฟต์แวร์อัจฉริยะ (มาก)
JinSnow

คลิกขวาบนตารางที่เลือก "คัดลอกด้วยการจัดรูปแบบ" ทำงานด้วยโดยมีข้อ จำกัด ดังกล่าวข้างต้น
JinSnow

1
เพราะนี่เป็นคำตอบที่ได้รับการยอมรับฉันขอแนะนำให้คุณพูดถึงตัวเลือก (ใหม่กว่า) ที่ pratnala เขียนไว้ในความคิดเห็นของเขา - เปิดไฟล์ PDF โดยตรงจาก Word 2013 ในไฟล์ PDF บางรุ่นที่ฉันลองมันให้ผลลัพธ์ที่ดีกว่าซอฟต์แวร์ด้านบนทั้งหมด
BornToCode

8

อีกทางเลือกหนึ่งคือการดาวน์โหลดและเริ่มใช้งานโปรแกรมดูไฟล์ PDF ฟรี Foxit (ดีมาก) จากนั้นคุณสามารถ 'บันทึกเป็น' และเลือก. txt เพื่อแปลงเป็นไฟล์ข้อความ ที่จะรักษารูปแบบทั้งหมด Dunno ว่าคุณสามารถทำสิ่งเดียวกันใน Adobe ได้หรือไม่เพราะฉันหยุดใช้เมื่อไม่นานมานี้เมื่อฉันเปลี่ยนเป็น Foxit


"บันทึกเป็น ... ข้อความ" ทำงานให้ฉันด้วยโปรแกรมดู PDF ฟรีหลายรายการ
Jeff

ฉันใช้ Foxit และลองมันฉันจะไม่พูดว่ามันทำการฟอร์แมต และทั้งหมดที่ฉันต้องการก็คือการสิ้นสุดบรรทัดที่เหมาะสมและแต่ละย่อหน้าเป็นย่อหน้า
pgr

การใช้ txt คุณจะสูญเสียการจัดรูปแบบทั้งหมด: แบบอักษรตัวหนาตัวเอียงสีและตัวเลือกขั้นสูงอื่น ๆ อีกมากมาย
skan

Foxit Reader ทำงานได้ดีสำหรับฉัน
Michael Tranchida

5

มีเครื่องมือออนไลน์ที่ดีมากเรียกว่าเป็นSEJ ดา ข้อตกลงกับการจัดการ PDF ขั้นสูง ไม่มีซอฟต์แวร์ให้ดาวน์โหลด เนื่องจากเป็นเครื่องมือออนไลน์ใหม่ขณะนี้ยังอยู่ในช่วงเบต้า ช่วยให้คุณสามารถดึงข้อความจาก PDF รวมถึงการให้ฟังก์ชัน PDF อื่น ๆ อีกมากมาย

http://www.sejda.com/

บทวิจารณ์วิดีโอสั้น ๆ เกี่ยวกับฟังก์ชั่น sejda เสร็จสิ้นเมื่อวันที่ 14 พฤศจิกายน 2555 โดย Revision 3 สามารถพบได้ที่นี่:

http://revision3.com/tzdaily/sejda-online-pdf


1
หนึ่งอาจยังคงดาวน์โหลดเครื่องมือบรรทัดคำสั่ง: sejda.org/download (ผมไม่คิดว่ามันจะช่วยให้การแยกข้อความที่มีการจัดรูปแบบ?)
Arjan

ฉันได้แนะนำ Sejda ด้านบน Arjan
Simon

1
ฮะ? ฉันหมายถึง: คุณกำลังบอกว่ามันเป็นเครื่องมือออนไลน์ แต่ก็สามารถดาวน์โหลดสิ่งเดียวกันได้ นอกจากนี้เมื่อพิจารณาเพิ่มเติม: ฉันไม่คิดว่ามันจะคงรูปแบบไว้เหมือนที่ถูกถามใช่ไหม
Arjan

ฉันตระหนักดีถึงการรักษารูปแบบที่มีการร้องขอ แต่ถ้าคุณลองคุณจะไม่เคยรู้
Simon

ในฐานะที่เป็นเครื่องมือฟรีที่มีคุณสมบัติมากมายและยังไม่ถึงขั้นเบต้า - ไม่มีอะไรจะเสีย แต่ลอง เมื่อเวลาผ่านไปชุดคุณลักษณะของมันอาจจะขยายออกไป แต่สำหรับตอนนี้ไม่สามารถบ่นได้จริงๆ
Simon

5

เปิดไฟล์ PDF ของคุณด้วยเบราว์เซอร์ (Google chrome และ Firefox ทดสอบแล้ว) คัดลอกข้อความของคุณที่นั่น


น่าเสียดายที่นี่ไม่ได้ผลสำหรับฉันใน Firefox
Reb

ปิด. FF เก็บขนาดตัวอักษรอย่างน้อย Chrome ล้มเหลวอย่างน่าสังเวชไม่ใช่แม้แต่ฟีดไลน์
nd34567s32e

ตั้งแต่ตุลาคม 2019 เปิด PDF ใน Chrome และคัดลอก / วางไปยังโปรแกรมแก้ไขข้อความอย่างน้อยก็รักษาจุดสิ้นสุดของบรรทัด (แต่น่าเสียดายที่ไม่ใช่พื้นที่สีขาวนำบนเส้น)
DocOc

4

คุณสามารถใช้ Adobe Acrobat Pro สำหรับสิ่งนี้

สำหรับตาราง: ด้วย Acrobat 9/10 มีคุณสมบัติตารางที่เลือก ด้วย Acrobat X คุณสามารถคลิกบันทึกเป็น> สเปรดชีต> Excel มันยังรวมหน้าเป็นสเปรดชีตยาวเดียว คุณสมบัติที่ยอดเยี่ยม

สำหรับข้อความ: มีคุณสมบัติที่คล้ายกันสำหรับการส่งออกไปยัง MS Word บันทึกเป็น> Word> Word Doc

แหล่งที่มา:


0

Foxit จะสลับระหว่างการแสดงไฟล์ต้นฉบับเป็นไฟล์ PDF ปกติหรือเป็นข้อความโดยการกด Ctrl + 6 (ด้วยการเล่นระดับเล็กน้อยกับระดับการซูมของโหมดข้อความจะไม่มีการกระโดดข้ามไปมาระหว่างการอ่านและการคัดลอก)


0

ฉันพบว่ามีประโยชน์มาก ( ลบตัวแบ่งบรรทัด ):

นี่คือเคล็ดลับที่มีประโยชน์ในการแก้ไขอย่างรวดเร็วโดยไม่ต้องลบตัวแบ่งบรรทัดทั้งหมดด้วยตนเอง โดยพื้นฐานแล้วสิ่งที่ทำทั้งหมดจะแทนที่การแบ่งบรรทัดที่ไม่ต้องการทั้งหมดด้วยช่องว่างเดียวโดยอัตโนมัติทำให้ข้อความทั้งหมดทำงานร่วมกันเป็นย่อหน้าเดียว:

1- คัดลอกข้อความที่คุณต้องการจาก PDF

2- วางลงในเอกสาร Word ใหม่

3- คลิก“ แก้ไข” จากนั้น“ แทนที่”

4- ตรวจสอบให้แน่ใจว่าคุณอยู่ในฟิลด์“ ค้นหาอะไร”

5- คลิก“ เพิ่มเติม” จากนั้น“ พิเศษ”

6- เลือก“ เครื่องหมายย่อหน้า” (ด้านบนของรายการ)

7- คลิกลงในช่อง“ แทนที่ด้วย”

8- กดแป้นเว้นวรรคหนึ่งครั้ง

9- คลิก“ แทนที่ทั้งหมด”

10- คลิก“ ตกลง” จากนั้นปิดกล่อง“ ค้นหาและแทนที่”


-1

คุณสามารถคัดลอกจาก Adobe Reader ไปยัง MS Excel และจัดรูปแบบ (ตาราง) ตามที่คุณต้องการแล้วคัดลอกและวางจาก Excel วิธีนี้ใช้งานได้ดี คุณไม่จำเป็นต้องซื้อสำเนา Adobe มืออาชีพราคาแพง


คำถามพูดถึงข้อความ คุณคิดว่านี่จะเป็นคำตอบทั่วไปที่ดีสำหรับข้อความรวมถึงการแปลงการจัดรูปแบบเป็นรหัส HTML หรือไม่?
fixer1234

-1

ฉันพยายามบันทึกข้อความและรูปแบบของ pdf ที่จัดเรียงในตาราง ใน Acrobat Professional ฉันรู้ว่ามีตัวเลือก 'บันทึกเป็น' ที่อนุญาตให้บันทึกเป็นเอกสาร excel สิ่งนี้ใช้ได้ดีสำหรับความต้องการของฉัน ฉันยังสังเกตเห็นว่ามีตัวเลือกบันทึกเอกสารเป็น Word เช่นกัน ฉันไม่ได้ลองเลย


2
คำตอบของ user156787 ซ้ำกัน
fixer1234
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.