เป็นไปได้หรือไม่ที่จะลบลายเส้นออกจากข้อความที่ถูกคัดลอก?


10

ฉันมี PDF ไม่กี่ไฟล์ที่มีเครื่องหมายมัดรวมอยู่ในข้อความ (เช่นffรวมเป็นอักขระเดียว)

มีวิธีง่าย ๆ ในการลบออกเมื่อทำการคัดลอกข้อความจาก PDF หรือไม่? (เช่นเมื่อฉันวางฉันต้องการวางเป็นff)

ฉันคัดลอกข้อความจำนวนมากจาก PDF เหล่านี้ไปยังคำตอบของ Stack Overflow และฉันพบว่าภาษาที่น่าสะพรึงกลัวที่สุด (โอเคฉันยอมรับว่าฉันพิถีพิถันจริง ๆ :-P); หนังสติ๊กยังแสดงอย่างไม่ถูกต้องเมื่อคัดลอกไปยังที่อื่น (เช่นถ้าฉันคัดลอกลงในแผ่นจดบันทึกมันจะแสดงเป็นบล็อก)

ฉันไม่สามารถแก้ไข PDF ได้

ฉันใช้ทั้ง Adobe Acrobat Reader และ Foxit Reader แต่ฉันจะเปิดให้ลองใช้ตัวอ่าน PDF ตัวใหม่

คำตอบ:


3

ในไพ ธ อนนี่จะเป็น:

import unicodedata
# \uFB00 is the ff ligature.
unicodedata.normalize('NFKD',u'\uFB00').encode('ascii','ignore')

คุณสามารถรวมมันกับpyPdfเพื่ออ่านไฟล์ pdf


2

ผู้อ่านEvinceดูเหมือนว่าจะหนังสติ๊กถอดรหัสเมื่อผมทดสอบนี้

Btw สำหรับเอกสาร pdflatex คุณสามารถใช้สิ่งนี้ได้ในส่วนนำหน้าเพื่อแสดงลิ้นในเอกสาร PDF แต่คัดลอกอักขระแต่ละตัว:

\ อินพุต {} glyphtounicode.tex
\ pdfgentounicode = 1%

1

ความเป็นไปได้อย่างหนึ่งคือการใช้โปรแกรมแก้ไขข้อความที่คุณชื่นชอบและเพียงแค่แทนที่มัน

sedอีกวิธีหนึ่งที่จะเขียนสคริปต์ที่ใช้ .. แต่นั่นจะเป็น * ระบบ NIX เท่านั้นฉันกลัว


GnuWin32 และคุณมีหน้าต่างอยู่
mbq

@mbq: มันรวมอยู่ในนั้นด้วยหรือเปล่า? ดีมาก. ขอบคุณ.
Bobby

0

ฉันตอบคำถามที่คล้ายกันในเชิงลึกมากขึ้น - ทำไมข้อความ 'fi` ถูกตัดเมื่อฉันคัดลอกจาก PDF หรือพิมพ์เอกสาร?

คุณสามารถแทนที่คำว่า "แตก" ในข้อความที่คัดลอกได้หากคุณมีการจับคู่จากคำที่แตกหักไปเป็นคำดั้งเดิม ฉันเขียนสคริปต์เพื่อสร้างการแมปนี้โดยการลบเครื่องหมายมัดออกจากคำและตรวจสอบว่าคำที่เป็นผลลัพธ์นั้นไม่ซ้ำกันหรือไม่ สำหรับพจนานุกรมของฉันของคำภาษาอังกฤษ, 99.5%ของคำเสียเป็นไปได้ทั้งหมดเป็นแบบถอดเปลี่ยนได้และ92.3%ของคำที่มีลำดับรัด A ( ff, fi, fl, ffiหรือffl) สามารถกู้คืนได้ ความแตกต่างระหว่างทั้งสองเปอร์เซ็นต์เป็นเพราะมีจำนวนมากที่น่าแปลกใจของคำที่ถูกต้องที่จะถูกสร้างขึ้นโดยการเอาเส้นเอ็นจากคำพูดที่ถูกต้องอื่น ๆ (เช่นbutterfly --> buttery, fluffs --> usและmisfits --> mists)

ต่อไปนี้เป็น CSV ของคำว่า "แตก" ที่สามารถแทนที่ได้ (และคำที่เคยเป็น) ที่รับประกันได้: http://www.filedropper.com/brokenligaturewordfixes


เป็นเรื่องดีที่คุณจะนำเสนอไฟล์ แม้ว่าในทางปฏิบัติไม่มีใครที่มีสามัญสำนึกจะดาวน์โหลดไฟล์ที่ไม่รู้จัก (โดยเฉพาะจากผู้ใช้รายใหม่) อย่านำไปใช้ส่วนตัวถ้าไฟล์ไม่ได้รับปริมาณการใช้งานมาก ไม่ได้หมายความว่าความพยายามของคุณจะไม่ได้รับการชื่นชม
fixer1234

ใช่ฉันเข้าใจ. ฉันหวังว่าจะมีวิธีง่ายๆในการตรวจสอบลิงก์เช่นนั้นหรือแม้กระทั่งเพื่อรับรองประเภทไฟล์ ขอบคุณ!
Jan Van Bruggen

0

วิธีของฉันคือการคัดลอกและวางจาก PDF ไปยัง notepad (เพื่อลบการจัดรูปแบบใด ๆ ) จากนั้นจาก notepad ไปยัง Microsoft Word

ใน Word ลิ้นทั้งหมดมีการเปลี่ยนแปลงด้วยแบบอักษรการจัดรูปแบบอื่น ๆ

ฉันใช้การค้นหาและแทนที่แต่ละรายการ (เช่น ^ l สำหรับการขัดจังหวะบรรทัดด้วยตนเองและ ^ m สำหรับการขัดจังหวะหน้าด้วยตนเองและอื่น ๆ คุณสามารถค้นหาทั้งหมดได้อย่างง่ายดายออนไลน์) และฉันแทนที่ด้วยแบบฟอร์มที่ถูกต้อง

ใน 4 หรือ 5 ขั้นตอนฉันครอบคลุมความเป็นไปได้ทั้งหมดอย่างรวดเร็ว มีประโยชน์ในการลบการขัดจังหวะย่อหน้าเพิ่มเติมด้วย (^ P)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.