วิธีแทนที่รูปภาพของข้อความใน PDF ด้วยข้อความที่จัดรูปแบบโดยใช้ OCR


4

ฉันได้รับ PDF จำนวนมากจากบุคคลอื่นที่ประกอบด้วยเอกสารเก่าที่สแกน แต่น่าเสียดายที่บางครั้งข้อความในการสแกนแม้อ่านง่ายดูเป็นเม็ดเล็กและอ่านยาก

สิ่งที่ฉันสามารถทำได้จนถึงตอนนี้ก็คือการแยกข้อความโดยใช้ OCR ลงในเอกสารคำ อย่างไรก็ตามเนื่องจากเอกสารเก่าเหล่านี้มักมีภาพประกอบและการจัดรูปแบบที่ซับซ้อนสิ่งที่ฉันอยากจะทำก็คือเพียงแค่ลบข้อความที่เป็นเม็ดสีเก่าและแทนที่ด้วยแบบอักษรที่สร้างด้วยคอมพิวเตอร์ กล่าวอีกนัยหนึ่งฉันต้องการเก็บ PDF และการจัดรูปแบบของหน้าเว็บให้มากที่สุดเท่าที่จะเป็นไปได้ในขณะที่ "ล้าง" ข้อความโดยแทนที่ด้วยการคูณครั้งใหม่ของโรมัน

ฉันดูออนไลน์ไม่กี่วันเพื่อหาวิธีที่ง่ายและอัตโนมัติในการล้างข้อมูลและฉันยังไม่ได้ทำอะไรเลย ดูเหมือนว่าแน่นอนควรมีวิธีการทำเช่นนี้ดูเหมือนจะไม่ซับซ้อน แต่บางทีฉันอาจมองข้ามบางแง่มุมของปัญหานี้ที่วางไว้ด้านนอกของสิ่งที่สามารถใช้ OCR ได้

ข้อเสนอแนะใด ๆ

คำตอบ:


2

แม้แต่ซอฟต์แวร์ของ Adobe เองก็ยังทำได้ไม่ดีในการทำสิ่งนี้หรือทำให้ชัดเจน อย่างไร ที่จะทำมัน

ด้วย Adobe Acrobat X คุณสามารถสร้างเลเยอร์ข้อความผ่านเมนู (มุมมอง | เครื่องมือ | จดจำข้อความ) หรือคลิกเครื่องมือในแถบเครื่องมือแล้วจดจำข้อความในบานหน้าต่างเครื่องมือ

จากนั้นคุณมีตัวเลือกในการดำเนินการ OCR ในเอกสารหรือค้นหา "ผู้ต้องสงสัย" "ผู้ต้องสงสัย" นั้นเป็นผลของ OCR ที่ไม่ถูกต้อง (ไม่ใช่ตรวจการสะกด?) เมื่อคุณผ่านผู้ต้องสงสัยไปแล้วดูเหมือนจะไม่มีทางเข้าถึงหรือแก้ไขเลเยอร์ข้อความอีกต่อไปโดยไม่ต้องทำซ้ำ OCR

คุณสามารถเลือกช่วงของหน้าเพื่อ จำกัด OCR (เช่นหากคุณมีเอกสารหลายภาษา) แต่คุณไม่สามารถ จำกัด ให้เลือกได้

ระบุว่านี่เป็นคุณสมบัติที่มีประโยชน์มันน่าผิดหวังที่ Adobe ไม่ทำให้ใช้งานได้ง่าย

แก้ไข: อีกสองวิธีที่เป็นไปได้

Adobe Acrobat ใช้ ClearScan

เมื่อคุณดำเนินการ OCR ด้วย Adobe Acrobat คุณสามารถเปลี่ยนรูปแบบเอาต์พุต PDF จากรูปแบบรูปภาพที่ค้นหาได้เป็นค่าเริ่มต้นเป็น ClearScan รูปแบบนี้จะเปลี่ยนรูปภาพเช่นกันโดยแทนที่อักขระด้วยเค้าร่างที่ได้จาก OCR สิ่งนี้จะทำให้ PDF ของคุณอ่านได้ง่ายขึ้นและเพิ่มเลเยอร์ข้อความ แต่จะเปลี่ยนภาพต้นฉบับ

เครื่องมือแก้ไข PDF มัด

โปรแกรมนี้ดูเหมือนจะสามารถแสดงเลเยอร์ข้อความได้ แต่ก็ยังดูเหมือนว่าจะแก้ไขสถานที่ที่ OCR ของ Adobe ผิดพลาด (เช่นคำที่อยู่ในตำแหน่งที่กำหนดไว้)

น่าเสียดายที่ไม่มีตัวเลือกเหล่านี้ให้ใช้งานได้อย่างอิสระ


0

ขึ้นอยู่กับสถานการณ์ที่แน่นอนของคุณ (แบบอักษรที่ใช้ไดอะแกรมจำเป็นต้องมีการล้างข้อมูลเท่าไหร่ ... ) แต่ฉันได้ผลลัพธ์ที่ดีด้วย FineReader Professional Edition ... สแกนรูปแบบภาพที่พบบ่อยที่สุด (สแกน tiff, jpg ฯลฯ .. ) และ สามารถแปลงเป็น html หรือคำอื่น ๆ ...

มันไม่ฟรี แต่คุณไม่ได้บอกว่าคุณกำลังมองหาสิ่งนั้น ฉันมีสิ่ง OCR หลายอย่างที่ฉันทำบางเวลาย้อนกลับไปและมันก็เป็นงาน OCR ที่น่าประทับใจด้วย อัตราความผิดพลาดต่ำ . & lt; & lt; & lt; --- ฉันไม่รู้เกี่ยวกับวันนี้ แต่ 5 ปีย้อนกลับไปเมื่อฉันได้รับสิ่งนี้เป็นครั้งแรกฉันลองใช้แพ็กเกจ OCR อื่น ๆ สองสามครั้ง โฆษณา (อย่างถูกต้อง) เป็น 90-95-98% ปัญหาคือแม้ที่ 99% คุณกำลังดูคำหลายคำเพื่อแก้ไข / หน้าข้อความ นั่นสูงเกินไปสำหรับระดับความอดทนของฉัน

ฉัน fetl อัตราการค้าปลีกแบบดิบแพงไปหน่อย (แต่ฉันมักจะชอบฟรีซื้อ SW ดีกว่าคุ้มค่าฉันพูดได้ใน "gninux-ese") แต่มีข้อเสนอ จากซอฟต์แวร์อื่นประมาณ 50% ของราคาขายปลีกซึ่งเป็นเรื่องเกี่ยวกับราคาอัพเกรด ฉันซื้อมันมาตอนที่ประมาณรุ่น 6 หรือ 7 ตอนที่ฉันมีโปรเจ็กต์ใหม่ที่ต้องคล้ายกัน - ฉันซื้อการอัปเกรดเป็นเวอร์ชั่นปัจจุบันแล้ว ล่าสุดที่ฉันซื้อคือ 9.0

ของฉันเท่านั้น ปิดบัง ] beef ด้วยมันไม่รู้จัก Unicode และไม่สร้างไฟล์ Unicode พวกเขามีภาษา 186 (การอ่านจากเว็บไซต์) ที่รองรับในปัจจุบัน (AFAIK ทุกภาษารวมอยู่ใน Prof. Ver.) แต่มันบันทึกไฟล์ในชุดอักขระที่เข้ารหัสภูมิภาคหรือ 'หน้ารหัส' (ibm-cp850, ms-cp1250, iso-8859-1 ฯลฯ ... ) แทน UTF-8 - ซึ่งเป็นความชอบของฉัน ฉันกำลังสแกนไฟล์ตัวอักษรผสมที่ในที่สุดฉันจะแก้ไขใน UTF-8

ซอฟต์แวร์ของพวกเขาทำงานได้ยอดเยี่ยมโดยไม่มีการฝึกอบรม มันสามารถผ่านการฝึกอบรม การจดจำตัวอักษรเฉพาะผู้ใช้ถึงแม้ว่าฉันจะไม่พบว่ากระบวนการนั้นสะดวกเท่าที่ฉันชอบ (แต่จริงๆแล้วมันไม่จำเป็นสำหรับสิ่งที่ฉันทำ (หรือทำ) ส่วนใหญ่

ด้วยรุ่นที่ฉันมี (9) มันมีความสามารถในการอ่านสิ่งต่าง ๆ ออกจากการจับภาพหน้าจอด้วยซึ่งบางครั้งก็สะดวกสำหรับโปรแกรมที่ไม่ได้เปิดใช้งานการคัดลอก / วาง

พวกเขาดูเหมือนจะมีตัวเลือกลองก่อนที่คุณจะซื้อตอนนี้เช่นกัน: เว็บไซต์: finereader.abbyy.com (professional prod @ http://finereader.abbyy.com/professional )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.