มีโปรแกรมฟรีแวร์สำหรับแก้ไข text stream ของ PDF หรือไม่?

PDF เป็นรูปแบบไฟล์เก็บถาวรที่ยอดเยี่ยมสำหรับรูปภาพที่สแกน แต่ Acrobat ไม่อนุญาตให้คุณแก้ไขเลเยอร์ข้อความของเอกสาร (ส่วนที่สามารถคัดลอกและวาง) ทำให้คุณมี OCR แบบดิบ มีทางเลือกฟรีแวร์ที่ให้คุณแก้ไขเลเยอร์ข้อความหรือไม่

— เอมิล
แหล่งที่มา

"กระแสข้อความ" หมายความว่าอย่างไร ในเอกสารที่สแกนข้อความนั้นเป็นรูปภาพเช่นกันคุณไม่สามารถแก้ไขได้อย่างง่ายดาย

— Gnoupi

ไฟล์ PDF มีศักยภาพในการจัดเก็บการแสดงสองระดับภาพที่แท้จริงและส่วนข้อความซึ่งเป็นสิ่งที่ฉัน (อาจผิดพลาด) เรียกว่า "สตรีมข้อความ" เมื่อเอกสารประมวลผลคำถูกแปลงเป็น PDF ส่วนนี้จะถูกสร้างขึ้นในเวลาเดียวกันกับรูปภาพและโดยทั่วไปจะค่อนข้างแม่นยำ เมื่อเอกสารที่สแกนถูกแปลงเป็น PDF ส่วนข้อความจะถูกสร้างขึ้นโดยการประมวลผล OCR ของภาพ นอกจากนี้ยังมีไฟล์ PDF ที่ไม่มีส่วนข้อความเลย ส่วนนี้คือสิ่งที่คุณกำลังเข้าถึงเมื่อคุณคัดลอกและวางข้อความจากเอกสาร PDF

— Emil

คุณควรเพิ่มข้อมูลนี้ในคำถาม ;-)

— Ivo Flipse

ฉันเชื่อในการเก็บคำถามสั้น ๆ และตรงประเด็นและทิ้งข้อมูลเพิ่มเติมหรือชี้แจงไว้ในความคิดเห็น ฉันได้แก้ไขคำถามเพื่อให้ชัดเจนที่สุดโดยไม่ต้องพูดมาก

— Emil

คำตอบ:

บรรณาธิการ PDF ฟรีหายากมาก

เพียงคนเดียวที่ฟรีฉันรู้คือOpenOfficeกับดวงอาทิตย์ PDF ขยายนำเข้า

จากบทความของ techsupportalert ไฟล์ PDF อนุญาตให้แก้ไขในรูปแบบที่ถูกต้อง 100% :

Sun PDF Import Extension สำนักงานเปิดพร้อมส่วนขยายการนำเข้า PDF ของ Sun ผลิตไฟล์ PDF / ODF ไฮบริด ไฟล์ที่สร้างจะมีนามสกุลไฟล์. pdf ปกติ ด้วยตัวเองมันเป็นไฟล์ PDF และสามารถดูได้โดยโปรแกรมดู PDF ใด ๆ เช่น Adobe Reader, PDF-XChange Viewer หรือ Foxit Reader

นอกจากนี้ยังมีไฟล์ ODF ต้นฉบับซึ่งสามารถเปิดได้ด้วย OpenOffice โดยตรงจากไฟล์ PDF สำหรับการแก้ไขโดยไม่สูญเสียเลย์เอาต์บุ๊คมาร์คการเชื่อมโยงหลายมิติหรือรูปแบบใด ๆ

ในการสร้างไฟล์ PDF ไฮบริดให้เรียกใช้ OpenOffice พร้อมติดตั้ง Sun PDF Import Extension เลือก "ไฟล์" เลือก "ส่งออกเป็น PDF" หน้าต่างตัวเลือก PDF เช่นภาพหน้าจอจะเปิดขึ้นจากนั้นทำเครื่องหมาย "สร้างไฟล์ไฮบริด" และคลิก "ส่งออก "

ไฟล์ PDF ไฮบริดนี้ช่วยให้คุณรักษารูปแบบไฟล์แยกกันสองรูปแบบเนื่องจากรวมสองเป็นหนึ่งเดียว มันพร้อมสำหรับการแชร์และการดูด้วยโปรแกรมอ่าน PDF แต่มันสามารถเปิดได้เพื่อการแก้ไขที่สมบูรณ์แบบเหมือนกับที่ไฟล์ OpenOffice ปกติสามารถทำได้ อาจเป็นความคิดที่ดีที่จะตั้งชื่อไฟล์ไฮบริดที่ลงท้ายด้วย "-odf.pdf" เพื่อแยกความแตกต่างจากไฟล์ PDF ปกติ

Sun PDF Import Extension เข้ากันได้กับ OpenOffice.org (3.0 หรือใหม่กว่า) หรือ StarOffice 9

— harrymc
แหล่งที่มา

เยี่ยมมากขอบคุณ! สิ่งนี้ดูมีแนวโน้มมากแม้ว่าจะค่อนข้างยุ่งยาก

— Emil

เอกสารที่สแกนแปลงเป็นไฟล์ PDF แรกไม่ได้มีการใด ๆข้อความ มันประกอบไปด้วยหน้าแต่ละหน้าด้วยภาพพิกเซลแบบเต็มหน้า รูปภาพนี้อาจมีหรือไม่มีบริเวณที่มีรูปร่างเหมือนตัวอักษรที่สมองของมนุษย์ระบุว่าเป็นตัวอักษรและ "ข้อความ"

โดยทางโปรแกรมไม่ใช่ข้อความเพียงพิกเซล

ในการแทรก PDF ที่มาจากภาพสแกนสิ่งที่เป็นข้อความจริงสามารถใช้กระบวนการ OCR เท่านั้น สิ่งนี้จะเพิ่มเลเยอร์เนื้อหาพิเศษลงในหน้า PDF เลเยอร์พิเศษนั้นจะมีอักขระที่ระบุ (หรือระบุผิด) ทั้งหมดด้านหลังรูปร่างของพิกเซลเป็นร่ายมนตร์จริงจากฟอนต์จริง อย่างไรก็ตามอักขระข้อความจริงเหล่านี้มีมาร์กอัป PDF พิเศษติดแท็กเพื่อไม่ให้แสดงผลโดยผู้ชม (หรือเมื่อพิมพ์) สิ่งที่มีอยู่ของพวกเขาจะปรากฏขึ้นเฉพาะเมื่อค้นหาข้อความ (หรือไฮไลต์) (หรือเมื่อพยายามที่จะคัดลอกพื้นที่ 'n'paste จากภาพในขณะที่เครื่องมือ Acrobat Text Touchup ทำงานอยู่)

ดังนั้นคำถามที่แท้จริงของคุณคือ: "ผลลัพธ์ OCR สำหรับเอกสาร PDF ที่สแกนของฉันนั้นดีที่สุดย่อยไม่ได้ระบุอักขระทั้งหมดอย่างถูกต้องฉันต้องการแก้ไขข้อความที่ซ่อนอยู่เพื่อให้ได้ผลลัพธ์ OCR ที่ดีขึ้นฉันจะทำอย่างไรกับ เป็นเครื่องมือฟรีหรือไม่ " ?

แก้ไข: ฉันไม่ปกติใช้ Acrobat แต่ตอนนี้ฉันมีโอกาสได้ดูรุ่น 9.1.3 รุ่น Professional บนพีซีของเพื่อนร่วมงาน

สิ่งแรกที่ฉันตรวจสอบ: จริงหรือไม่ว่า Acroabat ไม่อนุญาตให้แก้ไขข้อความ OCR

คำตอบ: ไม่ไม่จริง ฉันสามารถใช้เครื่องมือ OCR builtin ของ Acrobat เพื่อจับข้อความของเอกสารที่สแกนแบบสุ่มซึ่งฉันค้นหาโดย Google และดาวน์โหลดจากเว็บ หลังจากนั้นข้อความนี้สามารถแก้ไขได้อย่างสมบูรณ์ด้วยเครื่องมือข้อความ TouchUp ที่มีให้ผ่านรายการเมนูการแก้ไขขั้นสูง

ขั้นตอน:

เริ่ม Acrobat Professional โหลดเอกสาร PDF ที่สแกนของคุณ
ในเอกสารเมนูคลิกOCR ข้อความการรับรู้และเลือกรับรู้ข้อความโดยใช้ OCR
ตัดสินใจว่าหน้าใดที่คุณต้องการ OCR ในหน้าต่างจดจำข้อความ
เริ่มกระบวนการและรอจนกว่าจะเสร็จสมบูรณ์
ตอนนี้ใช้เครื่องมือเมนู * แก้ไขขั้นสูง" และเริ่มการทำงานของเครื่องมือ TouchUp ข้อความ
จากที่นี่คุณจะทำงานด้วยตัวคุณเอง ...

— เคิร์ตไฟเฟิล
แหล่งที่มา

ใช่นั่นเป็นสิ่งที่ฉันต้องการทำมากกว่านี้ ผลลัพธ์ของกระบวนการ OCR ที่ Acrobat ดำเนินการถูกบันทึกเป็นเลเยอร์แยกต่างหาก (หลังจากนั้นเป็นเพียงข้อความถึงแม้ว่าจะซ่อนอยู่) และฉันต้องการแก้ไขเลเยอร์นั้น ณ จุดนี้มันมีเหตุผลเล็กน้อยที่จะอ้างถึงมันเป็นผล OCR โดยเฉพาะอย่างยิ่งเมื่อเปรียบเทียบกับเช่น PDF ที่สร้างจากเอกสารคำที่ชั้นข้อความไม่ได้เป็นผลลัพธ์ OCR เลย

— Emil

นี่เป็นคำถามที่น่าสนใจ ฉันไม่เคยต้องการที่จะคิดเกี่ยวกับมันและฉันก็ไม่รู้พอ ทันทีที่ฉันมีเวลาพอสมควรฉันจะทำการวิจัย (เช่นศึกษาส่วนต่าง ๆ ที่เกี่ยวข้องของข้อมูลจำเพาะ PDF) เพื่อหาข้อมูลเพิ่มเติม อาจเป็นไปได้ว่าสตริงข้อความ OCR ที่ซ่อนอยู่เหล่านี้ถูกสร้างขึ้นเพื่อให้แก้ไขไม่ได้เลย แต่อาจจะมีวิธีแก้ปัญหา ...

— เคิร์ต Pfeifle

(ท้ายที่สุดมีเอกสาร PDF OCR ที่ออกมามากมายและ OCR ที่ทำงานด้วยความแม่นยำ 99% นั้นถือว่า "ดี" แล้ว (แต่จากมุมมองของครูมัธยมปลายข้อความใด ๆ ที่มีการสะกดผิด 10 ข้อ) สำหรับตัวละคร 1,000 ตัวแต่ละตัวจะได้รับผลการเรียนที่แย่ที่สุดเท่าที่คุณจะจินตนาการได้ .... )

— Kurt Pfeifle

มีโปรแกรมที่ทำเช่นนี้ แต่ไม่มีวิธีแก้ปัญหาฟรีแวร์ เกี่ยวกับคุณภาพของ OCR นั้นไม่เกี่ยวข้องกันเลย ในบางสถานการณ์มีข้อผิดพลาดเพียงครั้งเดียวสมมติว่าเป็นเรื่องที่น่าอับอายมากหรือข้อผิดพลาดที่นำไปสู่ความเข้าใจผิดอย่างร้ายแรงซึ่งเพียงพอที่จะแก้ปัญหาที่จำเป็น

— Emil

"คำตอบ" นี้เป็นการย้ำคำถามอย่างสับสน :-( คุณถามว่า "นี่เป็นคำถามจริงของคุณหรือไม่" - ใช่นั่นคือคำถามจริงเพราะนั่นคือ "เลเยอร์ข้อความ" หมายถึงและนี่ไม่ใช่คำตอบของคำถามคุณตกลงที่จะโพสต์คำตอบก่อนที่จะชี้แจง ตอนนี้โปรดลบทิ้งเพราะเสียเวลาสำหรับผู้ที่อ่านมัน

— ShreevatsaR

ดูเหมือนว่าคุณหมายถึง "text stream" คือข้อมูลข้อความจาก PDF ไม่แน่ใจ. หากเป็นเช่นนั้นฉันใช้คลิปบอร์ดมาตรฐานและตัวแก้ไขข้อความอย่างเดียวฉันใช้ KEDIT เนื่องจากความสามารถในการแก้ไขคอลัมน์เพื่อเก็บข้อมูลและแก้ไข ปัญหาคือคุณสูญเสียการจัดรูปแบบใด ๆ และบางครั้งก็มีตารางตามลำดับของข้อมูลที่สับสน แต่สำหรับการบันทึกง่ายๆมันได้ผล

— เดฟ
แหล่งที่มา

ใช่นั่นคือสิ่งที่ฉันหมายถึง ฉันคิดว่าฉันเห็นคำนี้ที่ใดที่หนึ่งและคิดว่ามันเหมาะสม ฉันกลัวว่าฉันยังไม่ชัดเจนพอ สิ่งที่ฉันต้องการไม่ใช่เพื่อแก้ไขข้อความจาก PDF แต่ใน PDF คือเพื่อผลิต PDF ที่มีส่วนข้อความที่ดีและถูกแก้ไขเพื่อให้คนที่คัดลอกและวางจากเอกสารจะได้รับข้อความที่ดีและถูกต้องในขณะที่ ยังคงแสดงเอกสารในรูปแบบดั้งเดิม

— Emil

PDF มีมากกว่าหนึ่งรสชาติ เวอร์ชัน Adobe เป็น "เข้ารหัส" และไม่สามารถแก้ไขได้หากไม่มีซอฟต์แวร์ Adobe PDF เป็นรูปแบบเปิดที่กำหนดไว้ในข้อความซึ่งสามารถแก้ไขได้โดยโปรแกรมแก้ไขข้อความใด ๆ บางทีใครบางคนสามารถให้คุณอ้างอิงถึงมาตรฐาน PDF

— เดฟ

ดูเหมือนว่าค่อนข้างไกลเกินกว่าที่จะบอกว่า Adobe PDF ไม่สามารถแก้ไขได้หากไม่มีซอฟต์แวร์ Adobe - แน่นอนว่าซอฟต์แวร์แก้ไข PDF ของบุคคลที่สามส่วนใหญ่สามารถทำเช่นนั้นได้หรือคุณหมายความว่าพวกเขาทำได้โดยการอ่านไฟล์และแปลงเป็นรูปแบบอื่น ? ฉันไม่ได้ต้องการเขียนโปรแกรมด้วยตนเองดังนั้นมาตรฐานจะมีประโยชน์น้อย Wikipedia ( en.wikipedia.org/wiki/Pdf ) มีข้อมูลและลิงก์มากมายสำหรับการทำความเข้าใจมาตรฐาน

— Emil