PDF เป็นรูปแบบไฟล์เก็บถาวรที่ยอดเยี่ยมสำหรับรูปภาพที่สแกน แต่ Acrobat ไม่อนุญาตให้คุณแก้ไขเลเยอร์ข้อความของเอกสาร (ส่วนที่สามารถคัดลอกและวาง) ทำให้คุณมี OCR แบบดิบ มีทางเลือกฟรีแวร์ที่ให้คุณแก้ไขเลเยอร์ข้อความหรือไม่
PDF เป็นรูปแบบไฟล์เก็บถาวรที่ยอดเยี่ยมสำหรับรูปภาพที่สแกน แต่ Acrobat ไม่อนุญาตให้คุณแก้ไขเลเยอร์ข้อความของเอกสาร (ส่วนที่สามารถคัดลอกและวาง) ทำให้คุณมี OCR แบบดิบ มีทางเลือกฟรีแวร์ที่ให้คุณแก้ไขเลเยอร์ข้อความหรือไม่
คำตอบ:
บรรณาธิการ PDF ฟรีหายากมาก
เพียงคนเดียวที่ฟรีฉันรู้คือOpenOfficeกับดวงอาทิตย์ PDF ขยายนำเข้า
จากบทความของ techsupportalert ไฟล์ PDF อนุญาตให้แก้ไขในรูปแบบที่ถูกต้อง 100% :
Sun PDF Import Extension สำนักงานเปิดพร้อมส่วนขยายการนำเข้า PDF ของ Sun ผลิตไฟล์ PDF / ODF ไฮบริด ไฟล์ที่สร้างจะมีนามสกุลไฟล์. pdf ปกติ ด้วยตัวเองมันเป็นไฟล์ PDF และสามารถดูได้โดยโปรแกรมดู PDF ใด ๆ เช่น Adobe Reader, PDF-XChange Viewer หรือ Foxit Reader
นอกจากนี้ยังมีไฟล์ ODF ต้นฉบับซึ่งสามารถเปิดได้ด้วย OpenOffice โดยตรงจากไฟล์ PDF สำหรับการแก้ไขโดยไม่สูญเสียเลย์เอาต์บุ๊คมาร์คการเชื่อมโยงหลายมิติหรือรูปแบบใด ๆ
ในการสร้างไฟล์ PDF ไฮบริดให้เรียกใช้ OpenOffice พร้อมติดตั้ง Sun PDF Import Extension เลือก "ไฟล์" เลือก "ส่งออกเป็น PDF" หน้าต่างตัวเลือก PDF เช่นภาพหน้าจอจะเปิดขึ้นจากนั้นทำเครื่องหมาย "สร้างไฟล์ไฮบริด" และคลิก "ส่งออก "
ไฟล์ PDF ไฮบริดนี้ช่วยให้คุณรักษารูปแบบไฟล์แยกกันสองรูปแบบเนื่องจากรวมสองเป็นหนึ่งเดียว มันพร้อมสำหรับการแชร์และการดูด้วยโปรแกรมอ่าน PDF แต่มันสามารถเปิดได้เพื่อการแก้ไขที่สมบูรณ์แบบเหมือนกับที่ไฟล์ OpenOffice ปกติสามารถทำได้ อาจเป็นความคิดที่ดีที่จะตั้งชื่อไฟล์ไฮบริดที่ลงท้ายด้วย "-odf.pdf" เพื่อแยกความแตกต่างจากไฟล์ PDF ปกติ
Sun PDF Import Extension เข้ากันได้กับ OpenOffice.org (3.0 หรือใหม่กว่า) หรือ StarOffice 9
เอกสารที่สแกนแปลงเป็นไฟล์ PDF แรกไม่ได้มีการใด ๆข้อความ มันประกอบไปด้วยหน้าแต่ละหน้าด้วยภาพพิกเซลแบบเต็มหน้า รูปภาพนี้อาจมีหรือไม่มีบริเวณที่มีรูปร่างเหมือนตัวอักษรที่สมองของมนุษย์ระบุว่าเป็นตัวอักษรและ "ข้อความ"
โดยทางโปรแกรมไม่ใช่ข้อความเพียงพิกเซล
ในการแทรก PDF ที่มาจากภาพสแกนสิ่งที่เป็นข้อความจริงสามารถใช้กระบวนการ OCR เท่านั้น สิ่งนี้จะเพิ่มเลเยอร์เนื้อหาพิเศษลงในหน้า PDF เลเยอร์พิเศษนั้นจะมีอักขระที่ระบุ (หรือระบุผิด) ทั้งหมดด้านหลังรูปร่างของพิกเซลเป็นร่ายมนตร์จริงจากฟอนต์จริง อย่างไรก็ตามอักขระข้อความจริงเหล่านี้มีมาร์กอัป PDF พิเศษติดแท็กเพื่อไม่ให้แสดงผลโดยผู้ชม (หรือเมื่อพิมพ์) สิ่งที่มีอยู่ของพวกเขาจะปรากฏขึ้นเฉพาะเมื่อค้นหาข้อความ (หรือไฮไลต์) (หรือเมื่อพยายามที่จะคัดลอกพื้นที่ 'n'paste จากภาพในขณะที่เครื่องมือ Acrobat Text Touchup ทำงานอยู่)
ดังนั้นคำถามที่แท้จริงของคุณคือ: "ผลลัพธ์ OCR สำหรับเอกสาร PDF ที่สแกนของฉันนั้นดีที่สุดย่อยไม่ได้ระบุอักขระทั้งหมดอย่างถูกต้องฉันต้องการแก้ไขข้อความที่ซ่อนอยู่เพื่อให้ได้ผลลัพธ์ OCR ที่ดีขึ้นฉันจะทำอย่างไรกับ เป็นเครื่องมือฟรีหรือไม่ " ?
แก้ไข: ฉันไม่ปกติใช้ Acrobat แต่ตอนนี้ฉันมีโอกาสได้ดูรุ่น 9.1.3 รุ่น Professional บนพีซีของเพื่อนร่วมงาน
สิ่งแรกที่ฉันตรวจสอบ: จริงหรือไม่ว่า Acroabat ไม่อนุญาตให้แก้ไขข้อความ OCR
คำตอบ: ไม่ไม่จริง ฉันสามารถใช้เครื่องมือ OCR builtin ของ Acrobat เพื่อจับข้อความของเอกสารที่สแกนแบบสุ่มซึ่งฉันค้นหาโดย Google และดาวน์โหลดจากเว็บ หลังจากนั้นข้อความนี้สามารถแก้ไขได้อย่างสมบูรณ์ด้วยเครื่องมือข้อความ TouchUp ที่มีให้ผ่านรายการเมนูการแก้ไขขั้นสูง
ขั้นตอน:
ดูเหมือนว่าคุณหมายถึง "text stream" คือข้อมูลข้อความจาก PDF ไม่แน่ใจ. หากเป็นเช่นนั้นฉันใช้คลิปบอร์ดมาตรฐานและตัวแก้ไขข้อความอย่างเดียวฉันใช้ KEDIT เนื่องจากความสามารถในการแก้ไขคอลัมน์เพื่อเก็บข้อมูลและแก้ไข ปัญหาคือคุณสูญเสียการจัดรูปแบบใด ๆ และบางครั้งก็มีตารางตามลำดับของข้อมูลที่สับสน แต่สำหรับการบันทึกง่ายๆมันได้ผล