ตั้งแต่วันนี้ฉันรู้ว่ามันคือสิ่งที่ดีที่สุดสำหรับการสกัดข้อความจากไฟล์ PDFเป็นTET, ชุดเครื่องมือสกัดข้อความ TET เป็นส่วนหนึ่งของตระกูลผลิตภัณฑ์ PDFlib.com
PDFlib.com เป็น บริษัท ของ Thomas Merz ในกรณีที่คุณไม่รู้จักชื่อของเขา: Thomas Merz เป็นผู้แต่ง "PostScript และ PDF Bible"
ชาติแรก TET เป็นห้องสมุด สิ่งนั้นอาจทำทุกสิ่งที่ Budda006 ต้องการรวมถึงข้อมูลตำแหน่งเกี่ยวกับองค์ประกอบทั้งหมดในหน้า โอ้และยังสามารถแยกรูปภาพ มันรวมรูปภาพที่แยกส่วนเป็นชิ้น ๆ
pdflib.com มีชาติของเทคโนโลยีนี้อีกTET ปลั๊กอินสำหรับ Acrobat และชาติที่สามคือPDFlib TET iFilter นี่เป็นเครื่องมือแบบสแตนด์อโลนสำหรับเดสก์ท็อปผู้ใช้ ทั้งสองอย่างนี้ฟรี (เหมือนในเบียร์) เพื่อใช้เพื่อวัตถุประสงค์ส่วนตัวและไม่ใช่เพื่อการค้า
และมันทรงพลังจริงๆ วิธีที่ดีกว่าการแยกข้อความของ Adobe เอง มันแยกข้อความสำหรับฉันที่เครื่องมืออื่น ๆ (รวมถึง Adobe) ทำคายขยะเท่านั้น
ฉันเพิ่งทดสอบเครื่องมือแบบสแตนด์อโลนของเดสก์ท็อปและสิ่งที่พวกเขาพูดบนหน้าเว็บเป็นเรื่องจริง มันมี commandline ที่ดีมาก ไฟล์ทดสอบ PDF "ที่เป็นปัญหา" ของฉันซึ่งเป็นเครื่องมือที่จัดการเพื่อความพึงพอใจของฉัน
สิ่งนี้จะเป็นคำแนะนำของฉันสำหรับทุกความต้องการการสกัดข้อความ PDF ที่ซับซ้อนและท้าทาย
TET ยอดเยี่ยมมาก ตรวจพบตาราง ภายในตารางจะระบุเซลล์ที่ครอบคลุมหลายคอลัมน์ มันระบุแถวตารางและเนื้อหาของแต่ละตารางเซลล์แยกจากกัน มันจัดการได้ดีมากกับการใส่ยติภังค์: มันจะลบยัติภังค์และเรียกคืนคำที่สมบูรณ์ รองรับภาษาที่ไม่ใช่ ASCII (รวมถึง CJK, อาหรับและฮิบรู) เมื่อเผชิญหน้ากับหนังสติ๊กมันจะคืนค่าตัวละครดั้งเดิม ...
ให้มันลอง.