ในฐานะที่เป็นแฟนของโอเพ่นซอร์ส (และระบบอัตโนมัติ) ฉันเกลียดที่จะพูดแบบนี้ แต่ผลลัพธ์ที่ดีที่สุดที่ฉันได้รับ (ใน PDF ที่ค่อนข้างใหญ่และซับซ้อน) คือการเปิดใน Adobe Reader จากนั้นเลือกไฟล์ | บันทึกเป็นข้อความ
(ฉันกำลังประมวลผลล่วงหน้าสำหรับการทดสอบการวิเคราะห์ข้อความไม่ใช่ผู้อ่าน แต่ฉันคิดว่าตัวเลือกแรกและตัวที่สองของฉันจะเหมือนกัน)
ฉันได้เปรียบเทียบผลลัพธ์แบบเคียงข้างกัน ตัวเลือกที่สองของฉันคือแปลง ebook
Adobe : ทิ้งไว้ใน FF สำหรับการแบ่งหน้าซ้ายในหมายเลขหน้าไม่ได้แปลงส่วนหัว / ย่อหน้าเป็นบรรทัดเดียว แต่มีเครื่องหมายยัติภังค์คงที่ ขยะที่ซ่อนอยู่ใน PDF ไม่ได้รับผลลัพธ์ มีตัวพิมพ์ใหญ่อย่างถูกต้องที่ส่วนเริ่มต้นเช่น "The" ไม่ใช่ "T he" หรือแม้แต่ "T he"
แปลง ebook : ทิ้งไว้ในหมายเลขหน้าและขยะบางส่วนที่ซ่อนอยู่ในส่วนหัว / ส่วนท้าย (แต่ไม่มี FFs) แปลงย่อหน้าส่วนใหญ่ให้เป็นบรรทัดเดียว สิ่งที่พลาดคือเว้นระยะห่างสองเท่า! สัญลักษณ์แสดงหัวข้อย่อยไม่ตรงกับข้อความเสมอ ได้รับ "The" ที่ถูกต้องในตอนเริ่มต้นของบท
pdftotext (ไม่มี --layout) : ไม่เลวกระสุนเข้าแถว แต่มีเสียงส่วนหัว / ท้ายกระดาษ มี FFs อยู่ในนั้น ลบยัติภังค์ บทที่ตัวอักษรตัวใหญ่สุดแย่ที่สุด: "T \ n \ nhe"
pdftotext (with --layout) : คล้ายกัน แต่เพิ่มการเยื้อง "T เขา" สำหรับการเริ่มต้นของบท
pdftohtml >> pdfreflow >> htmltotext : ลบหมายเลขหน้า แต่ยังคงขยะในส่วนหัว / ส่วนท้าย "T เขา" สำหรับการเริ่มต้นของบท ลบยัติภังค์ (มันใช้หลายบรรทัดต่อย่อหน้า แต่มันไม่ได้เป็นตัวแบ่งบรรทัดเดียวกันกับในเวอร์ชั่นอื่น!)