วิธีหลีกเลี่ยงผลลัพธ์ที่บิดเบือนด้วยเครื่องมือ OCR pdfsandwich
โดยปกติแล้วหน้าที่สแกนจะต้องได้รับการสเตดูแลก่อนที่จะใช้เครื่องมือ OCR ที่นี่อินพุตของฉันเป็นหน้าที่สแกนแบบตรงและบางครั้งเอาต์พุต OCR จะเบ้ทั้งตามเข็มนาฬิกาหรือทวนเข็มนาฬิกา ในกรณีที่ฉันใช้หนังสือภาษาอังกฤษ 260 หน้ามันเกิดขึ้นกับ 14 หน้า ตัวอย่าง: input.pdf: output.pdf คำสั่ง: convert -density 300 -quality 100 input.pdf -level 0%,100%,4.0 -black-threshold 75% convert.pdf && pdfsandwich -noimage -coo "-normalize -density 300 -black-threshold 75%" convert.pdf -o output.pdf ฉันจะหลีกเลี่ยงผลลัพธ์ที่เอียงได้อย่างไร อีกวิธีหนึ่งฉันสามารถเดสก์ท็อปเอาต์พุตโดยไม่ทำให้ OCR หายไปได้อย่างไร วิธีการและเครื่องมือทั้งหมดที่ฉันได้พบการแปลงครั้งแรกเป็นรูปแบบภาพที่ทำให้สูญเสีย OCR แล้วไม่มีประโยชน์ที่นี่