ผู้ใช้คอมพิวเตอร์ tesseract-ocr

0

ฉันได้ทำการสแกนไฟล์ PDF ขนาด 300 dpi บนระบบ Ubuntu 16.04 เมื่อฉันเรียกใช้คำสั่งต่อไปนี้: pdfocr -t -l swe -i *.pdf -o newfile.pdf มันส่งผลให้ไฟล์ OCR-read สมบูรณ์แบบ ทุกคำสามารถค้นหาได้ทุกขนาดและรูปร่างของแบบอักษร อย่างไรก็ตามขั้นตอนต่อไปในกระบวนการกำลังแปลง PDF นี้เป็น PDF / A-1b สิ่งนี้ทำโดย Ghostscript 9.18 ที่รันคำสั่ง: gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i ไฟล์ผลลัพธ์ได้รับการตรวจสอบความถูกต้องเป็นไฟล์ PDF / A-1b-file ที่ถูกต้อง แต่ความสามารถในการค้นหาของไฟล์นั้นเปลี่ยนแปลงไปมาก ดูเหมือนว่า Ghostscript กำลังทำลาย …

2 pdf ocr ghostscript tesseract-ocr

2

วิธีหลีกเลี่ยงผลลัพธ์ที่บิดเบือนด้วยเครื่องมือ OCR pdfsandwich

โดยปกติแล้วหน้าที่สแกนจะต้องได้รับการสเตดูแลก่อนที่จะใช้เครื่องมือ OCR ที่นี่อินพุตของฉันเป็นหน้าที่สแกนแบบตรงและบางครั้งเอาต์พุต OCR จะเบ้ทั้งตามเข็มนาฬิกาหรือทวนเข็มนาฬิกา ในกรณีที่ฉันใช้หนังสือภาษาอังกฤษ 260 หน้ามันเกิดขึ้นกับ 14 หน้า ตัวอย่าง: input.pdf: output.pdf คำสั่ง: convert -density 300 -quality 100 input.pdf -level 0%,100%,4.0 -black-threshold 75% convert.pdf && pdfsandwich -noimage -coo "-normalize -density 300 -black-threshold 75%" convert.pdf -o output.pdf ฉันจะหลีกเลี่ยงผลลัพธ์ที่เอียงได้อย่างไร อีกวิธีหนึ่งฉันสามารถเดสก์ท็อปเอาต์พุตโดยไม่ทำให้ OCR หายไปได้อย่างไร วิธีการและเครื่องมือทั้งหมดที่ฉันได้พบการแปลงครั้งแรกเป็นรูปแบบภาพที่ทำให้สูญเสีย OCR แล้วไม่มีประโยชน์ที่นี่

1 pdf scanning ocr tesseract-ocr

1

แบบอักษรที่ดีที่สุดสำหรับ Tesseract? (โดยเฉพาะ. wrapper. NET)

ฉันใช้ Tesseract เป็นเครื่องมือในการแปลงเอกสารข้อความที่พิมพ์ด้วยกล้องมือถือเป็นข้อความ ผลลัพธ์ไม่ดี คุณภาพของภาพดีมากไกลกว่าแฟกซ์มาก แต่ดูเหมือนว่าจะมีการระบุอักขระที่ยากลำบากมาก ฉันได้ลองเลียนแบบเอกสารเหล่านี้ในเท็กซ์เอดิเตอร์การจับภาพหน้าจอของหน้าต่างและเรียกใช้ผ่าน Tesseract และผลลัพธ์จะดีขึ้นเพียงเล็กน้อยเท่านั้น นี่ทำให้ฉันเชื่อว่าอาจมีแบบอักษรที่ดีที่สุดสำหรับ Tesseract ฉัน Googled เล็กน้อยและเจอ OCR-A แต่ดูเหมือนว่าต้องมีใบอนุญาต จากนั้นฉันก็พบกับ OCR-A ฟรีทางเลือกใน SourceFourge แต่ดูเหมือนจะไม่ดีกว่า Arial หรือ Courier New มีแบบอักษรที่ทำงานได้ดีที่สุดกับ Tesseract หรือฉันต้องทำอย่างอื่นเพื่อเพิ่มความแม่นยำของการรู้จำตัวอักษร?

1 tesseract-ocr

1

ฉันจะฝึก tesseract เพื่อเพิกเฉยต่อเส้นหยักที่เพิ่มเข้ามาจากการตรวจจับการสะกดคำและไวยากรณ์ได้อย่างไร

ฉันใช้ tesseract เพื่อตรวจจับข้อความในรูปแบบต่าง ๆ รวมถึงภาพหน้าจอมันจะสับสนโดยขีดเส้นใต้สีแดงและน้ำเงินที่เป็นคลื่นสำหรับการสะกดคำและการเตือนไวยากรณ์เช่นตัวอย่างด้านล่าง ท้ายที่สุดฉันก็ไม่มีข้อความหรืออ่านไม่ออก ฉันได้ดูวิธีที่จะกำจัดบรรทัดเหล่านี้ในการประมวลผลล่วงหน้าของ imagemagick ด้วยความสำเร็จ แต่วิธีการเหล่านี้ลบข้อความใด ๆ ที่เป็นสีแดงหรือสีน้ำเงินซึ่งไม่เป็นที่พึงปรารถนา - รวมทั้งพวกเขาใช้เวลานานในการรัน ภาพต่อวัน ฉันคิดว่าอาจจะมีวิธีฝึก tesseract ให้จดจำและละทิ้งบรรทัดเหล่านี้ แต่ฉันไม่แน่ใจว่ามันจะทำงานได้อย่างไร ฉันได้เห็นแบบฝึกหัดเกี่ยวกับวิธีการฝึก tesseract เพื่อให้รู้จักข้อความ แต่ฉันไม่ได้เห็นวิธีการฝึกอบรมในการจดจำสิ่งที่ไม่ใช่ข้อความ มีวิธีที่ฉันสามารถฝึก tesseract หรือทำบางสิ่งบางอย่างด้วยการตั้งค่า Leptonica ที่ใช้เพื่อละเว้นบรรทัดเหล่านี้หรือไม่? หากใครประสบความสำเร็จในการจัดการเรื่องนี้โปรดแจ้งให้เราทราบมิฉะนั้นแนวทางที่แนะนำจะเป็นอย่างไร

1 imagemagick tesseract-ocr

2

ไม่สามารถประมวลผล GIF ด้วย Tesseract ใน OSX

รับข้อผิดพลาดต่อไปนี้: Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in pixReadStreamGif: function not present Error in pixReadStream: gif: no pix returned Error in pixRead: pix not read Unsupported image type. ความคิดใดทำไม

macos mac gif tesseract-ocr

คำถามติดแท็ก tesseract-ocr