คำถามติดแท็ก tesseract-ocr

0
OCR ตลก - สถานการณ์
ฉันได้ทำการสแกนไฟล์ PDF ขนาด 300 dpi บนระบบ Ubuntu 16.04 เมื่อฉันเรียกใช้คำสั่งต่อไปนี้: pdfocr -t -l swe -i *.pdf -o newfile.pdf มันส่งผลให้ไฟล์ OCR-read สมบูรณ์แบบ ทุกคำสามารถค้นหาได้ทุกขนาดและรูปร่างของแบบอักษร อย่างไรก็ตามขั้นตอนต่อไปในกระบวนการกำลังแปลง PDF นี้เป็น PDF / A-1b สิ่งนี้ทำโดย Ghostscript 9.18 ที่รันคำสั่ง: gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i ไฟล์ผลลัพธ์ได้รับการตรวจสอบความถูกต้องเป็นไฟล์ PDF / A-1b-file ที่ถูกต้อง แต่ความสามารถในการค้นหาของไฟล์นั้นเปลี่ยนแปลงไปมาก ดูเหมือนว่า Ghostscript กำลังทำลาย …

2
วิธีหลีกเลี่ยงผลลัพธ์ที่บิดเบือนด้วยเครื่องมือ OCR pdfsandwich
โดยปกติแล้วหน้าที่สแกนจะต้องได้รับการสเตดูแลก่อนที่จะใช้เครื่องมือ OCR ที่นี่อินพุตของฉันเป็นหน้าที่สแกนแบบตรงและบางครั้งเอาต์พุต OCR จะเบ้ทั้งตามเข็มนาฬิกาหรือทวนเข็มนาฬิกา ในกรณีที่ฉันใช้หนังสือภาษาอังกฤษ 260 หน้ามันเกิดขึ้นกับ 14 หน้า ตัวอย่าง: input.pdf: output.pdf คำสั่ง: convert -density 300 -quality 100 input.pdf -level 0%,100%,4.0 -black-threshold 75% convert.pdf && pdfsandwich -noimage -coo "-normalize -density 300 -black-threshold 75%" convert.pdf -o output.pdf ฉันจะหลีกเลี่ยงผลลัพธ์ที่เอียงได้อย่างไร อีกวิธีหนึ่งฉันสามารถเดสก์ท็อปเอาต์พุตโดยไม่ทำให้ OCR หายไปได้อย่างไร วิธีการและเครื่องมือทั้งหมดที่ฉันได้พบการแปลงครั้งแรกเป็นรูปแบบภาพที่ทำให้สูญเสีย OCR แล้วไม่มีประโยชน์ที่นี่

1
แบบอักษรที่ดีที่สุดสำหรับ Tesseract? (โดยเฉพาะ. wrapper. NET)
ฉันใช้ Tesseract เป็นเครื่องมือในการแปลงเอกสารข้อความที่พิมพ์ด้วยกล้องมือถือเป็นข้อความ ผลลัพธ์ไม่ดี คุณภาพของภาพดีมากไกลกว่าแฟกซ์มาก แต่ดูเหมือนว่าจะมีการระบุอักขระที่ยากลำบากมาก ฉันได้ลองเลียนแบบเอกสารเหล่านี้ในเท็กซ์เอดิเตอร์การจับภาพหน้าจอของหน้าต่างและเรียกใช้ผ่าน Tesseract และผลลัพธ์จะดีขึ้นเพียงเล็กน้อยเท่านั้น นี่ทำให้ฉันเชื่อว่าอาจมีแบบอักษรที่ดีที่สุดสำหรับ Tesseract ฉัน Googled เล็กน้อยและเจอ OCR-A แต่ดูเหมือนว่าต้องมีใบอนุญาต จากนั้นฉันก็พบกับ OCR-A ฟรีทางเลือกใน SourceFourge แต่ดูเหมือนจะไม่ดีกว่า Arial หรือ Courier New มีแบบอักษรที่ทำงานได้ดีที่สุดกับ Tesseract หรือฉันต้องทำอย่างอื่นเพื่อเพิ่มความแม่นยำของการรู้จำตัวอักษร?

1
ฉันจะฝึก tesseract เพื่อเพิกเฉยต่อเส้นหยักที่เพิ่มเข้ามาจากการตรวจจับการสะกดคำและไวยากรณ์ได้อย่างไร
ฉันใช้ tesseract เพื่อตรวจจับข้อความในรูปแบบต่าง ๆ รวมถึงภาพหน้าจอมันจะสับสนโดยขีดเส้นใต้สีแดงและน้ำเงินที่เป็นคลื่นสำหรับการสะกดคำและการเตือนไวยากรณ์เช่นตัวอย่างด้านล่าง ท้ายที่สุดฉันก็ไม่มีข้อความหรืออ่านไม่ออก ฉันได้ดูวิธีที่จะกำจัดบรรทัดเหล่านี้ในการประมวลผลล่วงหน้าของ imagemagick ด้วยความสำเร็จ แต่วิธีการเหล่านี้ลบข้อความใด ๆ ที่เป็นสีแดงหรือสีน้ำเงินซึ่งไม่เป็นที่พึงปรารถนา - รวมทั้งพวกเขาใช้เวลานานในการรัน ภาพต่อวัน ฉันคิดว่าอาจจะมีวิธีฝึก tesseract ให้จดจำและละทิ้งบรรทัดเหล่านี้ แต่ฉันไม่แน่ใจว่ามันจะทำงานได้อย่างไร ฉันได้เห็นแบบฝึกหัดเกี่ยวกับวิธีการฝึก tesseract เพื่อให้รู้จักข้อความ แต่ฉันไม่ได้เห็นวิธีการฝึกอบรมในการจดจำสิ่งที่ไม่ใช่ข้อความ มีวิธีที่ฉันสามารถฝึก tesseract หรือทำบางสิ่งบางอย่างด้วยการตั้งค่า Leptonica ที่ใช้เพื่อละเว้นบรรทัดเหล่านี้หรือไม่? หากใครประสบความสำเร็จในการจัดการเรื่องนี้โปรดแจ้งให้เราทราบมิฉะนั้นแนวทางที่แนะนำจะเป็นอย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.