ฉันจะฝึก tesseract เพื่อเพิกเฉยต่อเส้นหยักที่เพิ่มเข้ามาจากการตรวจจับการสะกดคำและไวยากรณ์ได้อย่างไร


1

ฉันใช้ tesseract เพื่อตรวจจับข้อความในรูปแบบต่าง ๆ รวมถึงภาพหน้าจอมันจะสับสนโดยขีดเส้นใต้สีแดงและน้ำเงินที่เป็นคลื่นสำหรับการสะกดคำและการเตือนไวยากรณ์เช่นตัวอย่างด้านล่าง ท้ายที่สุดฉันก็ไม่มีข้อความหรืออ่านไม่ออก

ป้อนคำอธิบายรูปภาพที่นี่

ฉันได้ดูวิธีที่จะกำจัดบรรทัดเหล่านี้ในการประมวลผลล่วงหน้าของ imagemagick ด้วยความสำเร็จ แต่วิธีการเหล่านี้ลบข้อความใด ๆ ที่เป็นสีแดงหรือสีน้ำเงินซึ่งไม่เป็นที่พึงปรารถนา - รวมทั้งพวกเขาใช้เวลานานในการรัน ภาพต่อวัน ฉันคิดว่าอาจจะมีวิธีฝึก tesseract ให้จดจำและละทิ้งบรรทัดเหล่านี้ แต่ฉันไม่แน่ใจว่ามันจะทำงานได้อย่างไร

ฉันได้เห็นแบบฝึกหัดเกี่ยวกับวิธีการฝึก tesseract เพื่อให้รู้จักข้อความ แต่ฉันไม่ได้เห็นวิธีการฝึกอบรมในการจดจำสิ่งที่ไม่ใช่ข้อความ มีวิธีที่ฉันสามารถฝึก tesseract หรือทำบางสิ่งบางอย่างด้วยการตั้งค่า Leptonica ที่ใช้เพื่อละเว้นบรรทัดเหล่านี้หรือไม่?

หากใครประสบความสำเร็จในการจัดการเรื่องนี้โปรดแจ้งให้เราทราบมิฉะนั้นแนวทางที่แนะนำจะเป็นอย่างไร

คำตอบ:


0

ขณะนี้ฉันกำลังพยายามที่จะเรียนรู้วิธีการสอน tesseract (ฉันติดอยู่กับวิธีการสร้างไฟล์ lstm สำหรับการฝึกอบรม) แต่ฉันรู้ว่าคุณสามารถปรับแต่งข้อมูลที่ผ่านการฝึกอบรมของคุณได้ดี ฉันใช้jTessBoxEditorเพื่อแก้ไขความผิดพลาดที่ tesseract ทำในช่วง OCR ฉันไม่พบวิธีที่จะนำการเปลี่ยนแปลงในรูปแบบของการฝึกอบรมมาใช้ แต่เครื่องมือนั่นเป็นสิ่งที่คุณต้องการฉันคิดว่า

การใช้ jTessBoxEditor คุณสามารถดูว่า OCR ทำกับรูปภาพอย่างไรและคุณสามารถแก้ไขได้ แต่ฉันยังคงติดอยู่กับวิธีการฝึกอบรม (ยังรอการตอบกลับในฟอรัมและที่นี่) ดังนั้นฉันไม่สามารถช่วยได้มากขึ้นเพราะ นั่นเป็นระยะที่ฉันได้รับและฉันคาดหวังว่าจะไม่มีใครตอบคำถามของคุณเพราะมันมีอายุ 2 ปีดังนั้นการตั้งค่าของคุณอาจล้าสมัยไปแล้ว ฉันลองใช้ tesseract-ocr 4. * และการสอนในเวอร์ชั่นใหม่เปลี่ยนไปมาก แต่เครื่องมือก็มีวิวัฒนาการเช่นกันดังนั้นปัญหาของคุณก็เป็นไปได้ด้วย jTessBoxEditor แต่ฉันไม่รู้วิธีที่จะใช้มันจริง ๆ ไม่ใช่คำตอบ แต่เพียง เป็นบางส่วน

ฉันหวังว่าฉันจะช่วยคุณได้แม้เพียงเล็กน้อย


1
ขอโทษสำหรับเรื่องนั้น. ลิงค์สำหรับเครื่องมือดังกล่าวมีหน้าที่ตรงตามที่อธิบายถึงวิธีการตั้งค่าการรับรู้กล่อง tesseract
KristófHorváth

ลิงก์ยังมีรูปภาพและวิธีดาวน์โหลด
KristófHorváth
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.