ฉันใช้ tesseract เพื่อตรวจจับข้อความในรูปแบบต่าง ๆ รวมถึงภาพหน้าจอมันจะสับสนโดยขีดเส้นใต้สีแดงและน้ำเงินที่เป็นคลื่นสำหรับการสะกดคำและการเตือนไวยากรณ์เช่นตัวอย่างด้านล่าง ท้ายที่สุดฉันก็ไม่มีข้อความหรืออ่านไม่ออก
ฉันได้ดูวิธีที่จะกำจัดบรรทัดเหล่านี้ในการประมวลผลล่วงหน้าของ imagemagick ด้วยความสำเร็จ แต่วิธีการเหล่านี้ลบข้อความใด ๆ ที่เป็นสีแดงหรือสีน้ำเงินซึ่งไม่เป็นที่พึงปรารถนา - รวมทั้งพวกเขาใช้เวลานานในการรัน ภาพต่อวัน ฉันคิดว่าอาจจะมีวิธีฝึก tesseract ให้จดจำและละทิ้งบรรทัดเหล่านี้ แต่ฉันไม่แน่ใจว่ามันจะทำงานได้อย่างไร
ฉันได้เห็นแบบฝึกหัดเกี่ยวกับวิธีการฝึก tesseract เพื่อให้รู้จักข้อความ แต่ฉันไม่ได้เห็นวิธีการฝึกอบรมในการจดจำสิ่งที่ไม่ใช่ข้อความ มีวิธีที่ฉันสามารถฝึก tesseract หรือทำบางสิ่งบางอย่างด้วยการตั้งค่า Leptonica ที่ใช้เพื่อละเว้นบรรทัดเหล่านี้หรือไม่?
หากใครประสบความสำเร็จในการจัดการเรื่องนี้โปรดแจ้งให้เราทราบมิฉะนั้นแนวทางที่แนะนำจะเป็นอย่างไร