แบบอักษรที่ดีที่สุดสำหรับ Tesseract? (โดยเฉพาะ. wrapper. NET)


1

ฉันใช้ Tesseract เป็นเครื่องมือในการแปลงเอกสารข้อความที่พิมพ์ด้วยกล้องมือถือเป็นข้อความ ผลลัพธ์ไม่ดี คุณภาพของภาพดีมากไกลกว่าแฟกซ์มาก แต่ดูเหมือนว่าจะมีการระบุอักขระที่ยากลำบากมาก

ฉันได้ลองเลียนแบบเอกสารเหล่านี้ในเท็กซ์เอดิเตอร์การจับภาพหน้าจอของหน้าต่างและเรียกใช้ผ่าน Tesseract และผลลัพธ์จะดีขึ้นเพียงเล็กน้อยเท่านั้น

นี่ทำให้ฉันเชื่อว่าอาจมีแบบอักษรที่ดีที่สุดสำหรับ Tesseract ฉัน Googled เล็กน้อยและเจอ OCR-A แต่ดูเหมือนว่าต้องมีใบอนุญาต จากนั้นฉันก็พบกับ OCR-A ฟรีทางเลือกใน SourceFourge แต่ดูเหมือนจะไม่ดีกว่า Arial หรือ Courier New

มีแบบอักษรที่ทำงานได้ดีที่สุดกับ Tesseract หรือฉันต้องทำอย่างอื่นเพื่อเพิ่มความแม่นยำของการรู้จำตัวอักษร?


คุณโหลดพจนานุกรมที่ถูกต้องใช่มั้ย
Daniel B

@DanielB จุดดี จริง ๆ แล้วฉันใช้สิ่งนี้เป็นเครื่องมือในการแปลงไฟล์ข้อมูลที่มีขนาดค่อนข้างเล็กเป็น base64 แล้วพิมพ์ลงบนกระดาษเพื่อสำรองข้อมูล มันเป็นความคิดเดียวกันที่อยู่เบื้องหลังปกอ่อน มีความคิดใดที่จะสร้างพจนานุกรมที่กำหนดเองของฉันเองได้อย่างไร ฉันสามารถลองสร้างพจนานุกรมของสตริงเบส 64 ที่เป็นไปได้ทั้งหมดและดูว่าสิ่งนั้นช่วยได้ด้วยความแม่นยำหรือไม่
user613051

ทำไมไม่พิมพ์รหัส qr ข้างข้อความด้วย?
MátéJuhász

@ MátéJuhászฉันได้พิจารณาการสร้างรหัส QR เนื่องจากปริมาณข้อมูลที่พวกเขาสามารถเก็บไว้ได้ แต่ยังไม่ได้ไปหาแอปอ่านรหัส QR ที่ไม่ต้องการการอนุญาตทุกครั้งที่มนุษย์รู้จัก
user613051

คำตอบ:


0

ทางเลือกที่ดีที่สุดของคุณคือการฝึกฝนตัวอักษรที่คุณใช้

ฉันไม่ต้องการที่จะเสแสร้งว่านี่เป็นกระบวนการที่ง่าย แต่ก็ไม่ควรทำงานได้ดีกว่า โปรแกรม OCR ส่วนใหญ่ชอบ 300dpi หรือ 600dpi ดังนั้นการลดอัตราการสุ่มอาจจำเป็น

Tesseract Github วิกิพีเดียมีทรัพยากรที่ดีบางอย่างเกี่ยวกับการฝึกอบรม Tesseract

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.