โซลูชัน OCR ที่ใช้งานได้จริงสำหรับการแปลงหนังสือขนาดใหญ่เป็นรูปแบบดิจิทัลหรือไม่


12

ฉันถูกแทนที่โดยสถานที่ปู่ย่าตายายของฉันเมื่อสุดสัปดาห์ที่ผ่านมานี้ ยายดึงหนังสือยักษ์เล่มนี้ (ประมาณ 1,400 หน้า) ออกจากประวัติครอบครัวของเธอกลับไปที่ 1630 หรือมากกว่านั้น Giant nerd ที่ฉันเป็นฉันคิดว่ามันจะลื่นไหลหากมีข้อมูลทั้งหมดที่จัดเก็บไว้ในฐานข้อมูลและหาได้จากเว็บ ฉันสามารถจัดการการเขียนโปรแกรมเว็บและการแสดงผลปกติทั้งหมด แต่สิ่งที่ฉันไม่รู้คือวิธีที่ดีที่สุดในการรับข้อความจากหนังสือไปยังคอมพิวเตอร์

ฉันรู้ว่าจำเป็นต้องใช้ OCR บางอย่างจากการวิจัยเล็ก ๆ น้อย ๆ ที่ฉันทำดูเหมือนว่าตัวเลือกของฉันคือ:

  1. ถ่ายภาพทุกหน้าด้วยกล้องจากนั้นประมวลผลภาพด้วยซอฟต์แวร์ OCR
  2. ใช้เครื่องสแกนเพื่อสแกนแต่ละหน้าจากนั้นประมวลผลด้วยซอฟต์แวร์ OCR
  3. ใช้ประเภทของอุปกรณ์มือถือบางอย่างเช่นนี้

ใครบ้างมีความคิดเกี่ยวกับวิธีที่ดีที่สุดในการแก้ไขปัญหานี้ ฉันไม่ต้องการทำลายหนังสือเพราะเท่าที่ฉันรู้มันไม่สามารถถูกแทนที่ได้ อาจเป็นครั้งเดียวที่ฉันจะสแกนหนังสือเล่มใหญ่ดังนั้นฉันไม่คิดว่าฉันต้องการใช้เงินมากกว่า $ 250 สำหรับอุปกรณ์ประเภทใด ฉันไม่สนใจความพยายามด้วยตนเองที่นี่ (ฉันรู้ว่านี่น่าจะใช้เวลาเป็นเดือน ๆ ) แต่ฉันต้องการค้นหาวิธีที่มีประสิทธิภาพที่สุดเท่าที่จะทำได้

หมายเหตุเกี่ยวกับหนังสือเล่มนี้: มันอายุประมาณ 20 ปีเท่านั้นดังนั้นมันจึงค่อนข้างดี เป็นขาวดำและหน้าเว็บยังไม่เริ่มเป็นสีเหลือง แม้ว่ามันจะมีขนาดใหญ่มากฉันจึงกังวลเกี่ยวกับเงาที่อาจเกิดขึ้นเมื่อข้อความเข้าใกล้ความผูกพัน

ocr 

1
ในบันทึกด้านข้างหากหนังสือเล่มนี้มีอายุเพียง 20 ปีและข้อมูลกลับไปสู่ยุค 1600 แหล่งข้อมูลดั้งเดิมอยู่ที่ไหน นั่นอาจจะดีในการจับเช่นกัน!
เครก

ใช่แล้วมันก็จะเท่ห์เหมือนกัน ฉันจะดูว่าฉันสามารถติดตามผู้เขียนต้นฉบับได้หรือไม่

คำตอบ:


8

ฉันเจอสิ่งนี้ใน Lifehacker สักพักหนึ่งและมันก็เป็นหนึ่งในโครงการ DIY ชั้นนำของฉันนับตั้งแต่

ป้อนคำอธิบายรูปภาพที่นี่

แทนที่ iPhone ด้วยกล้องหรือภาพและคุณจะได้ jpegs ความละเอียดสูงที่ดีพร้อมสำหรับ OCR ด้วยซอฟต์แวร์ใด ๆ แม้แต่ (urks!) MS Office ... ;)

ถูก มีประสิทธิภาพ DIY คุณไม่สามารถเอาชนะความคิดเช่นนี้

แก้ไข: ความคิดเห็นยกประเด็นบางอย่างเกี่ยวกับเงา, การม้วนหน้า, ฯลฯ ค่อนข้างแก้ไขได้อย่างง่ายดายสำหรับทุกคนที่มีข้อความห้องสมุดคัดลอกภาพ

เพิ่มแหล่งกำเนิดแสงหลายแหล่งเพื่อส่องสว่างหนังสือและกำจัดเงา

เอียงหนังสือที่ 90 องศาไปยังหน้าไม่โค้งไปตรงกลาง นอกจากนี้ยังรักษาความผูกพัน

ฉันจะดูว่าฉันสามารถยกตัวอย่างและตั้งค่าเองได้ไหม

แก้ไข 2: ตัวอย่างอัปโหลดว่าคุณควรเก็บหนังสืออย่างไรและสังเกตเห็นแหล่งกำเนิดแสงจากด้านซ้าย

ป้อนคำอธิบายรูปภาพที่นี่


มันเจ๋งมาก! หวังว่าฉันจะทำอย่างนั้น :)
อเล็กซ์

อย่างไรก็ตามคุณต้องใช้กล้องจริงในการทำเช่นนั้นและคุณภาพที่ดีหรือคุณจะจบด้วยรูปภาพที่คุณไม่สามารถใช้ประโยชน์ได้โดยเฉพาะจากหนังสือเก่า ๆ ดังนั้นไกลจากราคาถูก
Gnoupi

น่าสนใจมาก. ฉันสงสัยว่าสิ่งนี้จะทำงานกับหนังสือได้อย่างไรโดยพิจารณาจากเงาระหว่างหน้าหนังสือ

หากหน้าเว็บมีการโค้งงอหรือมีเงาคุณจะมีปัญหาในการรับซอฟต์แวร์ OCR เพื่อจดจำตัวอักษร
alex

เพิ่มแหล่งกำเนิดแสงหลายแหล่งเพื่อส่องสว่างหนังสือและกำจัดเงา เอียงหนังสือที่ 90 องศาเพื่อไม่ให้หน้ากระดาษม้วนงอตรงกลาง เป็นเรื่องธรรมดาสามัญสำนึกเราทำเช่นนั้นตลอดเวลาในวิทยาลัยการถ่ายรูปตำราห้องสมุด
caliban


1

คุณจะต้องจับภาพอย่างใด มีบริการต่าง ๆ ให้ทำเพื่อคุณ คุณจะต้องมีคนที่คุ้นเคยกับเนื้อหาของข้อความเพื่อพิสูจน์อักษรเนื่องจาก OCR ยังไม่สมบูรณ์ โดยเฉพาะกับสิ่งที่เขียนด้วยลายมือ

คนอื่นกำลังสนทนาคำถามของคุณที่นี่: http://ask.metafilter.com/92506/scan-my-books

บาง บริษัท จะทำสิ่งนี้เพื่อคุณ: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www ristech.ca/product.html

ซอฟต์แวร์เสรี: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html


1

สำหรับโครงการขนาดใหญ่และสำคัญสำหรับคุณและครอบครัวของคุณเช่นนี้เครื่องสแกนหนังสือ DIY อาจเป็นวิธีที่จะไปการออกแบบบางอย่างแม้แต่นักหมุนหน้ากีฬา - http://www.diybookscanner.org/ อัน นี้ไม่สนับสนุน OCR แต่ถ่ายภาพได้ 600 หน้าต่อชั่วโมงและคุณสามารถเรียกใช้ผ่าน OCR ได้หลังจากhttp://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/



0

ฉันอยากจะแนะนำเครื่องสแกนแบบแท่นสำหรับการสแกนหนังสือหรือเครื่องสแกนหนังสือทั้งเล่มตามที่ Chris พูดถึง

หากทำได้ให้นำภาพของคุณรวบรวมเป็นรูปแบบ TIFF ซึ่งเป็นมาตรฐานอุตสาหกรรมเมื่อพูดถึงระบบการจัดการเอกสาร

สำหรับการทำ OCR ฉันขอแนะนำtesseract OCRเนื่องจากเป็นกรอบที่ Google อธิบายสำหรับโครงการหนังสือของพวกเขา


0

ในขณะที่การดึงดูดกระบวนการอัตโนมัติเป็นไปได้คุณอาจต้องการลงทุนมากกว่าเวลาและการทำงานเนื่องจากหนังสือเล่มนี้เป็นเรื่องส่วนตัว OCR จะทำจำนวนมาก แต่คุณจะต้องพิสูจน์อักษรทีละหน้าและเปรียบเทียบกับต้นฉบับ โปรดทราบว่าความผิดพลาดของผู้เขียนเป็นส่วนหนึ่งของข้อตกลงอย่าแก้ไขให้ถูกต้อง (สร้างเชิงอรรถหากคุณรู้สึกว่ามีแนวโน้มมาก) ใช้เวลาของคุณอย่ากดดันตัวเองการสแกนหนังสือเป็นงานลา แต่การจ่ายเงินอย่างทั่วถึงและคุณจะได้รับสำเนาดิจิทัลอันละเอียดอ่อนของเรื้อรังในครอบครัวของคุณ ขอให้โชคดีกับความพยายามของคุณ :)


จริงๆแล้วมันเป็นจุดที่ดีจริงๆ ฉันไม่ได้พิจารณาที่จะทำให้เนื้อหาต้นฉบับของหนังสือพร้อมใช้งานแบบดิจิทัล แต่ตราบใดที่ฉันมีหนังสือเล่มนี้ฉันก็อาจสร้างไฟล์. pdf

ทำไม PDF คิดว่า HTML และคุณอาจเก็บสแกนต้นฉบับไว้แม้ว่าคุณจะจบลงด้วยข้อมูลจำนวนมหาศาล

ความคิดของฉันคือการมีข้อมูลการเกิด / สายเลือดทั้งหมดในฐานข้อมูลดังนั้นฉันสามารถสร้างส่วนหน้าเว็บที่จะทำให้การนำทาง / ค้นหา / อัปเดตง่ายขึ้น ฉันวางแผนที่จะพิมพ์ผิดจากเวอร์ชันนั้น นอกจากนี้ฉันมีลูกพี่ลูกน้องที่ไม่ได้อยู่ในนั้นและมันก็เป็นการดีที่จะเพิ่มพวกเขา ฉันคิดว่า pdf เพราะมันจะดีถ้ามีบางอย่างที่ดูเหมือนหนังสือต้นฉบับที่มีหมายเลขหน้าดั้งเดิมและครบถ้วน รุ่นนั้นฉันจะออกไปคนเดียวและป้องกันการพิมพ์ผิดทั้งหมดจากหนังสือ

0

ที่ทำงานเราใช้Plustek Optibook 3600สแกนเนอร์หนังสือซึ่งเป็นเรื่องเกี่ยวกับ $
โดยทั่วไปแล้วเครื่องสแกนเนอร์เบดแบบมาตรฐาน แต่ด้วยแผ่นกระจกตรงไปที่ขอบของเครื่องสแกนเพื่อให้หน้าหนังสือวางราบลงบนแผ่น สิ่งนี้จะช่วยกำจัดเงาของกระดูกสันหลังและหลีกเลี่ยงการทำลายหนังสือ

ป้อนคำอธิบายรูปภาพที่นี่


คุณเคยลองใช้สิ่งนั้นกับหนังสือเล่มหนาจริง ๆ หรือไม่? มันหนาเหมือน 3 นิ้ว

หากคุณสามารถเปิดได้ 90 °โดยให้หน้าเรียบพอสมควร ลองใช้ขอบโต๊ะ
pelms
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.