ข้อความทางกายภาพเป็นข้อความดิจิตอล


9

ให้ฉันนำหน้าคำถามนี้ก่อนด้วยฉันไม่มีความคิดว่าเว็บไซต์ StackExchange จะเหมาะสมที่สุดสำหรับคำถามนี้ แต่ฉันคิดว่า LifeHacks อาจใช้งานได้ ...

ในปี 1998 ด้านครอบครัวของแม่ของฉันมีการรวมตัวใหม่ของครอบครัวใหญ่ (ยายที่ยิ่งใหญ่ของฉันมีลูกสิบคนดังนั้นมันจึงเป็นการรวมตัวครั้งใหญ่) ลุงของฉันที่อยู่ห่างไกลคนหนึ่งเขียนหนังสือเกี่ยวกับประวัติครอบครัวของเราสำหรับการรวมตัวครั้งนี้อีกครั้งและแม่ของฉันมอบหนังสือให้ฉันอ่าน ฉันไม่อยากจะเชื่อเลยว่ามันใหญ่แค่ไหนและมีการวิจัยมากแค่ไหนในหนังสือเล่มนี้ ฉันต้องการหาวิธีที่จะได้รับหนังสือทั้งเล่มในเว็บไซต์ที่ฉันจะทำในสิ่งที่ฉันสามารถแบ่งปันกับทุกคนในครอบครัวของเราและในที่สุดก็รักษาประวัติศาสตร์ไว้นานกว่าหนังสือเล่มบอบบางเล่มนี้

ด้วยความหวังว่าฉันจะได้ไม่ต้องพิมพ์คำต่อคำหนังสือทั้ง 300 หน้านี้มีวิธีที่ฉันสามารถสแกนหน้าและเอามันมาเป็นข้อความดิจิทัลได้ไหม? เห็นได้ชัดว่าฉันสามารถถ่ายภาพและสร้างเว็บไซต์โดยใช้รูปภาพ แต่ฉันรู้สึกว่ามันจะมีประโยชน์มากกว่าที่จะใช้เป็นข้อความจริงเพราะมันอาจปรากฏในการค้นหาของ Google ได้ดีขึ้นเมื่อมีคนค้นหาชื่อสมาชิกในครอบครัวหรืออะไรทำนองนั้น นอกจากนี้หากใครบางคนในครอบครัวเคยทำโครงการวิจัยเกี่ยวกับครอบครัวของเราพวกเขาจะสามารถคัดลอกข้อความบางส่วนและอ้างอิงได้ง่ายขึ้น

ดังนั้นไม่มีใครรู้วิธีที่ดีที่สุดที่ฉันจะได้รับหนังสือครอบครัวเก่านี้เป็นข้อความดิจิตอลได้หรือไม่

จองล่วงหน้า

หนังสือแสดงความหนา

คำตอบ:


14

ใช้โทรศัพท์ Android และฟีเจอร์" Google Lens. " ที่เพิ่งเพิ่มเข้าไปในแอพรูปภาพและรีวิวภาพถ่ายจากกล้อง

OCR ผ่านGoogle Lensนั้นน่าทึ่งและแม่นยำมากกว่าซอฟต์แวร์ OCR ใด ๆ ที่ฉันเคยใช้

ด้านล่างนี้เป็นภาพหน้าจอที่สรุปขั้นตอนการใช้Nokia 3ราคาถูก (100 USD) โทรศัพท์ที่ดีที่สุดที่ฉันมีความสุขที่จะใช้ตั้งแต่ Nexus 4 ที่รักของฉันยอมแพ้

ฉันจะดูรายละเอียดตัวอย่างการสแกน OCR ของหนังสือ ethymologies กรีกที่พิมพ์ในปี 1976 ซึ่งฉันไม่กล้าฉีกออกเพื่อสแกนซึ่งดูเหมือนว่าจะมีความหนาแน่นของตัวอักษรและตัวอักษรที่คล้ายกัน

ฉันถ่ายภาพต้นฉบับนี้ในสภาพแสงน้อยกว่าปกติโดยใช้การตั้งค่าอัตโนมัติทั้งหมดในกล้องโทรศัพท์พอดูได้ไม่มีเทคนิคถ่ายภาพเฉพาะทางหรือการติดตั้งเพื่อปรับปรุงผลลัพธ์ที่ถูกนำมาใช้คุณสามารถพูดได้ว่ามันเป็นเพียงโทรศัพท์ธรรมดา หน้าของหนังสือเล่มนี้ (ตรวจสอบให้แน่ใจว่ามีการโฟกัสข้อความไว้แล้วไม่มี OCR จะถอดรหัสข้อความที่ไม่ได้โฟกัสพร่ามัว)

ป้อนคำอธิบายรูปภาพที่นี่

คลิกที่ไอคอนเลนส์ Google พร้อมใช้งานผ่านภาพตัวอย่างหลังจากถ่ายภาพหรือบนภาพถ่ายด้วยแอป Google Photos

ป้อนคำอธิบายรูปภาพที่นี่

นี่คือ -Skynet- ^M^M^M^M^M^Mฉันหมายถึง Google Lensทำการสแกนเวทมนตร์ของมัน (จุดนั้นค่อนข้างน่าขนลุก แต่พวกเขาต้องทำอะไรบางอย่างเพื่อให้คุณรู้ว่าgoogley AIกำลังทำสิ่งนั้นอยู่ฉันเดา)

ป้อนคำอธิบายรูปภาพที่นี่

เมื่อสแกนภาพแล้วคุณจะพบพื้นที่ข้อความที่Google Lensพบในภาพที่ระบุไว้อย่างชัดเจนและข้อความของพวกเขาถูกแยกไปที่ครึ่งล่างของหน้าจอ หากคุณต้องการเพียงบางพื้นที่และไม่ใช่ที่อื่น ๆ เพียงแตะที่คุณเลือกเพื่อเปิด / ปิดการใช้งาน

หากคุณแตะข้อความที่แยกออกมามันจะถูกวางไว้ในคลิปบอร์ดของคุณเพื่อคัดลอก / วางดีทุกที่ในโทรศัพท์ของคุณ

ป้อนคำอธิบายรูปภาพที่นี่

หลังจากนั้นเพียงแค่วางข้อความในที่เอกสารของ Googleเอกสาร ที่นั่นคุณสามารถ: - แก้ไขข้อผิดพลาดใด ๆ ที่นั่นหรือบนพีซีของคุณ - แบ่งปันเอกสารไปยังเนื้อหาในใจของคุณ - เผยแพร่เป็นเว็บเพจที่มีการอัปเดตการแก้ไขของคุณหรือ - ส่งออกเป็น - ข้อความธรรมดา - เอกสารคำ - เอกสารสำนักงานเปิด - จุดที่รองรับePubหนังสืออิเล็กทรอนิกส์ที่มีข้อความ reflowing หรือ - ดี ol' ไม่ DRMd รูปแบบไฟล์ PDF

อาจเป็นที่ถกเถียงกันอยู่ว่านี่อาจเป็นเส้นทางที่สั้นที่สุดในการเผยแพร่ด้วยตัวเลือกผลลัพธ์ที่เป็นไปได้ที่กว้างที่สุด

คุณสามารถทำได้ทุกอย่างจากอุปกรณ์เครื่องเดียว (โทรศัพท์ Android ที่ติดตั้งแอพที่เหมาะสม) และสามารถทำได้ในเวลาไม่นานด้วยอัตราความแม่นยำสูงโดยทั่วไปฟรี

นี่คือเอกสาร Google ที่วางส่วน
ป้อนคำอธิบายรูปภาพที่นี่

นี่คือการแชร์ URL ของ Google เอกสารโปรดแสดงความคิดเห็น คุณสามารถมีคนช่วยคุณแก้ไขเอกสารจากระยะไกลและพร้อมกัน

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

สุดท้ายนี่คือเว็บไซต์ Google Sites ที่เผยแพร่โดยใช้เอกสารดังกล่าวเป็นแหล่งข้อมูลที่เชื่อมโยง

https://sites.google.com/h-lo.me/ocrsample

มันเปิดใช้งาน https, เดสก์ท็อปและมือถือและขึ้นอยู่กับรสนิยมโดยทั่วไปจะไม่เจ็บตา ไม่เลวสำหรับการทำงานทั้งหมด 15 นาทีและไม่มีการเข้ารหัสใด ๆ


มีการปรับแต่งเหลืออีกหนึ่งและนั่นคือการสร้างย่อหน้าที่เหมาะสมในเอกสารของ Google เนื่องจาก Google Lens จะแทรกการคืนค่าอย่างหนักหลังจากข้อความที่แยกออกมาทุกบรรทัดซึ่งทำให้ทุกบรรทัดเป็นย่อหน้าของตัวเองและสิ่งนี้จะกลายเป็นปัญหาหากคุณต้องการใช้ Google Docs ให้บริการเช่นตารางของเนื้อหาหรือเมื่อคุณส่งออกเอกสารของคุณไปยังจุดที่เข้ากันได้ทาง e-ผับหนังสืออิเล็กทรอนิกส์ (messes ขึ้น reflowing ข้อความ)

คุณสามารถเข้าร่วมทุกบรรทัดตามความเหมาะสมโดยกดปุ่ม backspace ทุกครั้งที่เริ่มต้นบรรทัดหรืออาจเป็นไปโดยอัตโนมัติด้วยสคริปต์

ดังนั้นฉันจึงเขียน Add-on ของสคริปต์ของแอพที่ฉันจะเผยแพร่ในไม่ช้าเพื่อให้กระบวนการนี้เป็นไปโดยอัตโนมัติ ฉันจะแจ้งให้คุณทราบที่นี่เมื่อเสร็จแล้ว


รายละเอียดยอดเยี่ยม ฉันชอบโซลูชันฟรีนี้ ขอบคุณ!
Kyle Bridenstine

ด้วยความยินดี! คุณอาจมีทุกสิ่งที่คุณต้องการอยู่แล้ว! :)
hlecuanda

สำหรับหนังสือเล่มหนานี่เป็นวิธีที่ใช้แรงงานมาก: คุณต้องพลิกแต่ละหน้าด้วยตนเองแล้วจึงถ่ายภาพ
Hobbes

6

คุณสามารถทำได้ในขั้นตอน เริ่มต้นด้วยการวางทุกอย่างทางออนไลน์เมื่อสแกนหน้าเว็บและอัปเดตเป็นและเมื่อคุณสามารถ การรวมหวีพลาสติก cerlox ™ทำให้แยกออกจากกันและใส่กลับเข้าไปในการเย็บได้ง่าย

เมื่อการพิมพ์ดูเหมือนจะเป็นประเภท serif ปกติในขนาดเดียวกันการสแกนสามารถแปลงเป็นดิจิทัลโดยใช้ซอฟต์แวร์การรู้จำตัวอักษรด้วยแสง OCR สามารถให้ไฟล์ข้อความร่างที่คุณสามารถพิสูจน์อักษรและเผยแพร่บนเว็บไซต์สำหรับแบบฟอร์มสุดท้าย

ในเวลาเดียวกันคุณสามารถจัดระเบียบรูปภาพและวัสดุรูปภาพอื่น ๆ

คุณสามารถทำได้เมื่อมีเวลา / ทรัพยากรสำหรับโครงการ


คล้ายกับคำตอบก่อนหน้า แต่ไม่มีรายละเอียด
Trajan Espelien

@TrajanEspelien คำตอบก่อนหน้านี้คืออะไร? ตรวจสอบการประทับเวลา คำตอบคือก่อนสองวันก่อนการส่ง hiecuanda :)
สแตน

ใช่ แต่มันไม่ได้มีรายละเอียดมากเท่ากับคำตอบอื่น ๆ ซึ่งเป็นเหตุผลที่ฉันยอมรับอีกคนหนึ่งเกี่ยวกับเรื่องนี้ มันไม่ใช่เซิร์ฟเวอร์แรกที่มาก่อน .. มันเป็นคำตอบที่ดีที่สุด
Kyle Bridenstine

@ KyleBridenstine ไม่มีการล้อเล่น! ฉันก็ลงคะแนน hiecuanda ด้วย มันเป็นคำตอบที่ยอดเยี่ยม อย่างไรก็ตามถ้าคุณไม่มีโทรศัพท์ Android หรือไม่สามารถเข้าถึง Glass ได้ ฉันตอบคำถามทั่วไป :)
สแตน

1
@ KyleBridenstine ขอบคุณสำหรับคำพูดที่ใจดี เราเห็นด้วย. ฉันคิดว่าคุณทำสิ่งที่ถูกต้องโดยรอ คำตอบแรกไม่ได้ดีที่สุด (เว้นแต่จะด้วยเหตุผลบางอย่างมีกำหนดส่ง) ฉันส่งลิงก์ไปยังคำถามของคุณและคำตอบที่ยอดเยี่ยมของ hiecuanda ต่อเพื่อนร่วมงานที่ต้องทำสิ่งเดียวกันกับกองบันทึกโรงเรียนขนาดใหญ่จาก บราซิล!
Stan

2

บางคำตอบที่ดีที่นี่เพื่อเข้าหาตัวเอง

ฉันต้องการเพิ่มประสบการณ์การจ่ายเงินให้คนอื่นทำเพื่อคุณ

ฉันใช้รูปแบบดิจิทัลหนังสือของฉันในสหราชอาณาจักร

ฉันพอใจมากกับผลลัพธ์ที่ได้: หนังสือแต่ละเล่มถูกส่งคืนเป็น PDF ซึ่งมีข้อความค้นหา (และคัดลอกได้) ใช้เทคนิค PDF มาตรฐานโดยที่ภาพต้นฉบับสำหรับแต่ละหน้าจะถูกเก็บไว้ แต่มีการซ้อนทับข้อความเพื่อให้คุณสามารถเน้นข้อความต้นฉบับบนหน้า คุ้มค่ามาก ในฐานะที่เป็นคนต่างประเทศจากสหราชอาณาจักรคุณยังสามารถส่งหนังสือให้พวกเขาได้

พวกเขายังเสนอตัวเลือกสำหรับหนังสือให้อยู่ในรูปแบบเอกสารคำที่สามารถแก้ไขได้โดยมีค่าใช้จ่ายเพิ่มเติม แต่สมเหตุสมผลมาก

หากคุณไม่ต้องการให้ส่งคืนต้นฉบับตัวเลือกที่ถูกที่สุดคือเลือกสแกนแบบทำลายล้าง นี่คือที่หน้าจะถูกนำมาเป็นรายบุคคลจากหนังสือและสแกน โดยค่าเริ่มต้นหนังสือต้นฉบับจะไม่ถูกส่งกลับถึงแม้ว่าฉันเชื่อว่าคุณสามารถขอหนังสือได้ แต่อาจมีค่าใช้จ่ายเพิ่มเติม (เช่นสำหรับการส่งคืนทางไปรษณีย์) แต่หน้าเว็บจะหลวม การสแกนแบบทำลายล้างเป็นตัวเลือกที่ฉันเลือกสำหรับหนังสือทุกเล่มของฉันและฉันไม่ต้องการให้ส่งคืนต้นฉบับ

พวกเขายังเสนอการคัดลอกแบบไม่ทำลายหากคุณต้องการต้นฉบับ แต่ราคาสูงกว่า พวกเขายังยอมรับการสแกนดิจิทัลของคุณเองหากคุณสแกนหนังสือด้วยตัวเองแล้ว - พวกเขาสามารถทำให้เป็นไฟล์ PDF หรือเอกสาร Word ที่สามารถค้นหาคัดลอกได้

ลองดูที่เว็บไซต์ของพวกเขา ฉันคิดว่านี่เป็นตัวเลือกที่ดีที่สุด: ใช้เงินเพื่อประหยัดเวลาแทนที่จะใช้เวลาเพื่อประหยัดเงิน

ฉันไม่ทำงานเพื่อแปลงหนังสือของฉันเป็นดิจิทัลและไม่มีผลประโยชน์ทางการเงินใด ๆ กับพวกเขา (ผู้ถือหุ้นหรืออย่างอื่น)

เดิมทีฉันเริ่ม "สแกน" ในหนังสือด้วยตัวเองโดยการถ่ายภาพโดยใช้กล้อง DSLR (การถ่ายภาพนั้นเร็วกว่าการสแกนแบบแท่น) ด้วยการเปิดแต่ละหน้าไว้ด้วยคลิปบอร์ดคลิปและ blu-tak แต่ฉันพบว่านี่ค่อนข้างใช้แรงงานค่อนข้างมาก

หากคุณยังคงอยากทำด้วยตัวเองScanTailorเป็นแอปพลิเคชัน Windows แบบโอเพ่นซอร์สที่จะจัดรูปแบบแยกหน้า / คู่ของหน้าตามที่สแกนลงในแต่ละหน้าตรงและ "dewarp" เพื่อให้หน้าผลลัพธ์ปรากฏเป็นแนวราบและตรงตามที่ต้องการ แต่ไม่ทำ OCR: ผลลัพธ์ยังเป็นรูปบิตแมป แต่อย่างน้อยก็เป็นไปได้ที่จะทำการจัดเรียงหน้าเว็บโดยอัตโนมัติเพื่อลดความผิดเพี้ยนของหน้ากระดาษโดยเฉพาะอย่างยิ่งการทำสำเนาแบบไม่ทำลายซึ่งเป็นเรื่องยากสำหรับคนที่จะจัดหน้าให้แบนสำหรับหนังสือเล่มใหญ่อย่างสมบูรณ์

Updated

เพิ่มข้อมูลเพิ่มเติมเกี่ยวกับตัวเลือกการสแกนที่นำเสนอโดยบริการ ข้อมูลเพิ่มเติมของ ScanTailor การแก้ไขไวยากรณ์


1

วิธีที่เร็วที่สุดในการทำเช่นนี้คือการติดต่อญาติของคุณและดูว่าพวกเขายังมีไฟล์ต้นฉบับที่พวกเขาเคยสร้างหนังสือเล่มนั้นหรือไม่ จากภาพหน้าแรกฉันบอกว่ามันถูกสร้างขึ้นบนคอมพิวเตอร์ แปลงจาก {ใส่ตัวประมวลผลคำเก่าจริงๆที่นี่} เป็นรูปแบบปัจจุบันและเสร็จสิ้น

วิธีที่เร็วที่สุดที่สองในการเปลี่ยนสแต็คของสื่อสิ่งพิมพ์เป็นเอกสารดิจิทัล:

  1. ลบการผูก
  2. ตัดขอบด้านซ้ายของหน้าเพื่อกำจัดหลุม โฮลจะเข้าไปยุ่งเกี่ยวกับอุปกรณ์ป้อนเอกสาร
  3. ผ่านหนังสือและคลี่รอยพับและความเสียหายอื่น ๆ ที่จะเข้าไปยุ่งเกี่ยวกับอุปกรณ์ป้อนเอกสาร
  4. ค้นหาเครื่องพิมพ์สองหน้าที่ทันสมัยพอสมควรซึ่งมีตัวป้อนเอกสารและคุณสมบัติการสแกน สแกนเป็น PDF

จากนั้นใช้แพ็คเกจ OCR ใด ๆ เพื่อเปลี่ยนหน้าที่สแกนเป็นไฟล์ Word ฉันใช้คุณสมบัติ OCR ใน Adobe Acrobat เวอร์ชันเต็มเพื่อจุดประสงค์นี้ แต่มีเอ็นจิ้น OCR มากมาย


0

คุณอาจต้องการลองใช้บริการที่ราคาไม่แพงมาก: ถนอม - ของคุณ - หน่วยความจำ. เมื่อทำเองฉันใช้สแกนเนอร์เพื่อสแกนไปยัง OmniPage ซึ่งเป็นโปรแกรม OCR แล้วบันทึกเป็นไฟล์ pdf ซึ่งสามารถค้นหาได้อย่างสมบูรณ์ เนื่องจากสิ่งพิมพ์ของคุณมีหวีพลาสติกคุณจึงแยกออกจากกันเพื่อสแกนแต่ละหน้าและจากนั้นทำการเชื่อมโยงใหม่ การถ่ายภาพตามที่ระบุไว้ในข้อเสนอแนะด้านบนนั้นสามารถใช้งานได้เป็นอย่างดีซึ่งเป็นวิธีที่ดีในหลาย ๆ วิธี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.