การแบ่งส่วนและการรับรู้ชื่อหนังสือและผู้แต่งจากภาพชั้นหนังสือ


13

ฉันพยายามเพื่อจุดประสงค์การเรียนรู้ของฉันเองเพื่อพัฒนาการใช้อัลกอริทึมที่จะเขียนรายการหนังสือโดยกำหนดภาพของชั้นวางหนังสือดังนี้

ป้อนคำอธิบายรูปภาพที่นี่

ขั้นตอนแรกคือการแบ่งภาพออกเป็นแต่ละเล่ม

อัลกอริทึมของฉันในMathematicaคือ:

    img = ColorConvert[Import["http://i.stack.imgur.com/IaLQk.jpg"], "GrayScale"]
  • ทำการตรวจจับขอบพื้นฐาน &
  • ลบข้อความและพยายามรักษาความยาวบรรทัด

    edge = DeleteSmallComponents[EdgeDetect[img, 3],Last[ImageDimensions[img]]/5]
    
  • จากนั้นลบเส้นแนวนอนที่ไม่พึงประสงค์

    lines = Sort[ImageLines[img5] /. {{0., _}, {_, _}} -> Sequence[]]
    Show[img, Graphics[{Thick, Orange, Line /@ lines}]]
    

แม้ว่าผลลัพธ์จะน้อยกว่ามาก:

ป้อนคำอธิบายรูปภาพที่นี่

คำถามของฉันคือ:

  1. ฉันจะปรับปรุงสิ่งนี้เพื่อให้ได้ผลลัพธ์ที่ดีขึ้นได้อย่างไร
  2. มีวิธีที่ฉลาดกว่านี้หรือไม่?
  3. ฉันควรประมวลผลรูปภาพเพิ่มเติมเพื่อเพิ่มความแม่นยำในระยะ OCR (ในภายหลัง) อย่างไร
  4. จะใช้ข้อมูลสีเพื่อปรับปรุงการแบ่งส่วนได้อย่างไร

1
@OrenPinsky ฉันไม่เห็นปัญหาเกี่ยวกับการแบ่งกลุ่ม: จำนวนของ "พื้นที่หนังสือเท็จ" ไม่สูง (ฉันสามารถเห็นเพียงหนึ่งในตัวอย่างที่คุณให้ไว้) และถ้าคุณวางแผนที่จะทำการรู้จำข้อความบางประเภทว่าเป็น ขั้นตอนต่อไปนั่นควรจะเพียงพอที่จะแยกแยะระหว่างหนังสือ (พื้นที่มีข้อความ) และไม่ใช่หนังสือ (ไม่มีข้อความ)
penelope

3
@OrenPinsky ฉันจะบอกว่าผลลัพธ์ของคุณยอดเยี่ยมมาก :)
Dima

คำตอบ:


7

นี่คือลิงค์ไปยังรายงานการวิจัยที่พยายามทำสิ่งเดียวกันกับที่คุณต้องการ มันอาจช่วยคุณได้ การใช้คุณสมบัติรูปภาพ นอกจากนี้ยังมีวิดีโอดีๆในyoutube


น่าเสียดายที่ลิงค์แรกเสีย
ยองแจ

4

คุณใช้วิธีใดในการตรวจจับเส้น คุณลองทำการทดลองกับLSDหรือไม่?

นี่คือผลลัพธ์ของการทดสอบอย่างรวดเร็วที่ฉันทำโดยใช้ LSD:

ในภาพแรกนี้ฉันได้แสดงเฉพาะส่วนของเส้นแนวตั้งที่มีมุมระหว่าง 75 ถึง 105 องศาและความยาวมากกว่าความสูงของรูปภาพ: 0.1heightpic1

ภาพที่สองเป็นผลลัพธ์ที่มีข้อ จำกัด มุมเดียวกัน แต่ไม่คำนึงถึงความยาวของส่วน: pic2

คุณสามารถลองเล่นกับบิตนี้หาวิธีเลือกเซ็กเมนต์บรรทัดที่ดีที่สุดขยายไปยังบรรทัดและอาจได้ผลลัพธ์ที่ดีกว่ากลุ่มที่คุณโพสต์เล็กน้อย


6
"คุณลองทดสอบด้วย LSD หรือไม่" ลองได้ดี FBI;)
Lorem Ipsum

ImageLine ของ Mathematica นั้นมีพื้นฐานมาจากการแปลง Hough และตอนนี้ฉันเชื่อมั่น (จากคำติชมที่นี่ส่วนใหญ่) ว่ามันใช้งานได้ดี มันทำให้ฉันรำคาญแม้ว่าฉันจะสูญเสียข้อมูลที่เกี่ยวข้องเมื่อฉันเปลี่ยนเป็นสีเทาและในข้อมูลสีของแอปพลิเคชันนี้อาจเป็น (โดยสังหรณ์) ช่วยเครื่องตรวจจับขอบที่แข็งแกร่งลอง LSD และดูว่ามันจะเป็นอย่างไร! (มันใช้งานได้ดีอย่างน่าประหลาดใจสำหรับ Steve Jobs! ;-)
Oren Pinsky

ฉันเคยเห็นเพื่อนใช้ LSD สำหรับการตรวจจับที่ประตูฉันคิดว่าเขาพอใจกับผลลัพธ์ในท้ายที่สุด ฉันจะบอกว่ามันคุ้มค่าที่จะยิง: D
penelope

1

คุณสามารถลองทำการตรวจจับขอบบนแต่ละโดเมนสีแล้วทำการผสานโดยใช้วิธีการที่คุณเลือกสำหรับการตรวจจับขอบ

เมื่อเทียบกับการตรวจจับขอบบนภาพสีโดยตรงมันอาจให้ผลลัพธ์ที่ดีกว่า


0

กระดาษจากลิงค์ที่ขาดให้โดย isrish อาจพบการรวมคุณสมบัติภาพและข้อความ: วิธีการไฮบริดในการรับรู้กระดูกสันหลังมือถือหนังสือ Proc การประชุมนานาชาติ ACM ครั้งที่ 19 เรื่อง Multimedia, 2011 นอกจากนี้ยังสามารถดูเอกสารอื่น ๆ จาก David Chen และคณะ ตัวอย่างเช่นการติดตามสินทรัพย์ต้นทุนต่ำโดยใช้โทรศัพท์กล้อง Location-Aware , Proc SPIE 2010

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.