การแบ่งส่วนภาพที่ไม่ได้รับอนุญาต


11

ฉันพยายามที่จะใช้อัลกอริทึมที่ให้ภาพกับวัตถุต่าง ๆ บนตารางระนาบที่ต้องการคือผลลัพธ์ของรูปแบบการแบ่งส่วนสำหรับแต่ละวัตถุ แตกต่างจากของ CNN จุดประสงค์ที่นี่คือการตรวจจับวัตถุในสภาพแวดล้อมที่ไม่คุ้นเคย อะไรคือแนวทางที่ดีที่สุดในการแก้ไขปัญหานี้? นอกจากนี้ยังมีตัวอย่างการนำไปใช้งานทางออนไลน์หรือไม่

แก้ไข: ฉันขอโทษคำถามอาจทำให้เข้าใจผิดเล็กน้อย สิ่งที่ฉันหมายถึงโดย "สภาพแวดล้อมที่ไม่คุ้นเคย" คืออัลกอริทึมอาจไม่เป็นที่รู้จัก อัลกอริทึมไม่จำเป็นต้องเข้าใจว่าวัตถุคืออะไร แต่ควรตรวจจับวัตถุเท่านั้น ฉันจะแก้ไขปัญหานี้ได้อย่างไร


"แตกต่างจาก CNNs" ไม่สมเหตุสมผล ซีเอ็นเอ็นเป็นรูปแบบของประเภทไม่ใช่ประเภทของงานที่มีวัตถุประสงค์ การแบ่งส่วนรูปภาพที่ไม่ได้รับอนุญาตสามารถทำได้โดยใช้ CNN เช่นกัน
นาธาน

คำตอบ:


4

ตอบรับอย่างรวดเร็ว

O(n)O(n2)

คำอธิบายบางอย่าง

KO(n)Kหมายถึงล้มเหลวเพราะมันถูกออกแบบมาเพื่อค้นหากลุ่มรูปไข่และไม่ได้รูปร่างแบบสุ่ม

ที่อยู่ตรงข้ามกับที่เรามีกะหมายความว่าสามารถหาอัตโนมัติจำนวนคลัสเตอร์ - ซึ่งจะเป็นประโยชน์เมื่อคุณไม่ได้รู้ว่าสิ่งที่คุณกำลังมองหา - มีรูปทรงแบบสุ่ม

KK

คำแนะนำในการจัดกลุ่มภาพ

แปลงพื้นที่สีของคุณจาก RGB เป็น LUV ซึ่งดีกว่าสำหรับระยะทางแบบยุคลิด

K

  • O(α.n)
  • O(β.n)
  • α>β

Mean Shift LSH ช้าลง แต่ก็เหมาะสมกับความต้องการของคุณ มันยังคงเป็นแบบเชิงเส้นและสามารถปรับขนาดได้ด้วยการใช้งานที่กล่าวถึง

PS: รูปโปรไฟล์ของฉันคือแอพพลิเคชั่นของ Mean Shift LSH กับตัวเองถ้ามันสามารถช่วยให้คิดออกว่ามันทำงานอย่างไร


3

คุณอาจต้องดูที่งานนี้ส่งและได้รับการยอมรับสำหรับ CVPR 2018: เรียนรู้ที่จะแบ่งกลุ่มทุกสิ่ง

ในงานนี้พวกเขาพยายามแบ่งทุกอย่างแม้กระทั่งวัตถุที่ไม่รู้จักกับเครือข่าย Mask R-CNN ถูกนำมาใช้รวมกับเครือข่ายย่อยการเรียนรู้การถ่ายโอนพวกเขาได้รับผลลัพธ์ที่ดีมากในการแบ่งส่วนเกือบทุกอย่าง


2

รัฐของศิลปะ (SOTA) สำหรับการแบ่งส่วนภาพจะเป็นของ Facebook หน้ากาก RCNN

ในขณะที่มันมักจะได้รับการฝึกฝนบนชุดข้อมูลเช่นCOCOหรือPascalซึ่งมีวัตถุในชีวิตจริงคุณสามารถฝึกอบรมใหม่บนชุดข้อมูลที่คุณเลือกได้จริงหรือไม่

Facebook ให้บริการติดตั้ง ( Detectron ) ภายใต้ลิขสิทธิ์ Apache2 ให้มันลอง!


อันที่จริงฉันคิดว่าฉันถามคำถามในทางที่ผิดทำให้ฉันไม่ดี ฉันเพิ่งโพสต์การแก้ไขคุณช่วยดูอีกครั้งได้ไหม
MuhsinFatih

2

ที่จริงแล้วงานของคุณอยู่ภายใต้การดูแล Segnetสามารถเป็นสถาปัตยกรรมที่ดีสำหรับวัตถุประสงค์ของคุณเป็นที่หนึ่งของการใช้งานที่สามารถเข้าถึงได้ที่นี่ SegNet เรียนรู้ที่จะทำนายเลเบลระดับพิกเซลที่ชาญฉลาดจากการเรียนรู้แบบมีผู้สอน ดังนั้นเราจึงจำเป็นต้องมีชุดข้อมูลของภาพที่ป้อนพร้อมกับป้ายกำกับความจริงภาคพื้นดินที่สอดคล้องกัน ภาพฉลากจะต้องมีช่องทางเดียวกับแต่ละพิกเซลที่มีป้ายกำกับระดับนี้ ...

นอกจากนี้ให้ดูที่เครือข่ายเต็มรูปแบบ Convolutionalซึ่งเหมาะสำหรับงานของคุณ


จากการแก้ไขในคำถามฉันเพิ่มข้อมูลพิเศษ มีวิธีการมากมายที่สามารถนำไปใช้กับงานนี้ได้ โดยพื้นฐานแล้วสิ่งที่ง่ายที่สุดคือการใช้เลเบลพื้นหลังและจำแนกคลาสที่คุณไม่รู้จักเป็นพื้นหลังโดยใช้สถาปัตยกรรมที่กล่าวถึง โดยการทำเช่นนี้คุณจะมีป้ายกำกับที่สามารถซ้อนทับกันสำหรับคลาสพื้นหลังซึ่งเป็นข้อเสียที่น่าจะเป็นของวิธีการนี้ แต่ข้อดีของมันคือในกรณีที่มีการใช้ป้ายกำกับที่ผ่านการฝึกอบรมของคุณบ่อยครั้งในอินพุต รู้จักคลาสที่ไม่รู้จัก


อันที่จริงฉันคิดว่าฉันถามคำถามในทางที่ผิดทำให้ฉันไม่ดี ฉันเพิ่งโพสต์การแก้ไขคุณช่วยดูอีกครั้งได้ไหม
MuhsinFatih

@MuhsinFatih แก้ไขแล้ว
สื่อ

แน่นอนว่ามันจะง่ายขึ้นและได้รับประสิทธิภาพที่ดีขึ้นหากเป็นงานที่มีการควบคุม แต่การแบ่งส่วนภาพที่ไม่ได้รับการดูแลก็เป็นไปได้เช่นกัน
นาธาน

@ นาธานฉันแนะนำความคิดเห็นของตัวเองในเวลานั้น แน่นอนมันเป็นไปได้
สื่อ

1

นี่อาจเป็นสิ่งที่คุณกำลังมองหา เนื่องจากคุณขอการแบ่งส่วนภาพและไม่semantic / instanceแบ่งส่วนฉันคิดว่าคุณไม่จำเป็นต้องติดฉลากสำหรับแต่ละส่วนในภาพ

วิธีการนี้เรียกว่าscene-cutซึ่งแบ่งส่วนภาพออกเป็นภูมิภาคที่ไม่เชื่อเรื่องชนชั้นในแบบที่ไม่มีผู้ดูแล วิธีนี้ใช้งานได้ดีในกรณีที่สภาพแวดล้อมในอาคารรก

ลิงค์กระดาษ: arxiv

รหัส: รหัส

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.