การลงทะเบียนรูปภาพตามการแบ่งกลุ่ม


15

อัลกอริธึมการลงทะเบียนภาพมักขึ้นอยู่กับคุณสมบัติของจุดเช่น SIFT (การแปลงคุณลักษณะแบบไม่แปรปรวน)

ผมเห็นอ้างอิงบางคุณสมบัติบรรทัด แต่ผมสงสัยว่าถ้ามันจะเป็นไปได้ที่จะตรงกับกลุ่มภาพแทนของจุด ตัวอย่างเช่นกำหนดแหล่งที่มาและภาพที่แปลง:

ป้อนคำอธิบายรูปภาพที่นี่

ฉันสามารถทำการตรวจจับขอบ, การเบลอและการแปลงลุ่มน้ำในแต่ละ:

ป้อนคำอธิบายรูปภาพที่นี่

น่าเสียดายที่การแบ่งส่วนนั้นแตกต่างกันไปในแต่ละภาพเพื่อให้ตรงกับแต่ละส่วน

ฉันเห็นกระดาษบางส่วนเกี่ยวกับการจับคู่รูปร่างและตัวอธิบายรูปร่างซึ่งไม่แปรเปลี่ยนเพื่อเลียนแบบการแปลงดังนั้นพื้นที่นี้จึงดูเหมือนว่าจะมีแนวโน้ม ...

มีวิธีการแบ่งส่วนใดที่มีประสิทธิภาพมากกว่าในการเลียนแบบ (หรือแม้แต่ฉายภาพ) ของภาพ


1
สามัญสำนึกของฉันบอกฉันว่าภูมิภาคเล็ก ๆ มีความแข็งแกร่งกว่าการเปลี่ยนแปลงระดับโลก ดังนั้นการแบ่งส่วนควรมีกลุ่มเล็ก ๆ จำนวนมาก นอกจากนี้รูปร่างบางอย่างไม่เปลี่ยนแปลงกับการเปลี่ยนแปลงบางอย่าง (เช่นวงกลมเพื่อการหมุน)
Andrey Rubshtein

MSER (ภูมิภาคสุดขั้วที่มีเสถียรภาพสูงสุด) คือภูมิภาคไม่ใช่จุด และพวกมันคงที่เพื่อเลียนแบบการแปลง แต่มันไม่ใช่วิธีการแบ่งส่วนพูดอย่างเคร่งครัด
Niki Estner

@nikie หากคุณใส่ความคิดเห็นของคุณเป็นคำตอบฉันจะยอมรับมัน ฉันสนใจในการแบ่งกลุ่มเนื่องจากคุณสมบัติภูมิภาคมีข้อมูลบางอย่างเกี่ยวกับการแปลงภาพและอาจใช้สำหรับการเดาการแปลงระหว่างภาพ ฉันจะศึกษาบทความเกี่ยวกับ MSER อย่างแน่นอน
Libor

ฉันกำลังทำงานกับ CBIR โดยใช้ Component Trees การแสดงส่วนประกอบต้นไม้ของภาพจะไม่ขึ้นอยู่กับความผิดปกติของภาพมากนัก (แม้จะเป็นการฉายภาพ) กับภาพในระดับที่ต่างกันจะช่วยให้การเปรียบเทียบและการดำเนินการจนถึงระดับรายละเอียดที่แตกต่างกันและควรทำงานได้ดีกว่าเทคนิคในปัจจุบัน . เป็นเพียงหัวข้อการวิจัยสำหรับตอนนี้เพิ่งเริ่ม แต่หวังว่าจะมีบางอย่างในวิธีการไม่เช่นนั้นฉันจะไม่ได้รับสิทธิ์ในการทำเช่นนี้ แต่ถ้ามีคนอื่นทำบางสิ่งบางอย่างตามบรรทัดเหล่านี้อาจมีประโยชน์
Penelope

@penelope การทำงานเหล่านี้กับ CBIR อาจเป็นประโยชน์สำหรับการทำภาพโมเสค วิธีที่ได้รับความนิยมในปัจจุบันคือการค้นหาในระดับสูงผ่านตัวบอกจุด (เช่น SIFT) ซึ่งสามารถนำไปสู่การจับคู่ที่ผิดพลาดระหว่างภาพในขณะที่ "ภูมิภาค" หรือ "ส่วนประกอบ" แทนที่จะเป็นจุดอาจแยกแยะสิ่งเหล่านี้ได้ คุณมีการอ้างอิงใด ๆ กับเอกสารเกี่ยวกับการแสดงภาพต้นไม้ส่วนประกอบ ขอบคุณมาก.
Libor

คำตอบ:


4

MSER (ภูมิภาคสุดขั้วที่มีเสถียรภาพสูงสุด)คือภูมิภาคไม่ใช่จุด และพวกมันคงที่เพื่อเลียนแบบการแปลง แต่มันไม่ใช่วิธีการแบ่งส่วนพูดอย่างเคร่งครัด

การพูดอย่างไม่เป็นทางการความคิดคือการหา blobs ตามเกณฑ์ต่าง ๆ จากนั้นเลือก blobs ที่มีการเปลี่ยนแปลงรูปร่าง / พื้นที่น้อยที่สุดในช่วงของเกณฑ์ ภูมิภาคเหล่านี้ควรมีเสถียรภาพสำหรับการแปลงสีเทาและเรขาคณิตจำนวนมาก


4

ฉันกำลังทำงานกับ CBIR โดยใช้Component Treesซึ่งน่าจะเป็นแนวคิดที่ค่อนข้างใหม่ ข้อได้เปรียบที่คาดหวังบางประการของการใช้โครงสร้างต้นไม้เพื่ออธิบายภาพ ได้แก่ :

  • การแสดงส่วนประกอบต้นไม้ของภาพจะไม่ขึ้นอยู่กับความผิดปกติของภาพ
  • การตรวจสอบระดับต่าง ๆ ของต้นไม้จะช่วยให้การเปรียบเทียบและการดำเนินการถึงรายละเอียดในระดับต่าง ๆ
  • การเลือกปฏิบัติและคำอธิบายควรทำงานได้ดีกว่าเทคนิคปัจจุบันสำหรับภาพที่มีพื้นผิวต่ำ

เมื่อฉันเพิ่งเริ่มงานวิจัยที่เกี่ยวข้องกับหัวข้อนี้ฉันมีความคิดที่คลุมเครือเกี่ยวกับเป้าหมายของฉัน: แสดงภาพด้วย Component Tree แล้วเปรียบเทียบต้นไม้ Component ดังกล่าวทั้งโดยตรงจากการหาตัวแทนเวกเตอร์ ฉันอาจจะสามารถพูดได้มากกว่านี้ในอีกไม่กี่สัปดาห์ (หรือหลายเดือน) แต่สำหรับตอนนี้ฉันสามารถเสนอรายการของเอกสารที่แนะนำให้ฉันเป็นการแนะนำให้รู้จักกับ Component Tree (ฉันยังไม่ได้อ่าน):

ฉันสามารถอัปเดตคำตอบได้และหากฉันพบสิ่งที่เกี่ยวข้อง

นอกจากนี้หากเป้าหมายของคุณคือตรงกับภูมิภาคของรูปภาพที่แม่นยำยิ่งขึ้นแทนที่จะเป็นเพียงแค่จุดเพราะภูมิภาคอาจมีการเลือกปฏิบัติมากกว่ามีข้อเสนอแนะที่ดีในJ. Sivic และ A. Zisserman: "วิดีโอ Google: การดึงข้อความ วิธีการที่จะจับคู่วัตถุในวิดีโอ"

ฉันหมายถึงส่วนที่เกี่ยวข้องกับSpatial Consistencyซึ่งกลุ่มของการจับคู่ระหว่างจุดคุณลักษณะได้รับการยอมรับก็ต่อเมื่อจุดคุณลักษณะนั้นยังคงมีการกำหนดค่าเชิงพื้นที่ที่คล้ายคลึงกันในรูปภาพทั้งสอง ดังนั้นการจับคู่ไม่เพียง แต่ขึ้นอยู่กับประเภทของฟีเจอร์ที่แยก (DoG, MSER, ... ) หรือ descriptor (SIFT) แต่มันยังดูที่สภาพแวดล้อมที่กว้างกว่าของจุดคุณสมบัติทำให้มัน (อย่างน้อยที่สุด) ขึ้นอยู่กับภูมิภาค

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.