คุณสมบัติ / อัลกอริธึมที่ดีสำหรับการจดจำรูปแบบรถยนต์ในภาพ

ฉันมีคำถามเกี่ยวกับการจดจำวัตถุโดยเฉพาะการจำแบบจำลองรถยนต์! ฉันอยู่ที่จุดเริ่มต้นของการทำงานเกี่ยวกับการระบุรถยนต์รุ่นเดียวกันในภาพต่าง ในตอนนี้ฉันคิดว่าหนึ่งในอัลกอริธึมที่ดีที่สุดสำหรับการรับรู้วัตถุ 3 มิติคือ SIFT แต่หลังจากเล่นไปเรื่อย ๆ ด้วยการสาธิตฉันรู้สึกแปลกใจว่าอัลกอริทึมนี้มีปัญหาบางอย่างกับวัตถุโลหะมันวาวเช่นรถยนต์โดยเฉพาะอย่างยิ่ง

ไม่มีใครรู้ว่างานบางอย่างในพื้นที่นี้โดยทั่วไปอัลกอริทึมที่เหมาะสมบางอย่างสำหรับงานในการค้นหารถรุ่นเดียวกันในภาพที่แตกต่างกันอย่างไร

ขอบคุณล่วงหน้าสำหรับความช่วยเหลือของ!

computer-vision local-features object-recognition

— jstr
แหล่งที่มา

คุณสามารถโพสต์ภาพตัวอย่างบางภาพได้หรือไม่?

— endolith

แน่ใจ รูปภาพสำหรับการสร้างแบบจำลองของรถจำลอง ;-) อาจเป็นเช่น: s5 coupe training 1หรือเช่นs5 coupe training 2แต่ยังเป็นรูปภาพ 'ปกติ' ภาพข้อความค้นหาอาจเป็นข้อความค้นหา s5 coupe 1หวังว่าจะช่วยได้!

— jstr

มีตัวตรวจจับคุณสมบัติทางเลือกอะไรเช่น SIFT, GLOH หรือ SURF เพื่อระบุจุดสำคัญที่เหมาะสมในรถยนต์?

— jstr

@jstr หากคุณใช้รูปแบบที่อธิบายไว้ด้านล่างมันใช้งานได้ดีแค่ไหน

— SolingPuzzles

ฉันจะดูที่ "ถุงคำ" หรือ "คำภาพ" ที่เรียกว่า มันถูกใช้มากขึ้นสำหรับการจัดหมวดหมู่ภาพและบัตรประจำตัว อัลกอริทึมนี้มักจะเริ่มต้นด้วยการตรวจจับจุดที่มีประสิทธิภาพเช่นจุด SIFT ในภาพ มีการใช้พื้นที่รอบ ๆ จุดที่พบ (ตัวอธิบาย SIFT 128 บิตในกรณีของคุณ)

ในรูปแบบที่ง่ายที่สุดเราสามารถรวบรวมข้อมูลทั้งหมดจาก descriptor ทั้งหมดจากภาพทั้งหมดและจัดกลุ่มภาพตัวอย่างเช่นการใช้ k-mean ภาพต้นฉบับทุกภาพจะมีตัวอธิบายที่นำไปสู่กลุ่มจำนวนหนึ่ง เซนทรอยด์ของกลุ่มเหล่านี้คือคำที่มองเห็นสามารถใช้เป็นตัวบ่งชี้ใหม่สำหรับภาพ โดยพื้นฐานแล้วคุณหวังว่ากลุ่มรูปภาพจะเป็นตัวบอกถึงภาพซึ่งบ่งบอกถึงประเภทของรูปภาพ

อีกครั้งในกรณีที่ง่ายที่สุดคุณมีรายการของกลุ่มและต่อภาพคุณจะนับว่ากลุ่มใดที่มีตัวอธิบายจากรูปภาพนั้นและจำนวนเท่าใด สิ่งนี้คล้ายกับวิธีการความถี่คำ / เอกสารการผกผันความถี่ (TD / IFD) ที่ใช้ในการดึงข้อความ ดูสคริปต์Matlab ที่รวดเร็วและสกปรก

วิธีการนี้ได้รับการวิจัยอย่างแข็งขันและมีอัลกอริธึมขั้นสูงมากมาย

เว็บไซต์ VLfeat มีความสุขที่สูงขึ้นการสาธิตของวิธีนี้แบ่งชุดข้อมูลคาลเทค 101 ที่น่าสังเกตก็คือผลลัพธ์และซอฟต์แวร์จากCaltechนั้นเอง

— Maurits
แหล่งที่มา

เฮ้เมาริทส์ขอบคุณสำหรับคำตอบของคุณ ฉันจะคิดอย่างนั้น! แต่คำถามหนึ่งข้อ หากฉันมี 'คำที่เป็นภาพ' ฉันจะวัดระยะห่างระหว่างพวกเขาได้อย่างไร ฉันคิดว่าฉันจะใช้คำอธิบาย SIFT ว่าถูกต้องหรือไม่ - Lowe มีกระดาษหนึ่งเล่มที่เขาอธิบายวิธีการรับรู้วัตถุ 3 มิติโดยการสร้างแบบจำลองของ SIFT descriptors ไม่มีใครรู้บทความอื่น ๆ ที่ดีในหัวข้อนี้ (การรับรู้วัตถุ 3D พร้อมคุณสมบัติอื่น ๆ )?

— jstr

ในกรณีนี้เพียงระยะทางยูคลิดตามที่คุณจัดกลุ่มเวกเตอร์จำนวนเต็ม ฉันไม่คิดว่าคุณต้องวัดระยะห่างระหว่างเซนทรอยด์ของคลัสเตอร์ต่อ แต่เมื่อนำเสนอด้วยอิมเมจเคียวรี (และด้วยเหตุนี้เคียวรีตัวอธิบาย) คุณวัดว่าเซนทรอยด์ตัวใดที่อยู่ใกล้เคียงที่สุด

— Maurits

ตกลงใช้การวัดระยะทางชัดเจน ;-) แต่ข้อมูลใด ใน SIFT Descriptors ต่อคำที่มองเห็น?

— jstr

ในความเป็นจริงสามครั้งในฐานะตัวชี้วัดสำหรับการจัดกลุ่มเริ่มต้นเพื่อให้แน่ใจว่าเซนทรอยด์ / visualword ตัวบ่งชี้คิวรีใดใกล้เคียงที่สุดและในที่สุดก็เพื่อเปรียบเทียบเวกเตอร์แบบสอบถาม td / idf กับฐานข้อมูล

— Maurits

ตกลงฉันได้รับแล้ว ;-) แต่เครื่องวัดระยะทางทำงานกับข้อมูลใด เกี่ยวกับ SIFT descriptors?

— jstr