ความแตกต่างระหว่างการตรวจจับวัตถุการแบ่งส่วนความหมายและการแปลเป็นภาษาท้องถิ่นคืออะไร


23

ฉันอ่านคำเหล่านั้นในสิ่งพิมพ์จำนวนมากและฉันต้องการคำจำกัดความที่ดีสำหรับคำศัพท์เหล่านั้นซึ่งทำให้ชัดเจนว่าความแตกต่างระหว่างการตรวจจับวัตถุกับการแบ่งเซ็กเมนต์แบบ semantic และการโลคัลไลเซชันเป็นอย่างไร มันจะดีถ้าคุณสามารถให้แหล่งที่มาสำหรับคำจำกัดความของคุณ


1
ชำระเงินสไลด์ที่นี่: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
Shatu

คำตอบ:


18

ฉันอ่านเอกสารจำนวนมากเกี่ยวกับการตรวจจับวัตถุการจดจำวัตถุการแบ่งกลุ่มวัตถุการแบ่งส่วนภาพและการแบ่งส่วนภาพความหมายและนี่คือข้อสรุปของฉันซึ่งอาจไม่เป็นความจริง:

การรับรู้วัตถุ: ในภาพที่กำหนดคุณจะต้องตรวจจับวัตถุทั้งหมด (คลาสของวัตถุที่ถูก จำกัด ขึ้นอยู่กับชุดข้อมูลของคุณ) ทำการแปลพวกมันด้วยกล่องที่มีขอบเขตและฉลากที่มีกล่องป้ายกำกับ ในภาพด้านล่างคุณจะเห็นผลลัพธ์ที่เรียบง่ายของการจดจำวัตถุล้ำสมัย

การรับรู้วัตถุ

การตรวจจับวัตถุ: มันเหมือนกับการรับรู้วัตถุ แต่ในงานนี้คุณมีการจำแนกวัตถุเพียงสองระดับซึ่งหมายถึงกล่องขอบวัตถุและกล่องขอบวัตถุที่ไม่ใช่ ตัวอย่างเช่นการตรวจจับรถยนต์: คุณต้องตรวจจับรถยนต์ทุกคันในภาพที่กำหนดพร้อมกล่องที่มีขอบเขต

การตรวจจับวัตถุ

การแบ่งส่วนวัตถุ: เช่นเดียวกับการรับรู้วัตถุคุณจะรับรู้วัตถุทั้งหมดในภาพ แต่เอาท์พุทของคุณควรแสดงวัตถุนี้จำแนกพิกเซลของภาพ

การแบ่งส่วนวัตถุ

การแบ่งส่วนภาพ: ในการแบ่งส่วนภาพคุณจะแบ่งส่วนภูมิภาคของภาพ ผลลัพธ์ของคุณจะไม่ติดป้ายกลุ่มและภูมิภาคของภาพที่สอดคล้องกันควรอยู่ในส่วนเดียวกัน การแยกพิกเซลพิเศษออกจากภาพเป็นตัวอย่างของงานนี้หรือการแบ่งส่วนหน้า - หลัง

การแบ่งส่วนภาพ

การแบ่งส่วนแบบความหมาย: ในการแบ่งส่วนแบบความหมายคุณจะต้องติดป้ายแต่ละพิกเซลด้วยคลาสของวัตถุ (รถยนต์, บุคคล, สุนัข, ... ) และไม่ใช่วัตถุ (น้ำ, ท้องฟ้า, ถนน, ... ) คำอื่น ๆ ใน Semantic Segmentation คุณจะติดเลเบลแต่ละพื้นที่ของภาพ

การแยกความหมาย


คำตอบที่ดี ฉันจะทราบว่าcs231n.stanford.edu/slides/winter1516_lecture8.pdf slide 8 ใช้นิยามที่แตกต่างกันของการตรวจจับวัตถุที่ตรวจจับหลายคลาสและอินสแตนซ์หลายอินสแตนซ์ภายในคลาสเดียวกัน (ฉันไม่ทราบว่ามีคำจำกัดความที่ยอมรับเดี่ยวหรือไม่ ดังนั้นนี่อาจเป็นเพราะความกำกวม)
Keith

1
การแบ่งส่วนตัวอย่างเช่นการแบ่งส่วนความหมาย แต่อย่างหนึ่งที่มีการติดป้ายวัวแยก
ติตัส

2
สไลด์จากความคิดเห็นแรกอยู่ที่นี่แล้ว: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
Shatu

5

เนื่องจากปัญหานี้ยังไม่ชัดเจนในขณะนี้ในปี 2562 และอาจช่วยให้ผู้เรียน ML ใหม่เลือกได้นี่เป็นภาพที่ดีมากที่แสดงความแตกต่าง:

(การโลคัลไลซ์เซชันเป็นกล่องล้อมรอบคลาส "แกะ" หลังจากการจำแนกรูปภาพเสร็จแล้ว) แหล่งที่มา: https://towardsdatascience.com/detection-and-segmentation-through-convnets-47aa42de27ea แหล่งที่มา: Towardsdatascience.com


3

ฉันเชื่อว่า "การแปลเป็นภาษาท้องถิ่น" หมายถึง "การจัดประเภทวัตถุเดี่ยว + การแปลโดยใช้กล่องขอบเขต 2D หรือ 3D"

"การตรวจหาวัตถุ" กำลังแปล + การจำแนกอินสแตนซ์ทั้งหมดของคลาสอ็อบเจ็กต์ที่ทราบที่เป็นปัญหา

การแบ่งส่วนความหมายเป็นการจำแนกต่อพิกเซล

นอกจากนี้ยังมีตัวชี้วัดที่เกี่ยวข้อง (ที่มา: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )

ความแม่นยำคืออัตราส่วนของวัตถุที่ระบุอย่างแม่นยำต่อจำนวนทั้งหมดของวัตถุที่คาดการณ์ (อัตราส่วนของผลบวกจริงต่อผลบวกจริงบวกผลบวก)

Recall คืออัตราส่วนของวัตถุที่มีการระบุอย่างถูกต้องต่อจำนวนวัตถุทั้งหมดในภาพ (อัตราส่วนของผลบวกจริงต่อบวกจริงและเชิงลบจริง)

mAP: คะแนนความแม่นยำเฉลี่ยที่ง่ายขึ้นโดยอ้างอิงจากผลิตภัณฑ์ของความแม่นยำและการเรียกคืนสำหรับ DetectNet เป็นการรวมกันที่ดีสำหรับความอ่อนไหวของเครือข่ายต่อวัตถุที่น่าสนใจและหลีกเลี่ยงการเตือนที่ผิดพลาดได้ดีเพียงใด


2

คำศัพท์เฉพาะที่ไม่ชัดเจน ดังนั้นฉันจะหารือเกี่ยวกับการตรวจจับวัตถุข้อกำหนดและการแบ่งส่วนความหมาย

ในการตรวจจับวัตถุแต่ละพิกเซลของภาพจะถูกจัดประเภทว่าเป็นของคลาสเฉพาะ (เช่นใบหน้า) หรือไม่ ในทางปฏิบัติสิ่งนี้ง่ายขึ้นด้วยการจัดกลุ่มพิกเซลเข้าด้วยกันเพื่อจัดทำกล่องที่มีขอบเขตดังนั้นจึงลดปัญหาในการตัดสินใจว่ากล่องที่ล้อมรอบนั้นแน่นพอดีกับวัตถุหรือไม่ เนื่องจากพิกเซลสามารถเป็นของวัตถุหลายรายการ (เช่นใบหน้าตา) พวกเขาสามารถถือป้ายหลายรายการในเวลาเดียวกัน

ในอีกทางหนึ่งการแบ่งส่วนทางความหมายเกี่ยวข้องกับการกำหนดคลาสป้ายให้กับแต่ละพิกเซลภาพ ในขณะที่พวกเขาอนุญาตให้มีความแม่นยำในการโลคัลไลซ์เซชันที่ดีขึ้นเนื่องจากไม่ได้รวมการทำให้กล่องขอบเขตง่ายขึ้น แต่พวกเขาบังคับใช้เลเบลเดียวต่อพิกเซลอย่างเคร่งครัด


-2

การแบ่งส่วนความหมาย: มันเป็นงานของการจัดกลุ่มชิ้นส่วนของภาพเข้าด้วยกันซึ่งเป็นของวัตถุคลาสเดียวกัน เช่นการตรวจจับสัญญาณจราจร


2
แต่การตรวจจับสัญญาณจราจรเป็นการตรวจจับวัตถุ คุณอธิบายความแตกต่างได้ไหม?
reinierpost
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.