“ การแบ่งส่วนความหมาย” คืออะไรเมื่อเทียบกับ“ การแบ่งส่วน” และ“ การติดป้ายกำกับฉาก”


97

การแบ่งส่วนความหมายเป็นเพียงความสุขใจหรือมีความแตกต่างระหว่าง "การแบ่งส่วนความหมาย" และ "การแบ่งส่วน" หรือไม่? "การติดป้ายกำกับฉาก" หรือ "การแยกวิเคราะห์ฉาก" แตกต่างกันอย่างไร

อะไรคือความแตกต่างระหว่างการแบ่งส่วนระดับพิกเซลและพิกเซลตามลำดับ?

(คำถามข้างเคียง: เมื่อคุณมีคำอธิบายประกอบที่ชาญฉลาดเกี่ยวกับพิกเซลแบบนี้คุณจะได้รับการตรวจจับวัตถุฟรีหรือยังมีบางอย่างที่ต้องทำ?)

โปรดให้แหล่งที่มาสำหรับคำจำกัดความของคุณ

แหล่งที่มาซึ่งใช้ "การแบ่งส่วนความหมาย"

แหล่งที่มาที่ใช้ "การติดป้ายกำกับฉาก"

  • ผ่อนผัน Farabet คามิลล์ Couprie องค์ Najman, ยานน์เลคัน: การเรียนรู้ตามลำดับชั้นคุณสมบัติสำหรับฉากการติดฉลาก ในการวิเคราะห์รูปแบบและความฉลาดของเครื่องจักร 2013

แหล่งที่มาซึ่งใช้ "ระดับพิกเซล"

  • Pinheiro, Pedro O. และ Ronan Collobert: "จากระดับภาพไปจนถึงการติดฉลากระดับพิกเซลด้วย Convolutional Networks" การดำเนินการของการประชุม IEEE เรื่อง Computer Vision and Pattern Recognition, 2015 (ดูhttp://arxiv.org/abs/1411.6228 )

แหล่งที่ใช้ "pixelwise"

  • Li, Hongsheng, Rui Zhao และ Xiaogang Wang: "การขยายเครือข่ายประสาทเทียมไปข้างหน้าและข้างหลังที่มีประสิทธิภาพสูงสำหรับการจำแนกตามพิกเซล" arXiv preprint arXiv: 1412.4526 , 2014

Google Ngrams

ดูเหมือนว่า "การแบ่งส่วนความหมาย" จะถูกนำมาใช้เร็วกว่า "การติดป้ายกำกับฉาก"

ป้อนคำอธิบายภาพที่นี่


เงื่อนไขอื่น ๆ ซึ่งดูเหมือนจะคล้ายกันมาก (ต่อหนึ่ง) จำแนกพิกเซล / การติดฉลาก
มาร์ติน Thoma

12
เป็นเรื่องที่น่าสนใจมากที่ @MartinThoma มีการแบ่งส่วนความหมายแบบสำรวจความหมายของ arXiv preprint ซึ่งเผยแพร่เกือบ 6 เดือนหลังจากถามคำถาม [ลิงก์] ( arxiv.org/pdf/1602.06541.pdf ) เก่งมาก!
Mohamed Hasan

คำตอบ:


92

"การแบ่งส่วน"คือการแบ่งภาพออกเป็นหลาย ๆ ส่วนที่ "เชื่อมโยงกัน" แต่ไม่ต้องพยายามทำความเข้าใจว่าส่วนเหล่านี้เป็นตัวแทนของอะไร หนึ่งในผลงานที่มีชื่อเสียงที่สุด ( แต่แน่นอนไม่ใช่ครั้งแรก) เป็นชิและมาลิก "ตัดปกติและการแบ่งส่วนภาพ" Pami 2000 งานเหล่านี้พยายามกำหนด "การเชื่อมโยงกัน" ในแง่ของตัวชี้นำระดับต่ำเช่นสีพื้นผิวและความเรียบของขอบเขต คุณสามารถติดตามผลงานเหล่านี้ย้อนกลับไปยังทฤษฎีเกสตัลท์

ในทางกลับกัน"แบ่งส่วนความหมาย"พยายามแบ่งภาพออกเป็นส่วนที่มีความหมายตามความหมายและจำแนกแต่ละส่วนเป็นหนึ่งในชั้นเรียนที่กำหนดไว้ล่วงหน้า คุณยังสามารถบรรลุเป้าหมายเดียวกันได้โดยการจำแนกแต่ละพิกเซล (แทนที่จะเป็นภาพ / ส่วนทั้งหมด) ในกรณีนี้คุณกำลังทำการจำแนกพิกเซลอย่างชาญฉลาดซึ่งนำไปสู่ผลลัพธ์สุดท้ายเหมือนกัน แต่อยู่ในเส้นทางที่แตกต่างกันเล็กน้อย ...

ดังนั้นฉันคิดว่าคุณสามารถพูดได้ว่า "การแบ่งส่วนความหมาย" "การติดป้ายกำกับฉาก" และ "การจำแนกแบบพิกเซล" โดยพื้นฐานแล้วพยายามที่จะบรรลุเป้าหมายเดียวกันนั่นคือการเข้าใจความหมายของแต่ละพิกเซลในภาพ คุณสามารถใช้หลายเส้นทางเพื่อไปให้ถึงเป้าหมายนั้นและเส้นทางเหล่านี้นำไปสู่ความแตกต่างเล็กน้อยในคำศัพท์


2
เส้นทางใดนำไปสู่การแบ่งส่วนความหมายและเส้นทางใดนำไปสู่การติดฉลากฉากหรือการจำแนกตามพิกเซล
Martin Thoma

3
โดยทั่วไปแล้ว @moose ถ้าคุณใช้เครื่องมือและอัลกอริทึมที่มาจากฟิลด์การวิจัย "การแบ่งส่วน" (เช่น CRF เงื่อนไขที่ทำให้เกิดความเรียบ ฯลฯ ) แสดงว่าคุณกำลังทำการ ในทางกลับกันหากคุณใช้เครื่องมือและอัลกอริทึมที่ใช้ในการจัดหมวดหมู่รูปภาพโดยอ้างถึงสิ่งเหล่านี้ในพื้นที่คุณมีแนวโน้มที่จะอธิบายงานของคุณว่า อย่างไรก็ตามฉันไม่คิดว่าจะมีความแตกต่างในทางปฏิบัติจริง ๆ มีเพียงความหมายเท่านั้น: สิ่งเหล่านี้เป็นคำพ้องความหมายของเป้าหมายสุดท้ายเดียวกัน
Shai

63

ฉันอ่านเอกสารมากมายเกี่ยวกับ Object Detection, Object Recognition, Object Segmentation, Image Segmentation และ Semantic Image Segmentation และนี่คือข้อสรุปของฉันซึ่งอาจไม่เป็นความจริง:

การรับรู้วัตถุ: ในภาพที่กำหนดคุณต้องตรวจจับวัตถุทั้งหมด (คลาสที่ จำกัด ของวัตถุขึ้นอยู่กับชุดข้อมูลของคุณ) แปลเป็นภาษาท้องถิ่นด้วยกล่องขอบเขตและป้ายกำกับว่ากล่องที่มีป้ายกำกับ ในภาพด้านล่างคุณจะเห็นผลลัพธ์ง่ายๆของการจดจำวัตถุที่ทันสมัย

การรับรู้วัตถุ

การตรวจจับวัตถุ: เหมือนกับการรับรู้วัตถุ แต่ในงานนี้คุณมีการจัดประเภทวัตถุเพียงสองคลาสซึ่งหมายถึงกล่องขอบเขตวัตถุและกล่องขอบเขตที่ไม่ใช่วัตถุ ตัวอย่างเช่นการตรวจจับรถ: คุณต้องตรวจจับรถทุกคันในภาพที่กำหนดโดยมีกรอบ

การตรวจจับวัตถุ

การแบ่งกลุ่มวัตถุ: เช่นเดียวกับการรับรู้วัตถุคุณจะจดจำวัตถุทั้งหมดในภาพ แต่ผลลัพธ์ของคุณควรแสดงวัตถุที่จำแนกพิกเซลของภาพ

การแบ่งส่วนวัตถุ

การแบ่งส่วนภาพ: ในการแบ่งส่วนภาพคุณจะแบ่งส่วนของภาพ ผลลัพธ์ของคุณจะไม่ติดป้ายกำกับส่วนและภูมิภาคของรูปภาพที่สอดคล้องกันควรอยู่ในกลุ่มเดียวกัน การแยกซุปเปอร์พิกเซลออกจากภาพเป็นตัวอย่างของงานนี้หรือการแบ่งส่วนพื้นหน้า - พื้นหลัง

การแบ่งส่วนภาพ

การแบ่งส่วนความหมาย: ในการแบ่งส่วนความหมายคุณต้องติดป้ายกำกับแต่ละพิกเซลด้วยคลาสของวัตถุ (รถยนต์, บุคคล, สุนัข, ... ) และไม่ใช่วัตถุ (น้ำ, ท้องฟ้า, ถนน, ... ) ฉันพูดอีกนัยหนึ่งใน Semantic Segmentation คุณจะติดป้ายกำกับแต่ละภูมิภาคของภาพ

การแบ่งส่วนความหมาย

ฉันคิดว่าการติดฉลากระดับพิกเซลและแบบพิกเซลนั้นเหมือนกันอาจเป็นการแบ่งส่วนภาพหรือการแบ่งส่วนความหมาย ฉันได้ตอบคำถามของคุณในลิงค์นี้เช่นเดียวกัน


8
ฉันจะเพิ่มการแบ่งส่วนอินสแตนซ์ด้วยเช่นการคั่นระหว่างอินสแตนซ์ของออบเจ็กต์เดียวกัน
อเล็กซ์

1
ฉันขอโต้แย้งว่า "Image Recognition" เป็นคำพ้องความหมายของ "Image Classification" มากกว่า "Image Detection" มันเกี่ยวกับการจดจำวัตถุหนึ่งหรือหลายชิ้นในภาพและสามารถบอกได้ว่ามีอยู่หรือไม่ หากเราต้องการทราบว่ามันอยู่ที่ไหนเราจะต้องตรวจจับวัตถุโดยใช้กรอบล้อมรอบ นอกจากนี้ฉันไม่เห็นเหตุผลว่าทำไมเครื่องตรวจจับวัตถุควรตรวจจับได้เพียงคลาสเดียว
pietz

ฉันเห็นด้วยบางส่วนกับคุณ ฉันไม่ได้พูดถึงว่าการจดจำภาพคืออะไรดังนั้นการจดจำและการจำแนกภาพอาจมีความหมายเหมือนกัน อย่างไรก็ตามการตรวจจับวัตถุส่วนใหญ่จะใช้สำหรับปัญหาสองคลาสและการรับรู้วัตถุสำหรับหลายคลาส อย่างไรก็ตามฉันไม่มียามสำหรับคำตอบของฉันมันเป็นเพียงความคิดของฉันจากการอ่านบทความเมื่อสามปีก่อน! ไชโย!
e_soroush

คุณช่วยอธิบายรายละเอียดเกี่ยวกับสถานที่บางแห่งที่คุณหาอ่านได้หรือไม่?
qarthandso

36

คำตอบก่อนหน้านี้ยอดเยี่ยมมากฉันอยากจะชี้ให้เห็นเพิ่มเติมบางส่วน:

การแบ่งกลุ่มวัตถุ

สาเหตุหนึ่งที่ทำให้สิ่งนี้ไม่ได้รับความนิยมในแวดวงการวิจัยเนื่องจากเป็นปัญหาที่คลุมเครือ การแบ่งส่วนวัตถุใช้เพื่อหมายถึงการค้นหาวัตถุเพียงชิ้นเดียวหรือจำนวนน้อยในภาพและวาดขอบเขตรอบ ๆ วัตถุเหล่านั้นและสำหรับวัตถุประสงค์ส่วนใหญ่คุณยังสามารถสันนิษฐานได้ว่ามันหมายถึงสิ่งนี้ อย่างไรก็ตามยังเริ่มใช้เพื่อหมายถึงการแบ่งกลุ่มของ blobs ที่อาจเป็นวัตถุการแบ่งส่วนของวัตถุจากพื้นหลัง (โดยทั่วไปเรียกว่าการลบพื้นหลังหรือการแบ่งส่วนพื้นหลังหรือการตรวจจับพื้นหน้า) และแม้ในบางกรณีจะใช้แทนกันได้กับการรับรู้วัตถุโดยใช้กล่องขอบเขต (สิ่งนี้หยุดลงอย่างรวดเร็วด้วยการถือกำเนิดของเครือข่ายประสาทเทียมแบบลึกในการรับรู้วัตถุ แต่การรับรู้วัตถุล่วงหน้าก็สามารถทำได้เช่นกัน หมายถึงเพียงแค่ติดป้ายกำกับภาพทั้งหมดโดยมีวัตถุอยู่)

อะไรทำให้ "แบ่งส่วน" เป็น "ความหมาย"?

Simpy แต่ละส่วนหรือในกรณีของวิธีการเชิงลึกแต่ละพิกเซลจะได้รับป้ายกำกับคลาสตามหมวดหมู่ การแบ่งส่วนโดยทั่วไปเป็นเพียงการแบ่งภาพตามกฎบางข้อ Meanshiftแบ่งส่วนตัวอย่างเช่นจากแบ่งระดับที่สูงมากข้อมูลตามการเปลี่ยนแปลงในการใช้พลังงานของภาพที่ ตัดกราฟการแบ่งส่วนตามนั้นไม่ได้เรียนรู้ในทำนองเดียวกัน แต่ได้มาโดยตรงจากคุณสมบัติของแต่ละภาพแยกจากส่วนที่เหลือ วิธีการล่าสุด (ตามเครือข่ายประสาท) ใช้พิกเซลที่มีป้ายกำกับเพื่อเรียนรู้เพื่อระบุคุณลักษณะเฉพาะที่เกี่ยวข้องกับคลาสเฉพาะจากนั้นจำแนกแต่ละพิกเซลตามคลาสที่มีความเชื่อมั่นสูงสุดสำหรับพิกเซลนั้น ด้วยวิธีนี้ "การติดฉลากพิกเซล" จึงเป็นชื่อที่ตรงไปตรงมามากกว่าสำหรับงานและองค์ประกอบ "การแบ่งส่วน" จะปรากฏขึ้น

การแบ่งกลุ่มอินสแตนซ์

ความหมายดั้งเดิมที่เข้าใจยากที่สุดเกี่ยวข้องและเป็นต้นฉบับของการแบ่งส่วนวัตถุ "การแบ่งส่วนอินสแตนซ์" หมายถึงการแบ่งส่วนของวัตถุแต่ละชิ้นภายในฉากไม่ว่าจะเป็นประเภทเดียวกันหรือไม่ก็ตาม อย่างไรก็ตามสาเหตุหนึ่งที่ยากมากก็เพราะจากมุมมองของวิสัยทัศน์ (และในทางปรัชญาในบางแง่มุม) สิ่งที่ทำให้อินสแตนซ์ "วัตถุ" ไม่ชัดเจนทั้งหมด ชิ้นส่วนของร่างกายเป็นวัตถุหรือไม่? "ชิ้นส่วน - ออบเจ็กต์" ดังกล่าวควรถูกแบ่งส่วนด้วยอัลกอริทึมการแบ่งส่วนอินสแตนซ์หรือไม่ ควรแบ่งกลุ่มเฉพาะเมื่อเห็นแยกจากทั้งหมดหรือไม่? สิ่งที่เกี่ยวกับวัตถุผสมควรมีสองสิ่งที่อยู่ติดกันอย่างชัดเจน แต่แยกออกจากกันได้ว่าเป็นวัตถุหนึ่งหรือสองชิ้น (คือก้อนหินที่ติดอยู่ที่ด้านบนของแท่งขวานค้อนหรือเพียงแค่แท่งไม้และก้อนหินเว้นแต่จะทำอย่างถูกต้อง) นอกจากนี้ยังไม่มี ไม่ชัดเจนว่าจะแยกแยะอินสแตนซ์อย่างไร จะเป็นอินสแตนซ์ที่แยกจากผนังอื่น ๆ ที่ติดอยู่หรือไม่? ควรนับอินสแตนซ์ในลำดับใด ตามที่ปรากฏ? ใกล้จุดชมวิว? แม้จะมีปัญหาเหล่านี้ แต่การแบ่งส่วนของวัตถุยังคงเป็นเรื่องใหญ่เพราะในขณะที่มนุษย์เราโต้ตอบกับวัตถุตลอดเวลาโดยไม่คำนึงถึง "ป้ายกำกับชั้นเรียน" ของพวกเขา (โดยใช้วัตถุสุ่มรอบตัวคุณเป็นน้ำหนักกระดาษนั่งบนสิ่งของที่ไม่ใช่เก้าอี้) ดังนั้นชุดข้อมูลบางชุดจึงพยายามแก้ไขปัญหานี้ แต่สาเหตุหลักที่ยังไม่มีการให้ความสนใจกับปัญหามากนักเป็นเพราะยังไม่ได้กำหนดไว้อย่างดีพอ ป้อนคำอธิบายภาพที่นี่

การแยกวิเคราะห์ฉาก / การติดฉลากฉาก

การแยกวิเคราะห์ฉากเป็นวิธีการแบ่งส่วนอย่างเคร่งครัดในการติดฉลากฉากซึ่งยังมีปัญหาความไม่ชัดเจนในตัวเอง ในอดีตการติดฉลากฉากหมายถึงการแบ่ง "ฉาก" (ภาพ) ทั้งหมดออกเป็นส่วน ๆ และให้ป้ายกำกับชั้นเรียนทั้งหมด อย่างไรก็ตามยังใช้เพื่อหมายถึงการให้ป้ายกำกับชั้นเรียนให้กับพื้นที่ของภาพโดยไม่ต้องแบ่งส่วนอย่างชัดเจน สำหรับการแบ่งส่วน "การแบ่งส่วนความหมาย" ไม่ได้หมายความถึงการแบ่งฉากทั้งหมด สำหรับการแบ่งส่วนความหมายอัลกอริทึมมีจุดมุ่งหมายเพื่อแบ่งกลุ่มเฉพาะวัตถุที่มันรู้จักและจะถูกลงโทษโดยฟังก์ชันการสูญเสียสำหรับพิกเซลการติดฉลากที่ไม่มีป้ายกำกับใด ๆ ตัวอย่างเช่นชุดข้อมูล MS-COCO เป็นชุดข้อมูลสำหรับการแบ่งส่วนความหมายที่มีการแบ่งส่วนวัตถุเพียงบางส่วนเท่านั้น ภาพตัวอย่าง MS-COCO

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.