ความแตกต่างระหว่างการจำแนกตามพิกเซลและวัตถุ?


14

ฉันกำลังพยายามเข้าใจอย่างชัดเจนถึงความแตกต่างระหว่างการจำแนกพิกเซลและอิงวัตถุในโดเมนการรับรู้ระยะไกลและหวังว่าจะมีใครบางคนจากชุมชนนี้สามารถให้ข้อมูลเชิงลึกได้

จากข้อมูลที่ฉันมีจนถึงตอนนี้ความเข้าใจปัจจุบันของฉันอยู่ในบรรทัดเหล่านี้:

การจัดหมวดหมู่ตามพิกเซล: การจำแนกจะกระทำในระดับต่อพิกเซลโดยใช้เฉพาะข้อมูลสเปกตรัมที่มีให้สำหรับแต่ละพิกเซลนั้น (เช่นค่าของพิกเซลภายในพื้นที่นั้นจะถูกละเว้น) ในแง่นี้แต่ละพิกเซลจะแสดงตัวอย่างการฝึกอบรมสำหรับอัลกอริทึมการจำแนกและตัวอย่างการฝึกอบรมนี้จะอยู่ในรูปของเวกเตอร์ n-มิติโดยที่ n คือจำนวนแถบสเปกตรัมในข้อมูลภาพ ดังนั้นอัลกอริทึมการจัดหมวดหมู่ที่ผ่านการฝึกอบรมจะส่งออกการทำนายคลาสสำหรับแต่ละพิกเซลในรูปภาพ

การจำแนกประเภทตามวัตถุ: การจำแนกจะกระทำในกลุ่มพิกเซลที่แปลเป็นภาษาท้องถิ่นโดยคำนึงถึงคุณสมบัติเชิงพื้นที่ของแต่ละพิกเซลตามที่สัมพันธ์กัน ในแง่นี้ตัวอย่างการฝึกอบรมสำหรับอัลกอริทึมการจำแนกประเภทจะประกอบด้วยกลุ่มของพิกเซลและอัลกอริทึมการจำแนกประเภทที่ผ่านการฝึกอบรมจะส่งออกการทำนายคลาสสำหรับพิกเซลบนพื้นฐานกลุ่ม สำหรับตัวอย่างที่หยาบคายภาพอาจถูกแบ่งพาร์ติชันเป็น n เซ็กเมนต์ที่มีขนาดเท่ากันและแต่ละเซกเมนต์จะได้รับคลาส (เช่นมีวัตถุ / ไม่มีวัตถุ)

ความคิดนี้ถูกต้องเกี่ยวกับความหมายของคำเหล่านี้หรือมีบางสิ่งที่ฉันพลาดไปหรือไม่

คำตอบ:


9

โดยทั่วไปความเข้าใจของคุณถูกต้องอย่างไรก็ตามมีอันตรายในคำอธิบายของคุณเกี่ยวกับการจำแนกประเภทวัตถุ - คำว่า 'วัตถุ' หมายถึงกลุ่มของพิกเซลไม่ว่าจะมีวัตถุที่กำหนดหรือไม่
นอกจากนี้เป้าหมายหลักในการจัดหมวดหมู่ตามวัตถุไม่ใช่ว่าจะมีเซ็กเมนต์ที่มีขนาดเท่ากัน แต่จะต้อง "สับ" / แบ่งส่วนของภาพในส่วนที่เป็นเนื้อเดียวกันภายในที่มีขนาดแตกต่างกัน สุดท้ายตัวอย่างการฝึกอบรมสำหรับการจำแนกประเภทตามวัตถุมักจะเป็นชิ้นส่วนที่ถูกสร้างขึ้นในการแบ่งส่วนภาพ

สรุปทั้งหมดข้างต้นเป็นเพียงการเปลี่ยนแปลงเล็กน้อยตามคำอธิบายของคุณ

ตอนนี้เข้าสู่ส่วนกลาง - เมื่อจะใช้แต่ละวิธีและวิธีการรวมจุดแข็งของพวกเขา


ขอบคุณที่ช่วยอธิบายให้เข้าใจได้จริงๆ ฉันสงสัยว่าฉันยังไม่เข้าใจรายละเอียดปลีกย่อยของการจำแนกตามวัตถุ! เป็นเรื่องที่น่าสนใจที่คุณพูดถึงความเป็นไปได้ของแนวทางไฮบริดที่ฉันยังไม่เคยคิดมาก่อน ฉันสามารถถามได้หรือไม่ถ้าฉันใช้วิธีการเลื่อนหน้าต่างเพื่อตรวจจับและจำแนกวัตถุมีคำศัพท์ทางเทคนิคสำหรับวิธีการดังกล่าวที่ใช้ในโดเมนการรับรู้ระยะไกลหรือไม่
RDG

1
ใช่เรียกว่า convolutions ดูคำตอบของฉัน
John Powell

ในความคิดของฉันมีความแข็งแรงเป็นศูนย์ในการจำแนกตามพิกเซล มีเวิร์กโฟลว์ที่น่าสนใจที่เกี่ยวข้องกับการโน้มน้าวใจรวมถึงการถดถอยเพื่อทำนายขอบเขตกล่องและที่ตั้ง แต่การจำแนกพิกเซลตามตัวมันเองไม่มีค่า
John Powell

1
@ JohnPowellakaBarça - มีวิธีการที่ใช้พิกเซลเป็นมูลค่าเมื่อพิจารณาแอพพลิเคชั่นแบบหลายสมัยซึ่งการจำแนกประเภทนั้นมุ่งเน้นที่การเปลี่ยนแปลงในพื้นที่มากกว่าการบันทึกเวลาเดียวแบบดั้งเดิม
Mikkel Lydholm Rasmussen

1
แน่นอนใช่ยุติธรรมพอ แม้ว่าวิธีการที่อิงตามภูมิภาค vectorized แล้วเมื่อเปรียบเทียบกับเวลาอาจให้ข้อมูลเชิงลึกที่อาจเกิดขึ้น แต่จุดของคุณจะดี
John Powell

12

เท่าที่เกี่ยวข้องกับการจำแนกพิกเซลตามคุณเป็นจุด แต่ละพิกเซลเป็นเวกเตอร์ n-มิติและจะถูกกำหนดให้กับบางคลาสตามเมตริกบางตัวไม่ว่าจะใช้ Support Vector Machines, MLE, ตัวแยกประเภท knn บางชนิด ฯลฯ

แม้ว่าในช่วงไม่กี่ปีที่ผ่านมามีการพัฒนาตัวจําแนกตามตัวจําแนกตามภูมิภาคมากขึ้นเนื่องจากการรวมกันของ GPU, ข้อมูลจำนวนมหาศาล, คลาวด์และความพร้อมใช้งานของอัลกอริทึมที่กว้างขอบคุณการเติบโตของโอเพ่นซอร์ส โดย github) หนึ่งในการพัฒนาที่ใหญ่ที่สุดในการมองเห็น / การจำแนกประเภทของคอมพิวเตอร์อยู่ในเครือข่ายประสาทเทียม (CNNs). เลเยอร์ Convolutional "เรียนรู้" คุณสมบัติที่อาจขึ้นอยู่กับสีเช่นเดียวกับตัวแยกประเภทตามพิกเซลแบบดั้งเดิม แต่ยังสร้างตัวตรวจจับขอบและตัวแยกคุณลักษณะอื่น ๆ ทุกชนิดที่อาจมีอยู่ในพื้นที่ของพิกเซล (ดังนั้นส่วนที่เป็น convolutional) ไม่สามารถแยกออกจากการจัดประเภทตามพิกเซล ซึ่งหมายความว่าพวกเขามีแนวโน้มที่จะจำแนกพิกเซลผิดประเภทที่อยู่ตรงกลางของพื้นที่พิกเซลประเภทอื่น - หากคุณเคยจัดประเภทและมีน้ำแข็งตรงกลางของอเมซอนคุณจะเข้าใจปัญหานี้

จากนั้นคุณใช้โครงข่ายประสาทที่เชื่อมต่ออย่างเต็มที่กับ "คุณสมบัติ" ที่เรียนรู้ผ่านการโน้มน้าวใจเพื่อทำการจำแนกอย่างแท้จริง ข้อดีอีกอย่างหนึ่งของ CNNs คือพวกมันเป็นค่าคงที่และการหมุนเนื่องจากมีชั้นกลางระหว่างชั้นการบิดและชั้นการจำแนกที่พูดลักษณะทั่วไปโดยใช้การรวมกำไรและการออกกลางคันเพื่อหลีกเลี่ยงการ overfitting และช่วยแก้ไขปัญหารอบตัว ขนาดและการวางแนว

มีทรัพยากรจำนวนมากในเครือข่ายประสาทสับสนแม้ว่าจะดีที่สุดจะต้องมีชั้น Standord จากอังเดร Karpathyซึ่งเป็นหนึ่งในผู้บุกเบิกด้านนี้และการบรรยายชุดทั้งหมดที่มีอยู่ในYouTube

แน่นอนว่ามีวิธีอื่น ๆ ในการจัดการกับการจำแนกพิกเซลตามพื้นที่ แต่ขณะนี้เป็นวิธีการที่ทันสมัยและมีแอปพลิเคชั่นมากมายนอกเหนือจากการจำแนกระยะไกลเช่นการแปลด้วยเครื่องและรถยนต์ที่ขับเคลื่อนด้วยตนเอง

นี่คืออีกตัวอย่างของการจำแนกตามภูมิภาคโดยใช้ Open Street Map สำหรับข้อมูลการฝึกอบรมที่ติดแท็กรวมถึงคำแนะนำสำหรับการตั้งค่า TensorFlow และการเรียกใช้บน AWS

นี่คือตัวอย่างการใช้ Google Earth Engine ของตัวจําแนกตามการตรวจจับขอบในกรณีนี้เพื่อการชลประทานแบบเดือย - ไม่ใช้อะไรมากไปกว่าเคอร์เนลแบบเกาส์และการโน้มน้าวใจ แต่กลับแสดงพลังของวิธีการตามภูมิภาค / ขอบ

ป้อนคำอธิบายรูปภาพที่นี่

ในขณะที่เหนือกว่าของวัตถุมากกว่า classfication พิกเซลที่ใช้ค่อนข้างได้รับการยอมรับอย่างกว้างขวางที่นี่เป็นบทความที่น่าสนใจในการสำรวจระยะไกลจดหมายการประเมินการปฏิบัติงานของการจัดหมวดหมู่ของวัตถุตาม

ในที่สุดตัวอย่างที่น่าขบขันเพียงเพื่อแสดงให้เห็นว่าแม้จะมีตัวแยกประเภทตามภูมิภาค / การแปลงภาพการมองเห็นคอมพิวเตอร์ยังคงเป็นเรื่องยากจริงๆ - โชคดีที่คนที่ฉลาดที่สุดใน Google, Facebook และอื่น ๆ กำลังทำงานบนอัลกอริทึม สุนัขแมวและสุนัขและแมวหลายสายพันธุ์ ดังนั้นผู้ใช้ที่สนใจการรับรู้ระยะไกลสามารถนอนหลับได้ง่ายในเวลากลางคืน

ป้อนคำอธิบายรูปภาพที่นี่


0

คำตอบที่ง่ายมากมีดังนี้:

หากคุณใช้เฉพาะข้อมูลสเปกตรัม (ความเข้มของพิกเซล) เป็นชุดฝึกอบรมคุณจะจัดหมวดหมู่ฐานพิกเซล

ถ้าคุณใช้ทั้งอวกาศ (พิกเซลพื้นที่ใกล้เคียง) และข้อมูลสเปกตรัมเป็นชุดฝึกอบรมคุณจะจัดหมวดหมู่ฐานวัตถุ (โดยใช้อัลกอริทึมที่ใช้การแบ่งส่วนเช่น DBScan) ใน Computer Vision DBScan นี้ใช้สำหรับการแยก Superpixel

หมายเหตุ: คุณสามารถใช้ข้อมูลสเปกตรัมในแง่ใดก็ได้ (ขนาดรูปร่างบริบท / พื้นผิว) สำหรับการแยกคุณลักษณะ

คุณสามารถใช้วิธีการที่แตกต่างกันในการสกัดคุณสมบัติโดยใช้ข้อมูลสเปกตรัม

คำถามหลักคือว่าจะหาวิธีที่เหมาะสมที่สุดสำหรับการดึงฟีเจอร์และใช้อัลกอริธึมที่มีประสิทธิภาพ (การตรวจจับขอบ, การแบ่งส่วนตามสเปกตรัม, การจัดกลุ่ม) สำหรับปัญหาที่ถูกวางเพื่อขับข้อมูลออกจากข้อมูลสเปกตรัม

อาจคิดว่าเมทริกซ์คอนโวลูชั่นเพื่อทำการวิเคราะห์ที่ดีทั้งข้อมูลสเปกตรัมและอวกาศสำหรับการสร้างชุดฝึกอบรม

อ้างอิง: ความรู้ของฉันหลังจากมีประสบการณ์มากกว่า 3 ปีทำงานใน Remote Sensing และ GIS Domain

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.