คำถามติดแท็ก computer-vision

5
ความแตกต่างระหว่างการตรวจจับวัตถุการแบ่งส่วนความหมายและการแปลเป็นภาษาท้องถิ่นคืออะไร
ฉันอ่านคำเหล่านั้นในสิ่งพิมพ์จำนวนมากและฉันต้องการคำจำกัดความที่ดีสำหรับคำศัพท์เหล่านั้นซึ่งทำให้ชัดเจนว่าความแตกต่างระหว่างการตรวจจับวัตถุกับการแบ่งเซ็กเมนต์แบบ semantic และการโลคัลไลเซชันเป็นอย่างไร มันจะดีถ้าคุณสามารถให้แหล่งที่มาสำหรับคำจำกัดความของคุณ

3
การมองเห็นคอมพิวเตอร์และการประมวลผลภาพแตกต่างกันอย่างไร
การมองเห็นคอมพิวเตอร์และการประมวลผลภาพแตกต่างกันอย่างไร ตัวอย่างเช่นในการจดจำวัตถุอะไรคือบทบาทของการมองเห็นด้วยคอมพิวเตอร์และการประมวลผลภาพ?

1
Google DeepDream อธิบายแล้ว
ฉันเคยเห็นคำถามสองสามข้อเกี่ยวกับ Deep Dream ในเว็บไซต์นี้ แต่ดูเหมือนว่าไม่มีใครพูดถึง DeepDream ได้ว่าทำอะไรโดยเฉพาะ เท่าที่ฉันรวบรวมพวกเขาดูเหมือนจะเปลี่ยนฟังก์ชั่นวัตถุประสงค์และยังเปลี่ยน backpropagation เพื่อให้แทนที่จะอัปเดตตุ้มน้ำหนักที่พวกเขาอัพเดทภาพอินพุต ฉันสงสัยว่าถ้าใครรู้ว่าสิ่งที่ Google ทำ พวกเขากล่าวถึงหนึ่งในบทความของพวกเขาที่เรียกว่านักบวชชาวเบย์เมื่อพวกเขาทำการหาค่าเหมาะที่สุดและด้วยเหตุนี้ฉันสามารถจินตนาการได้ว่าการใช้โครงข่ายประสาทเทียมเพื่อพ่นภาพสำหรับแต่ละฉลากนั้นไม่ใช่เรื่องยาก - เราสามารถกำหนดป้ายแล้ว ปรับเวกเตอร์อินพุตให้เหมาะสม อย่างไรก็ตามส่วนที่น่าสนใจของความฝันที่ลึกล้ำก็คือมันทำแบบนี้ต่อเลเยอร์และในเรื่องนี้ฉันไม่ค่อยแน่ใจว่ามันจะเน้นรายละเอียดอย่างไรต่อเลเยอร์ แน่นอนว่าการป้อนภาพจะให้คุณค่ากับคุณในแต่ละเซลล์ประสาท แต่ถ้าเช่นนั้นเราจะใช้ข้อมูลนั้นเพื่ออธิบายรายละเอียดที่เกินจริงในภาพต้นฉบับได้อย่างไร ฉันพยายามหารายละเอียดเพิ่มเติมเกี่ยวกับเรื่องนี้ การอ้างอิง: ที่นี่ vzn ตอบคำถามที่คล้ายกัน: https://cs.stackexchange.com/a/44857/49671 จากลิงก์นั้นมีการนำ Deepdream มาใช้ที่นี่: http://auduno.com/post/125362849838/visualizing-googlenet-classes ยกเว้นว่ามันจะไม่มีคุณสมบัติที่พูดเกินจริงตามที่กล่าวไว้ที่นี่: http://googleresearch.blogspot.com/2015/06/inceptionism-going-deeper-into-neural.html ที่ซึ่งทั้งคู่แสดงการสร้างภาพข้อมูลของคลาสเฉพาะและเลเยอร์เฉพาะและพูดว่า: แทนที่จะกำหนดคุณสมบัติที่เราต้องการให้เครือข่ายขยายแน่นอนเราสามารถปล่อยให้เครือข่ายตัดสินใจได้ ในกรณีนี้เราเพียงแค่ป้อนรูปภาพหรือรูปภาพตามอำเภอใจของเครือข่ายและให้เครือข่ายวิเคราะห์รูปภาพ จากนั้นเราเลือกเลเยอร์และขอให้เครือข่ายปรับปรุงสิ่งที่ตรวจพบ

3
สัญชาตญาณในการโน้มน้าวใจในการประมวลผลภาพ
ฉันได้อ่านเอกสารจำนวนมากเกี่ยวกับการโน้มน้าวใจในการประมวลผลภาพและส่วนใหญ่พูดเกี่ยวกับสูตรของมันซึ่งมีพารามิเตอร์เพิ่มเติมบางอย่าง ไม่มีใครอธิบายสัญชาตญาณและความหมายที่แท้จริงที่อยู่เบื้องหลังการทำสังวัตนาบนภาพ ตัวอย่างเช่นสัญชาตญาณของการได้มาบนกราฟทำให้มันเป็นเส้นตรงมากขึ้น ฉันคิดว่าบทสรุปอย่างย่อของคำจำกัดความคือ: convolution ถูกทับซ้อนระหว่างตารางสี่เหลี่ยมกับอิมเมจและเคอร์เนลหลังจากรวมกันอีกครั้งแล้วใส่ลงในสมอ และนี่ก็ไม่สมเหตุสมผลกับฉัน จากบทความนี้เกี่ยวกับการโน้มน้าวใจฉันไม่สามารถจินตนาการได้ว่าทำไมการบิดจึงสามารถทำบางสิ่งที่ "ไม่น่าเชื่อ" ได้ ตัวอย่างเช่นการตรวจจับเส้นและขอบในหน้าสุดท้ายของลิงค์นี้ เพียงเลือกเคอร์เนล convolution ที่เหมาะสมสามารถสร้างเอฟเฟกต์ที่ดี (ตรวจจับเส้นหรือตรวจจับขอบ) ทุกคนสามารถให้สัญชาตญาณ (ไม่จำเป็นต้องเป็นหลักฐานที่เรียบร้อย) ในการทำเช่นนั้น?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.