คำถามติดแท็ก image-processing

3
การมองเห็นคอมพิวเตอร์และการประมวลผลภาพแตกต่างกันอย่างไร
การมองเห็นคอมพิวเตอร์และการประมวลผลภาพแตกต่างกันอย่างไร ตัวอย่างเช่นในการจดจำวัตถุอะไรคือบทบาทของการมองเห็นด้วยคอมพิวเตอร์และการประมวลผลภาพ?

1
การโน้มน้าวใจ 2 มิติ: พลิกเคอร์เนลหรือไม่
ทำไมเราต้องพลิกเคอร์เนลในรูปแบบ 2D ในตอนแรก? ประโยชน์ของสิ่งนี้คืออะไร? ดังนั้นทำไมเราไม่ปล่อยทิ้งไว้ไม่เปิด http://www.songho.ca/dsp/convolution/convolution2d_example.html อินพุต เมล็ด เอาท์พุต "ขั้นแรกให้พลิกเคอร์เนลซึ่งเป็นกล่องสีเทาทั้งในแนวนอนและแนวตั้ง"


1
Google DeepDream อธิบายแล้ว
ฉันเคยเห็นคำถามสองสามข้อเกี่ยวกับ Deep Dream ในเว็บไซต์นี้ แต่ดูเหมือนว่าไม่มีใครพูดถึง DeepDream ได้ว่าทำอะไรโดยเฉพาะ เท่าที่ฉันรวบรวมพวกเขาดูเหมือนจะเปลี่ยนฟังก์ชั่นวัตถุประสงค์และยังเปลี่ยน backpropagation เพื่อให้แทนที่จะอัปเดตตุ้มน้ำหนักที่พวกเขาอัพเดทภาพอินพุต ฉันสงสัยว่าถ้าใครรู้ว่าสิ่งที่ Google ทำ พวกเขากล่าวถึงหนึ่งในบทความของพวกเขาที่เรียกว่านักบวชชาวเบย์เมื่อพวกเขาทำการหาค่าเหมาะที่สุดและด้วยเหตุนี้ฉันสามารถจินตนาการได้ว่าการใช้โครงข่ายประสาทเทียมเพื่อพ่นภาพสำหรับแต่ละฉลากนั้นไม่ใช่เรื่องยาก - เราสามารถกำหนดป้ายแล้ว ปรับเวกเตอร์อินพุตให้เหมาะสม อย่างไรก็ตามส่วนที่น่าสนใจของความฝันที่ลึกล้ำก็คือมันทำแบบนี้ต่อเลเยอร์และในเรื่องนี้ฉันไม่ค่อยแน่ใจว่ามันจะเน้นรายละเอียดอย่างไรต่อเลเยอร์ แน่นอนว่าการป้อนภาพจะให้คุณค่ากับคุณในแต่ละเซลล์ประสาท แต่ถ้าเช่นนั้นเราจะใช้ข้อมูลนั้นเพื่ออธิบายรายละเอียดที่เกินจริงในภาพต้นฉบับได้อย่างไร ฉันพยายามหารายละเอียดเพิ่มเติมเกี่ยวกับเรื่องนี้ การอ้างอิง: ที่นี่ vzn ตอบคำถามที่คล้ายกัน: https://cs.stackexchange.com/a/44857/49671 จากลิงก์นั้นมีการนำ Deepdream มาใช้ที่นี่: http://auduno.com/post/125362849838/visualizing-googlenet-classes ยกเว้นว่ามันจะไม่มีคุณสมบัติที่พูดเกินจริงตามที่กล่าวไว้ที่นี่: http://googleresearch.blogspot.com/2015/06/inceptionism-going-deeper-into-neural.html ที่ซึ่งทั้งคู่แสดงการสร้างภาพข้อมูลของคลาสเฉพาะและเลเยอร์เฉพาะและพูดว่า: แทนที่จะกำหนดคุณสมบัติที่เราต้องการให้เครือข่ายขยายแน่นอนเราสามารถปล่อยให้เครือข่ายตัดสินใจได้ ในกรณีนี้เราเพียงแค่ป้อนรูปภาพหรือรูปภาพตามอำเภอใจของเครือข่ายและให้เครือข่ายวิเคราะห์รูปภาพ จากนั้นเราเลือกเลเยอร์และขอให้เครือข่ายปรับปรุงสิ่งที่ตรวจพบ

1
วิธีตรวจจับแสงแดดในภาพถ่าย
คุณจะตรวจจับอัลกอริธึมสำหรับภาพถ่ายที่ได้รับอย่างไรไม่ว่าดวงอาทิตย์จะส่องแสงเมื่อถ่ายภาพหรือไม่? ตัวอย่าง ตัวอย่างจากเว็บแคมนี้ที่ด้านบนภูเขา: เห็นได้ชัดว่าดวงอาทิตย์กำลังส่องแสง ในตัวอย่างอื่นนี้มันชัดเจนน้อยกว่ามาก: บางคนอาจตรวจจับได้ง่ายว่าจะเป็นหมอกหรือไม่โดยพยายามระบุยอดโบสถ์เล็ก ๆ ในโบสถ์ที่อยู่ตรงกลาง อย่างไรก็ตามการรู้เพียงเล็กน้อยเกี่ยวกับการประมวลผลภาพฉันจะแปลกใจหากมีอัลกอริทึม (การรวมกันของ) ที่สามารถบอกได้อย่างน่าเชื่อถือว่ามีแสงแดดหรือไม่

1
การรับรู้ทางน้ำในภาพถ่ายทางอากาศ - รูปหลายเหลี่ยมจากภาพการตรวจจับขอบ
ฉันกำลังพยายามจดจำเส้นทางน้ำจากภาพถ่ายทางอากาศ (พูดจาก Google Maps) รัฐบาลท้องถิ่นมักจะมีข้อมูล GIS ที่บอกว่าทางน้ำ (และถนนอาคาร ฯลฯ ) อยู่ที่ไหน แต่ข้อมูลน้ำในนั้นมักจะไม่ถูกต้องบ้างและเราอาจปรับปรุงให้ดีขึ้นโดยใช้ภาพถ่ายทางอากาศ ดังนั้นเราจึงมีข้อมูลบางอย่างที่ไม่น่าเชื่อถือเสมอไป ฉันรู้วิธีการประมวลผลข้อมูลภาพขั้นพื้นฐาน (น่าเสียดายที่ฉันยังไม่มีภาพตัวอย่างที่จะแสดงที่นี่ฉันพยายามจินตนาการว่าฉันสามารถทำสิ่งนี้ได้อย่างไรไม่มีรหัสที่ใช้งานได้): ฉันสามารถรวบรวมชุดสีบางค่าโดยใช้บิตของทางน้ำในภาพและคิดว่าพิกเซลใดที่อยู่ใกล้กับสีเหล่านี้มากที่สุดอาจใช้กับฟีเจอร์ประเภทอื่นเช่นหญ้าถนนอาคาร ฯลฯ หากฉันตั้งค่าขีด จำกัด ว่าพิกเซลใดที่ "ใกล้พอ" ฉันจะได้รับพิกเซลจำนวนหนึ่งซึ่งอาจเป็นทางน้ำ (แต่จะมีเสียงรบกวนมาก) ฉันสามารถเปลี่ยนภาพให้เป็นโทนสีเทาและใช้อัลกอริธึมการตรวจจับขอบมาตรฐานเพื่อหาว่าขอบอยู่ที่ไหน อีกครั้งสิ่งนี้ทำให้ฉันมีพิกเซลเหมือนขอบเขต แต่จะมีจุดรบกวนและขอบจะคิดเกินไปและ / หรือมีช่องว่าง สิ่งที่ฉันต้องการเป็นผลลัพธ์คือชุดของรูปหลายเหลี่ยมที่แสดงถึงเส้นทางน้ำที่เป็นไปได้ ฉันต้องการใช้ขอบที่ตรวจพบเพื่อสร้างรูปหลายเหลี่ยมและข้อมูลสีเพื่อตัดสินใจว่าส่วนใดของน้ำซึ่งอาจใช้ประโยชน์จากข้อมูลรัฐบาลที่เรามีอยู่แล้ว มีวิธีทราบจากผลลัพธ์ของอัลกอริธึมการตรวจจับขอบไปจนถึงชุดรูปหลายเหลี่ยมปิดที่ดีหรือไม่? หรือเคล็ดลับอื่น ๆ เกี่ยวกับวิธีการแก้ไขปัญหานี้หากมีวิธีที่ดีกว่า
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.