ซีเอ็นเอ็นจะเรียนรู้ที่จะจดจำรูปแบบข้ามอวกาศ ดังนั้นตามที่คุณพูดซีเอ็นเอ็นจะเรียนรู้ที่จะรู้จักองค์ประกอบของรูปภาพ (เช่นเส้นโค้งและอื่น ๆ ) จากนั้นเรียนรู้ที่จะรวมส่วนประกอบเหล่านี้เพื่อรับรู้โครงสร้างที่มีขนาดใหญ่ขึ้น (เช่นใบหน้าวัตถุ ฯลฯ )
คุณสามารถพูดได้ว่าโดยทั่วไปแล้ว RNN จะเรียนรู้ที่จะจดจำรูปแบบในเวลาเดียวกัน ดังนั้น RNN ที่ได้รับการฝึกฝนให้แปลข้อความอาจเรียนรู้ว่า "สุนัข" ควรได้รับการแปลต่างกันหากคำว่า "ร้อน" นำหน้า
อย่างไรก็ตามกลไกที่ NNs สองชนิดแสดงถึงรูปแบบเหล่านี้แตกต่างกัน ในกรณีของ CNN คุณกำลังมองหารูปแบบเดียวกันกับฟิลด์ย่อยที่แตกต่างกันทั้งหมดของภาพ ในกรณีของ RNN คุณ (ในกรณีที่ง่ายที่สุด) ให้อาหารเลเยอร์ที่ซ่อนจากขั้นตอนก่อนหน้าเป็นข้อมูลเพิ่มเติมในขั้นตอนถัดไป ในขณะที่ RNN สร้างหน่วยความจำในกระบวนการนี้มันไม่ได้มองหารูปแบบเดียวกันในช่วงเวลาที่แตกต่างกันในแบบเดียวกับที่ CNN กำลังมองหารูปแบบเดียวกันในพื้นที่ที่แตกต่างกัน
ฉันควรทราบด้วยว่าเมื่อฉันพูดว่า "เวลา" และ "ที่ว่าง" ที่นี่มันก็ไม่ควรที่จะถูกเกินไป คุณสามารถเรียกใช้ RNN ในภาพเดียวสำหรับการใส่คำบรรยายภาพและความหมายของ "เวลา" จะเป็นเพียงลำดับของการประมวลผลส่วนต่าง ๆ ของภาพ ดังนั้นการประมวลผลวัตถุในขั้นต้นจะแจ้งให้ทราบถึงคำบรรยายของวัตถุที่ดำเนินการในภายหลัง