ตรวจสอบสถาปัตยกรรมของ DNC ที่แน่นอนแสดงให้เห็นถึงความคล้ายคลึงกันมากที่จะ LSTM พิจารณาไดอะแกรมในบทความ DeepMind ที่คุณเชื่อมโยงกับ:
เปรียบเทียบสิ่งนี้กับสถาปัตยกรรม LSTM (เครดิตกับ ananth บน SlideShare):
มี analogs ใกล้เคียงอยู่ที่นี่:
- เช่นเดียวกับ LSTM DNC จะทำการแปลงบางส่วนจากอินพุตไปเป็นเวกเตอร์สถานะคงที่ขนาด ( hและcใน LSTM)
- ในทำนองเดียวกัน DNC จะทำการแปลงจากเวกเตอร์สถานะคงที่เหล่านี้ไปเป็นเอาต์พุตที่มีความยาวโดยพลการ(ใน LSTM เราสุ่มตัวอย่างจากโมเดลของเราซ้ำ ๆ จนกว่าเราจะพอใจ / โมเดลบ่งชี้ว่าเราทำเสร็จแล้ว)
- ประตูการลืมและอินพุตของ LSTM เป็นตัวแทนของการดำเนินการเขียนใน DNC ('การลืม' เป็นหลักเพียงแค่การ zeroing หรือหน่วยความจำศูนย์บางส่วน)
- ส่งออกประตู LSTM หมายถึงการอ่านการดำเนินงานใน DNC
อย่างไรก็ตาม DNC นั้นเป็นมากกว่า LSTM แน่นอน เห็นได้ชัดว่ามันใช้สถานะขนาดใหญ่ซึ่ง discretized (addressable) เป็นชิ้น; สิ่งนี้ทำให้มันสามารถทำให้ลืมประตูของ LSTM ได้มากขึ้น จากนี้ฉันหมายความว่ารัฐไม่จำเป็นต้องถูกกัดเซาะโดยเศษส่วนบางส่วนในทุกขั้นตอนในขณะที่ใน LSTM (ด้วยฟังก์ชั่นการเปิดใช้งาน sigmoid) มันจำเป็นต้องเป็น วิธีนี้อาจช่วยลดปัญหาการเกิดภัยพิบัติที่ทำให้คุณลืมเรื่องที่กล่าวถึงไปได้
DNC ยังแปลกใหม่ในลิงก์ที่ใช้ระหว่างหน่วยความจำ อย่างไรก็ตามนี่อาจเป็นการปรับปรุงเล็กน้อยบน LSTM มากกว่าที่เราคิดว่า LSTM มีโครงข่ายประสาทที่สมบูรณ์สำหรับแต่ละประตูแทนที่จะเป็นเพียงชั้นเดียวที่มีฟังก์ชั่นการเปิดใช้งาน (เรียกสิ่งนี้ว่า super-LSTM) ในกรณีนี้เราสามารถเรียนรู้ความสัมพันธ์ระหว่างสองสล็อตในหน่วยความจำกับเครือข่ายที่ทรงพลังเพียงพอ ในขณะที่ฉันไม่ทราบเฉพาะลิงก์ที่ DeepMind แนะนำ แต่พวกเขาบอกเป็นนัยในบทความว่าพวกเขากำลังเรียนรู้ทุกอย่างโดยการไล่ระดับสีกลับคืนเช่นเครือข่ายประสาทปกติ ดังนั้นความสัมพันธ์ใด ๆ ก็ตามที่พวกเขาเข้ารหัสในการเชื่อมโยงของพวกเขาในทางทฤษฎีควรเรียนรู้ได้โดยเครือข่ายประสาทและดังนั้น 'super-LSTM' ที่ทรงพลังพอสมควรจึงจะสามารถจับภาพได้
จากสิ่งที่กล่าวมาทั้งหมดมักจะเป็นกรณีของการเรียนรู้อย่างลึกซึ้งว่าแบบจำลองทั้งสองที่มีความสามารถทางทฤษฎีเดียวกันสำหรับการแสดงออกนั้นมีความแตกต่างกันอย่างมากในทางปฏิบัติ ตัวอย่างเช่นพิจารณาว่าเครือข่ายที่เกิดขึ้นซ้ำสามารถแสดงเป็นเครือข่ายฟีดไปข้างหน้าขนาดใหญ่หากเราเพิ่งเปิดใช้งาน ในทำนองเดียวกันเครือข่าย convolutional นั้นไม่ได้ดีไปกว่าเครือข่าย vanilla neural เพราะมันมีความสามารถเพิ่มขึ้นสำหรับการแสดงออก ในความเป็นจริงมันเป็นข้อ จำกัด ที่กำหนดน้ำหนักของมันที่ทำให้มีประสิทธิภาพมากขึ้น ดังนั้นการเปรียบเทียบความหมายของทั้งสองรุ่นจึงไม่จำเป็นต้องเป็นการเปรียบเทียบประสิทธิภาพที่เป็นธรรมในทางปฏิบัติหรือการประมาณการที่แม่นยำว่าจะปรับขนาดได้ดีเพียงใด
คำถามหนึ่งที่ฉันมีเกี่ยวกับ DNC คือสิ่งที่เกิดขึ้นเมื่อหน่วยความจำไม่เพียงพอ เมื่อคอมพิวเตอร์แบบคลาสสิคหมดหน่วยความจำและมีการร้องขอบล็อกหน่วยความจำอื่นโปรแกรมจะเริ่มทำงานขัดข้อง (อย่างดีที่สุด) ฉันอยากรู้ว่า DeepMind มีแผนที่จะจัดการเรื่องนี้อย่างไร ฉันคิดว่ามันจะขึ้นอยู่กับการใช้งานหน่วยความจำของมนุษย์ในปัจจุบัน ในบางกรณีคอมพิวเตอร์กำลังทำเช่นนี้เมื่อระบบปฏิบัติการร้องขอให้แอปพลิเคชันเพิ่มหน่วยความจำที่ไม่สำคัญหากความดันหน่วยความจำถึงเกณฑ์ที่กำหนด