มาตราส่วน "คอมพิวเตอร์นิวรัลนิฟท์" ใหม่ของ Deepmind จะเป็นอย่างไร

Deepmind เผยแพร่เพียงกระดาษเกี่ยวกับ"คอมพิวเตอร์ประสาทอนุพันธ์"ซึ่งโดยทั่วไปรวมโครงข่ายประสาทเทียมที่มีหน่วยความจำ

ความคิดคือการสอนเครือข่ายประสาทเทียมเพื่อสร้างและเรียกคืนความทรงจำที่ชัดเจนที่มีประโยชน์สำหรับงานบางอย่าง สิ่งนี้จะช่วยเสริมความสามารถของโครงข่ายประสาทเทียมได้ดีเนื่องจาก NNs เก็บความรู้ไว้เฉพาะในน้ำหนักและข้อมูลที่ใช้ในการทำงานในภารกิจเดียวนั้นจะถูกเก็บไว้ในการเปิดใช้งานเครือข่ายเท่านั้น ( LSTMsเป็นหนึ่งพยายามที่จะชะลอความเสื่อมของความทรงจำระยะสั้น แต่มันก็ยังเกิดขึ้น)

ตอนนี้แทนที่จะเก็บข้อมูลที่จำเป็นในการเปิดใช้งานพวกเขาน่าจะเก็บที่อยู่ของช่องเสียบหน่วยความจำสำหรับข้อมูลเฉพาะในการเปิดใช้งานดังนั้นสิ่งเหล่านี้ควรอยู่ภายใต้การย่อยสลาย คำถามของฉันคือเหตุผลที่วิธีการนี้ควรปรับขนาด ไม่ควรมีข้อมูลเฉพาะจำนวนงานที่ค่อนข้างสูงกว่าความสามารถของเครือข่ายในการรักษาที่อยู่ของสล็อตหน่วยความจำที่เหมาะสมทั้งหมดในการเปิดใช้งาน

deep-learning ai-design

— BlindKungFuMaster
แหล่งที่มา

ตรวจสอบสถาปัตยกรรมของ DNC ที่แน่นอนแสดงให้เห็นถึงความคล้ายคลึงกันมากที่จะ LSTM พิจารณาไดอะแกรมในบทความ DeepMind ที่คุณเชื่อมโยงกับ:

เปรียบเทียบสิ่งนี้กับสถาปัตยกรรม LSTM (เครดิตกับ ananth บน SlideShare):

มี analogs ใกล้เคียงอยู่ที่นี่:

เช่นเดียวกับ LSTM DNC จะทำการแปลงบางส่วนจากอินพุตไปเป็นเวกเตอร์สถานะคงที่ขนาด ( hและcใน LSTM)
ในทำนองเดียวกัน DNC จะทำการแปลงจากเวกเตอร์สถานะคงที่เหล่านี้ไปเป็นเอาต์พุตที่มีความยาวโดยพลการ(ใน LSTM เราสุ่มตัวอย่างจากโมเดลของเราซ้ำ ๆ จนกว่าเราจะพอใจ / โมเดลบ่งชี้ว่าเราทำเสร็จแล้ว)
ประตูการลืมและอินพุตของ LSTM เป็นตัวแทนของการดำเนินการเขียนใน DNC ('การลืม' เป็นหลักเพียงแค่การ zeroing หรือหน่วยความจำศูนย์บางส่วน)
ส่งออกประตู LSTM หมายถึงการอ่านการดำเนินงานใน DNC

อย่างไรก็ตาม DNC นั้นเป็นมากกว่า LSTM แน่นอน เห็นได้ชัดว่ามันใช้สถานะขนาดใหญ่ซึ่ง discretized (addressable) เป็นชิ้น; สิ่งนี้ทำให้มันสามารถทำให้ลืมประตูของ LSTM ได้มากขึ้น จากนี้ฉันหมายความว่ารัฐไม่จำเป็นต้องถูกกัดเซาะโดยเศษส่วนบางส่วนในทุกขั้นตอนในขณะที่ใน LSTM (ด้วยฟังก์ชั่นการเปิดใช้งาน sigmoid) มันจำเป็นต้องเป็น วิธีนี้อาจช่วยลดปัญหาการเกิดภัยพิบัติที่ทำให้คุณลืมเรื่องที่กล่าวถึงไปได้

DNC ยังแปลกใหม่ในลิงก์ที่ใช้ระหว่างหน่วยความจำ อย่างไรก็ตามนี่อาจเป็นการปรับปรุงเล็กน้อยบน LSTM มากกว่าที่เราคิดว่า LSTM มีโครงข่ายประสาทที่สมบูรณ์สำหรับแต่ละประตูแทนที่จะเป็นเพียงชั้นเดียวที่มีฟังก์ชั่นการเปิดใช้งาน (เรียกสิ่งนี้ว่า super-LSTM) ในกรณีนี้เราสามารถเรียนรู้ความสัมพันธ์ระหว่างสองสล็อตในหน่วยความจำกับเครือข่ายที่ทรงพลังเพียงพอ ในขณะที่ฉันไม่ทราบเฉพาะลิงก์ที่ DeepMind แนะนำ แต่พวกเขาบอกเป็นนัยในบทความว่าพวกเขากำลังเรียนรู้ทุกอย่างโดยการไล่ระดับสีกลับคืนเช่นเครือข่ายประสาทปกติ ดังนั้นความสัมพันธ์ใด ๆ ก็ตามที่พวกเขาเข้ารหัสในการเชื่อมโยงของพวกเขาในทางทฤษฎีควรเรียนรู้ได้โดยเครือข่ายประสาทและดังนั้น 'super-LSTM' ที่ทรงพลังพอสมควรจึงจะสามารถจับภาพได้

จากสิ่งที่กล่าวมาทั้งหมดมักจะเป็นกรณีของการเรียนรู้อย่างลึกซึ้งว่าแบบจำลองทั้งสองที่มีความสามารถทางทฤษฎีเดียวกันสำหรับการแสดงออกนั้นมีความแตกต่างกันอย่างมากในทางปฏิบัติ ตัวอย่างเช่นพิจารณาว่าเครือข่ายที่เกิดขึ้นซ้ำสามารถแสดงเป็นเครือข่ายฟีดไปข้างหน้าขนาดใหญ่หากเราเพิ่งเปิดใช้งาน ในทำนองเดียวกันเครือข่าย convolutional นั้นไม่ได้ดีไปกว่าเครือข่าย vanilla neural เพราะมันมีความสามารถเพิ่มขึ้นสำหรับการแสดงออก ในความเป็นจริงมันเป็นข้อ จำกัด ที่กำหนดน้ำหนักของมันที่ทำให้มีประสิทธิภาพมากขึ้น ดังนั้นการเปรียบเทียบความหมายของทั้งสองรุ่นจึงไม่จำเป็นต้องเป็นการเปรียบเทียบประสิทธิภาพที่เป็นธรรมในทางปฏิบัติหรือการประมาณการที่แม่นยำว่าจะปรับขนาดได้ดีเพียงใด

คำถามหนึ่งที่ฉันมีเกี่ยวกับ DNC คือสิ่งที่เกิดขึ้นเมื่อหน่วยความจำไม่เพียงพอ เมื่อคอมพิวเตอร์แบบคลาสสิคหมดหน่วยความจำและมีการร้องขอบล็อกหน่วยความจำอื่นโปรแกรมจะเริ่มทำงานขัดข้อง (อย่างดีที่สุด) ฉันอยากรู้ว่า DeepMind มีแผนที่จะจัดการเรื่องนี้อย่างไร ฉันคิดว่ามันจะขึ้นอยู่กับการใช้งานหน่วยความจำของมนุษย์ในปัจจุบัน ในบางกรณีคอมพิวเตอร์กำลังทำเช่นนี้เมื่อระบบปฏิบัติการร้องขอให้แอปพลิเคชันเพิ่มหน่วยความจำที่ไม่สำคัญหากความดันหน่วยความจำถึงเกณฑ์ที่กำหนด

— eric.mitchell
แหล่งที่มา