ตามคำแนะนำของ OP rcpinto ฉันได้เปลี่ยนความคิดเห็นเกี่ยวกับการเห็น "รอบ ๆ เอกสารครึ่งโหลที่ติดตามงานของ Graves และคณะซึ่งได้สร้างผลลัพธ์ของความสามารถ" และจะให้ลิงก์บางส่วน โปรดทราบว่านี่เป็นเพียงคำตอบของคำถามที่เกี่ยวข้องกับ NTM ไม่ใช่ Google DeepMind เองรวมถึงฉันยังคงเรียนรู้เกี่ยวกับการเรียนรู้ของเครื่องจักรดังนั้นเนื้อหาในเอกสารเหล่านี้จึงอยู่เหนือหัวของฉัน ฉันพยายามที่จะเข้าใจเนื้อหาส่วนใหญ่ในกระดาษดั้งเดิมของ Graves และคณะ {1] แม้ว่าและใกล้เคียงกับการใช้รหัส NTM แบบพื้นบ้านเพื่อทดสอบ อย่างน้อยฉันก็อ่านบทความต่อไปนี้ในช่วงสองสามเดือนที่ผ่านมา; พวกเขาไม่ทำซ้ำการศึกษา NTM ในลักษณะทางวิทยาศาสตร์ที่เข้มงวด แต่ผลการทดลองจำนวนมากของพวกเขามีแนวโน้มที่จะสนับสนุนต้นฉบับอย่างน้อยเป็นรูป ๆ :
•ในบทความนี้ในรุ่นที่แตกต่างของการกำหนดแอดเดรส NTM, Gulcehere และอื่น ๆ อย่าพยายามทำซ้ำการทดสอบของ Graves และคณะ แต่ก็เหมือนกับทีม DeepMind มันแสดงให้เห็นผลลัพธ์ที่ดีกว่าอย่างชัดเจนสำหรับ NTM ดั้งเดิมและตัวแปรหลายตัวใน LSTM ที่เกิดซ้ำแบบธรรมดา พวกเขาใช้ตัวอย่างการฝึกอบรมของชุดข้อมูลถาม - ตอบบน Facebook มากกว่า 10,000 รายการแทนที่จะเป็น N-grams Graves et al ดำเนินการในกระดาษของพวกเขาดังนั้นจึงไม่จำลองแบบในความหมายที่เข้มงวดที่สุด อย่างไรก็ตามพวกเขาจัดการเพื่อให้ได้ NTM ดั้งเดิมและหลายรุ่นขึ้นไปและทำงานพร้อมบันทึกขนาดเดียวกันของการปรับปรุงประสิทธิภาพ 2
•แตกต่างจาก NTM ดั้งเดิมการศึกษานี้ทดสอบรุ่นของการเรียนรู้การเสริมแรงซึ่งไม่แตกต่างกัน นั่นอาจเป็นเหตุผลว่าทำไมพวกเขาจึงไม่สามารถแก้ปัญหาการเขียนโปรแกรมที่คล้ายกันหลายอย่างเช่นการทำซ้ำ - คัดลอกได้เว้นแต่ว่าตัวควบคุมจะไม่ถูก จำกัด ให้เคลื่อนที่ไปข้างหน้า ผลของพวกเขายังดีพอที่จะให้การสนับสนุนแนวคิดของ NTM มีการแก้ไขรายงานของพวกเขาเมื่อเร็ว ๆ นี้ซึ่งฉันยังไม่ได้อ่านดังนั้นอาจมีการแก้ไขปัญหาของตัวแปรบางอย่าง 3
•แทนที่จะทดสอบรสชาติดั้งเดิมของ NTM เทียบกับมุ้งประสาททั่วไปเช่น LSTMs กระดาษนี้จะรับมือกับโครงสร้างหน่วยความจำ NTM ขั้นสูงหลายอย่าง พวกเขาได้ผลลัพธ์ที่ดีในงานที่คล้ายกับการเขียนโปรแกรมแบบเดียวกับที่ Graves และคณะ ผ่านการทดสอบแล้ว แต่ฉันไม่คิดว่าพวกเขาใช้ชุดข้อมูลเดียวกัน (เป็นการยากที่จะบอกได้ว่าวิธีการศึกษาของพวกเขาถูกเขียนแค่ชุดข้อมูลใดที่พวกเขาใช้งานอยู่) 4
•ในหน้า 8 ของการศึกษานี้ NTM ชัดเจนว่ามีประสิทธิภาพเหนือกว่าหลาย LSTM, ฟีดไปข้างหน้าและแบบเพื่อนบ้านที่ใกล้ที่สุดบนชุดข้อมูลการรู้จำอักขระ Omniglot ทางเลือกอื่นสำหรับหน่วยความจำภายนอกที่ปรุงโดยผู้แต่งจะเต้นได้อย่างชัดเจน แต่ก็ยังทำงานได้ดีอย่างเห็นได้ชัด ผู้เขียนดูเหมือนจะเป็นของทีมคู่แข่งที่ Google ดังนั้นอาจเป็นปัญหาเมื่อประเมินความสามารถในการจำลองแบบได้ 5
•ในหน้า ผู้เขียนเหล่านี้ 2 รายงานว่าการวางนัยทั่วไปที่ดีขึ้นสำหรับ "ลำดับที่มีขนาดใหญ่มาก" ในการทดสอบการทำสำเนาโดยใช้เครือข่าย NTM ที่เล็กกว่ามาก 6
NTM นั้นค่อนข้างใหม่ดังนั้นจึงไม่มีเวลามากพอที่จะทำซ้ำงานวิจัยต้นฉบับอย่างเข้มงวด อย่างไรก็ตามกระดาษจำนวนหนึ่งที่ฉันอ่านไม่ออกในช่วงฤดูร้อนนั้นดูเหมือนจะให้การสนับสนุนกับผลการทดลองของพวกเขา ฉันยังไม่เห็นสิ่งใดที่รายงานอะไรนอกจากประสิทธิภาพที่ยอดเยี่ยม แน่นอนว่าฉันมีอคติเนื่องจากฉันอ่านไฟล์ PDF ที่ฉันพบได้ง่ายในการค้นหาทางอินเทอร์เน็ตเท่านั้น จากตัวอย่างขนาดเล็กนั้นดูเหมือนว่าการวิจัยติดตามผลส่วนใหญ่มุ่งเน้นที่การขยายแนวคิดไม่ใช่การจำลองแบบซึ่งจะอธิบายการขาดข้อมูลการทำซ้ำ ฉันหวังว่าจะช่วย
1หลุมฝังศพอเล็กซ์; Wayne, Greg และ Danihelka, Ivo, 2014, "Neural Turing Machines," ตีพิมพ์เมื่อวันที่ 10 ธันวาคม 2014
2 Gulcehre, Caglar; Chandar, Sarath; Choy, Kyunghyun และ Bengio, Yoshua, 2016, "เครื่องทัวริงระบบประสาทแบบไดนามิกพร้อมระบบกำหนดแอดเดรสแบบนุ่มและแบบแข็ง" เผยแพร่เมื่อ 30 มิถุนายน 2016
3 Zaremba, Wojciech และ Sutskever, Ilya, 2015, "การเสริมแรงด้วยการเรียนรู้เครื่องทัวริงระบบประสาท" เผยแพร่เมื่อ 4 พฤษภาคม 2015
4จาง; เหว่ย; Yu, Yang และ Zhou, Bowen, 2015, "หน่วยความจำที่มีโครงสร้างสำหรับเครื่องทัวริงประสาท" เผยแพร่เมื่อ 25 ตุลาคม 2015
5 Santoro อดัม; Bartunov, Sergey; Botvinick แมทธิว; Wierstra, Daan และ Lillicrap, Timothy, 2016, "One-Shot Learning กับ Memory-Augmented Neural Networks," ตีพิมพ์เมื่อวันที่ 19 พฤษภาคม 2559
6 Boll Greve, Rasmus; Jacobsen, Emil Juul และ Sebastian Risi, ไม่ทราบวันที่ "เครื่องจักรทัวริงระบบประสาท" ไม่มีรายชื่อผู้เผยแพร่
ทั้งหมดยกเว้น (อาจ) Boll Greve และคณะ ถูกตีพิมพ์ที่คลังเก็บของมหาวิทยาลัยคอร์เนลล์ arXiv.org Repository: Ithaca, New York