จริง ๆ แล้วมีการขาดทฤษฎีพื้นฐานในการเรียนรู้ลึก


10

ฉันได้ยินหลายครั้งว่าหนึ่งในปัญหาพื้นฐาน / เปิดของการเรียนรู้ลึกคือการขาด "ทฤษฎีทั่วไป" เพราะจริง ๆ แล้วเราไม่รู้ว่าทำไมการเรียนรู้ลึกจึงทำงานได้ดี แม้หน้าวิกิพีเดียในการเรียนรู้ลึกมีความเห็นคล้ายกัน ข้อความดังกล่าวเป็นที่น่าเชื่อถือและเป็นตัวแทนของรัฐภาคสนามหรือไม่?

คำตอบ:


5

มีกระดาษที่เรียกว่าทำไมการเรียนรู้ลึกถึงทำงานได้ดี? .

"อย่างไรก็ตามมันยังไม่เข้าใจอย่างเต็มที่ว่าทำไมการเรียนรู้ลึกถึงทำงานได้ดีในทางตรงกันข้ามกับอัลกอริธึม GOFAI (“ AI ที่ล้าสมัยดี”) ที่สร้างขึ้นด้วยมือและเข้าใจอย่างถ่องแท้ ในระดับการเรียนรู้ด้วยการรู้รู้ว่าโปรโตคอลการฝึกอบรมบางอย่างที่ใช้ชุดข้อมูลขนาดใหญ่จะส่งผลให้เกิดประสิทธิภาพที่ยอดเยี่ยมนี่คือการระลึกถึงสถานการณ์ที่เกิดขึ้นกับสมองมนุษย์: เรารู้ว่าถ้าเราฝึกอบรมเด็กตามหลักสูตรที่กำหนด ทักษะ - แต่เราขาดความเข้าใจอย่างถ่องแท้ว่าสมองของเธอประสบความสำเร็จได้อย่างไร "


3

กรณีนี้เป็นอย่างมาก รูปแบบการเรียนรู้ลึก ๆ แม้แต่คนที่มีระดับตื้นเช่น autoencoders แบบซ้อนและโครงข่ายประสาทเทียมยังไม่เข้าใจ มีความพยายามที่จะเข้าใจสิ่งที่เกิดขึ้นกับกระบวนการปรับให้เหมาะสมสำหรับฟังก์ชั่นที่ซับซ้อนของตัวแปรที่ซับซ้อน แต่นี่เป็นงานที่ยาก

วิธีหนึ่งที่นักวิจัยใช้เพื่อค้นพบว่าการเรียนรู้อย่างลึกซึ้งนั้นเกิดขึ้นได้อย่างไรโดยใช้แบบจำลองเชิงกำเนิด ก่อนอื่นเราจะฝึกอัลกอริทึมการเรียนรู้และแต้มต่ออย่างเป็นระบบในขณะที่ขอให้มันสร้างตัวอย่าง โดยการสังเกตตัวอย่างที่เกิดขึ้นเราจะสามารถสรุปสิ่งที่เกิดขึ้นในอัลกอริทึมในระดับที่มีความสำคัญมากขึ้น มันเหมือนกับการใช้สารยับยั้งในระบบประสาทเพื่อทำความเข้าใจว่าส่วนประกอบต่าง ๆ ของสมองถูกนำมาใช้เพื่ออะไร ตัวอย่างเช่นเรารู้ว่าเยื่อหุ้มสมองที่มองเห็นอยู่ตรงไหนเพราะถ้าเราทำลายมันคุณจะตาบอด


2

มันอาจขึ้นอยู่กับความหมายของ "ทฤษฎีพื้นฐาน" แต่ไม่มีทฤษฎีเชิงปริมาณที่เข้มงวดในการเรียนรู้ลึกซึ่งบางส่วนก็เป็นเรื่องทั่วไปแม้จะอ้างว่าตรงกันข้าม

ตัวอย่างที่ดีอย่างหนึ่งคือการทำงานเกี่ยวกับวิธีการใช้พลังงานเพื่อการเรียนรู้ ดูตัวอย่างงานของ Neal & Hinton เกี่ยวกับการอนุมานแบบแปรผันและพลังงานฟรี: http://www.cs.toronto.edu/~fritz/absps/emk.pdf

คู่มือนี้เพื่อลดการใช้พลังงานในฐานะ "กรอบทฤษฎีทั่วไปสำหรับแบบจำลองการเรียนรู้จำนวนมาก" โดย Yann LeCun และเพื่อนร่วมงาน: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf

และกรอบทั่วไปสำหรับแบบจำลองพลังงานโดย Scellier และ Bengio: https://arxiv.org/pdf/1602.05179.pdf

นอกจากนี้ยังมีงานก่อนหน้าของ Hinton & Sejnowski ซึ่งแสดงให้เห็นว่ามีการวิเคราะห์ว่าเครือข่ายที่ได้รับแรงบันดาลใจจาก Hopfield + อัลกอริทึมการเรียนรู้ที่ไม่ได้รับการฝึกอบรมสามารถประมาณการอนุมาน Bayes: https://papers.cnl.salk.edu/PDFs/Optimal%20Inference%201983 -646.pdf

มีเอกสารจำนวนมากที่เชื่อมโยงการเรียนรู้เชิงลึกกับทฤษฎีทางประสาทเช่นกันดังต่อไปนี้ซึ่งแสดงให้เห็นว่าผลของการ backpropagation สามารถเกิดขึ้นได้ในสถาปัตยกรรมทางประสาทที่มีเหตุผล: https://arxiv.org/pdf/1411.0247.pdf

แน่นอนว่ามีคำถามเปิดมากมายและไม่มีทฤษฎีสหพันธ์ uncontroverisal เดียว แต่สามารถพูดได้ในเกือบทุกสาขา


1

คำพูดของวิกิพีเดียของคุณเป็นที่น่าสงสัยเพราะการเรียนรู้ที่พัฒนาขึ้น อันที่จริงมีอยู่[citation needed]ในหน้า Wikipedia

ดูhttps://github.com/terryum/awesome-deep-learning-papers มีลิงก์อยู่ในเอกสารประมาณ 100 ฉบับคุณยังคิดว่าการเรียนรู้แบบลึกขาด "ทฤษฎีทั่วไป" หรือไม่?

ใช่. การเรียนรู้อย่างลึกซึ้งนั้นยากที่จะเข้าใจเพราะเป็นแบบจำลองที่ซับซ้อนมาก แต่นั่นไม่ได้หมายความว่าเราไม่มีทฤษฎี

อาจเป็นlimeแพ็คเกจและเป็นกระดาษ: "ทำไมฉันจึงควรเชื่อใจคุณ?": การอธิบายการคาดการณ์ของลักษณนามใด ๆจะช่วยคุณได้ บทความแนะนำว่าเราควรจะสามารถประมาณโมเดลที่ซับซ้อน (รวมถึงการเรียนรู้ลึก) ในพื้นที่ด้วยโมเดลที่ง่ายกว่ามาก


3
แอปพลิเคชั่นที่น่าสนใจมากมายไม่ได้หมายความว่าแอปพลิเคชันเหล่านั้นได้รับการพัฒนาตามกระบวนการที่เข้มงวด "อืม ... บางทีฉันควรลอง 8 เลเยอร์แทนใช่มั้ยมันใช้งานได้ดีเยี่ยมแล้วเราจะเผยแพร่ผลลัพธ์"
Chris Anderson

2
"การเรียนรู้ลึกนั้นยากที่จะเข้าใจเพราะมันเป็นแบบจำลองที่ซับซ้อนมาก แต่นั่นไม่ได้หมายความว่าเราไม่มีทฤษฎี" จริง แต่เราก็ไม่มีทฤษฎีเช่นกัน มีความเข้าใจทางคณิตศาสตร์น้อยมากเกี่ยวกับเทคนิคต่าง ๆ ในวรรณคดี คำอธิบายส่วนใหญ่เกี่ยวกับวิธีการทำงานของการเรียนรู้ลึกหรือไม่นั้นขึ้นอยู่กับสัญชาตญาณและประสบการณ์นิยมซึ่งไม่เป็นไร แต่ไม่ได้เป็นทฤษฎี IMO
user27182

0

คำถามสำคัญที่ยังคงอยู่ในทฤษฎีของการเรียนรู้อย่างลึกซึ้งคือเหตุผลว่าทำไมโมเดลขนาดใหญ่เช่นนี้ (ที่มีพารามิเตอร์มากกว่าจุดข้อมูล) จึงไม่เหมาะสมกับชุดข้อมูลที่เราใช้

ทฤษฎีคลาสสิกตามมาตรการความซับซ้อนไม่ได้อธิบายพฤติกรรมของเครือข่ายประสาทจริง ตัวอย่างเช่นการประมาณของมิติข้อมูล VC ให้ขอบเขตทั่วไปที่ว่างเปล่า เท่าที่ฉันรู้ขอบเขตที่แคบที่สุด (บนและล่าง) บนมิติ VC นั้นจะกำหนดไว้ใน [1] และอยู่ในลำดับของจำนวนน้ำหนักในเครือข่าย เห็นได้ชัดว่าความซับซ้อนของกรณีที่เลวร้ายที่สุดนี้ไม่สามารถอธิบายได้ว่าทำไมเครือข่าย resnet ใหญ่ ๆ ใน CIFAR หรือ MNIST

เมื่อเร็ว ๆ นี้มีความพยายามอื่น ๆ ในการทำให้มั่นใจว่าการวางนัยทั่วไปสำหรับโครงข่ายประสาทเทียมเช่นโดยสัมพันธ์กับเคอร์เนลแทนเจนต์หรือโดยมาตรการเชิงบรรทัดฐานต่างๆเกี่ยวกับน้ำหนัก ตามลำดับสิ่งเหล่านี้พบว่าไม่ได้ใช้กับเครือข่ายขนาดจริงและมีคุณสมบัติที่ไม่น่าพอใจอื่น ๆ [2]

มีงานบางอย่างในกรอบ PAC Bayes สำหรับขอบเขตที่ไม่ว่างเช่น [3] อย่างไรก็ตามการตั้งค่าเหล่านี้ต้องการความรู้เกี่ยวกับเครือข่ายที่ผ่านการฝึกอบรมและมีความแตกต่างในด้านรสชาติของการวิเคราะห์ PAC แบบดั้งเดิม

แง่มุมอื่น ๆ :

  • การปรับให้เหมาะสม: ทำไมเราถึงได้คำตอบที่ 'ดี' จากการไล่ระดับสีของปัญหาที่ไม่นูนออกมา? (มีคำตอบบางประการสำหรับเรื่องนี้ในวรรณคดีล่าสุด)

  • การตีความ: เราสามารถอธิบายในระดับที่เข้าใจง่ายว่าเครือข่ายคือ 'ความคิด' หรือไม่? (ไม่ใช่พื้นที่ของฉัน)

การอ้างอิง (ไม่สมบูรณ์):


0

ฉันต้องการชี้ให้เห็นว่าไม่มีทฤษฎีที่ดีเกี่ยวกับสาเหตุที่การเรียนรู้ด้วยเครื่องจักรโดยทั่วไป ขอบเขต VC ยังถือว่าเป็นแบบจำลอง แต่ความเป็นจริงไม่เหมาะกับอุดมคติทางคณิตศาสตร์เหล่านี้ ในที่สุดเมื่อมันมาถึงการประยุกต์ใช้ทุกอย่างลงมาเพื่อผลลัพธ์ที่เร้าอารมณ์ แม้การหาปริมาณความคล้ายคลึงกันระหว่างภาพโดยใช้อัลกอริธึมที่สอดคล้องกับความเข้าใจที่เข้าใจง่ายของมนุษย์ก็ยากจริงๆ

อย่างไรก็ตาม NN ไม่ทำงานได้ดีในรูปแบบที่เชื่อมต่ออย่างสมบูรณ์ เครือข่ายที่ประสบความสำเร็จทั้งหมดมีการทำให้เป็นมาตรฐานบางอย่างที่สร้างไว้ในสถาปัตยกรรมเครือข่าย (CNN, LSTM และอื่น ๆ )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.