คำตอบ:
มีกระดาษที่เรียกว่าทำไมการเรียนรู้ลึกถึงทำงานได้ดี? .
"อย่างไรก็ตามมันยังไม่เข้าใจอย่างเต็มที่ว่าทำไมการเรียนรู้ลึกถึงทำงานได้ดีในทางตรงกันข้ามกับอัลกอริธึม GOFAI (“ AI ที่ล้าสมัยดี”) ที่สร้างขึ้นด้วยมือและเข้าใจอย่างถ่องแท้ ในระดับการเรียนรู้ด้วยการรู้รู้ว่าโปรโตคอลการฝึกอบรมบางอย่างที่ใช้ชุดข้อมูลขนาดใหญ่จะส่งผลให้เกิดประสิทธิภาพที่ยอดเยี่ยมนี่คือการระลึกถึงสถานการณ์ที่เกิดขึ้นกับสมองมนุษย์: เรารู้ว่าถ้าเราฝึกอบรมเด็กตามหลักสูตรที่กำหนด ทักษะ - แต่เราขาดความเข้าใจอย่างถ่องแท้ว่าสมองของเธอประสบความสำเร็จได้อย่างไร "
กรณีนี้เป็นอย่างมาก รูปแบบการเรียนรู้ลึก ๆ แม้แต่คนที่มีระดับตื้นเช่น autoencoders แบบซ้อนและโครงข่ายประสาทเทียมยังไม่เข้าใจ มีความพยายามที่จะเข้าใจสิ่งที่เกิดขึ้นกับกระบวนการปรับให้เหมาะสมสำหรับฟังก์ชั่นที่ซับซ้อนของตัวแปรที่ซับซ้อน แต่นี่เป็นงานที่ยาก
วิธีหนึ่งที่นักวิจัยใช้เพื่อค้นพบว่าการเรียนรู้อย่างลึกซึ้งนั้นเกิดขึ้นได้อย่างไรโดยใช้แบบจำลองเชิงกำเนิด ก่อนอื่นเราจะฝึกอัลกอริทึมการเรียนรู้และแต้มต่ออย่างเป็นระบบในขณะที่ขอให้มันสร้างตัวอย่าง โดยการสังเกตตัวอย่างที่เกิดขึ้นเราจะสามารถสรุปสิ่งที่เกิดขึ้นในอัลกอริทึมในระดับที่มีความสำคัญมากขึ้น มันเหมือนกับการใช้สารยับยั้งในระบบประสาทเพื่อทำความเข้าใจว่าส่วนประกอบต่าง ๆ ของสมองถูกนำมาใช้เพื่ออะไร ตัวอย่างเช่นเรารู้ว่าเยื่อหุ้มสมองที่มองเห็นอยู่ตรงไหนเพราะถ้าเราทำลายมันคุณจะตาบอด
มันอาจขึ้นอยู่กับความหมายของ "ทฤษฎีพื้นฐาน" แต่ไม่มีทฤษฎีเชิงปริมาณที่เข้มงวดในการเรียนรู้ลึกซึ่งบางส่วนก็เป็นเรื่องทั่วไปแม้จะอ้างว่าตรงกันข้าม
ตัวอย่างที่ดีอย่างหนึ่งคือการทำงานเกี่ยวกับวิธีการใช้พลังงานเพื่อการเรียนรู้ ดูตัวอย่างงานของ Neal & Hinton เกี่ยวกับการอนุมานแบบแปรผันและพลังงานฟรี: http://www.cs.toronto.edu/~fritz/absps/emk.pdf
คู่มือนี้เพื่อลดการใช้พลังงานในฐานะ "กรอบทฤษฎีทั่วไปสำหรับแบบจำลองการเรียนรู้จำนวนมาก" โดย Yann LeCun และเพื่อนร่วมงาน: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf
และกรอบทั่วไปสำหรับแบบจำลองพลังงานโดย Scellier และ Bengio: https://arxiv.org/pdf/1602.05179.pdf
นอกจากนี้ยังมีงานก่อนหน้าของ Hinton & Sejnowski ซึ่งแสดงให้เห็นว่ามีการวิเคราะห์ว่าเครือข่ายที่ได้รับแรงบันดาลใจจาก Hopfield + อัลกอริทึมการเรียนรู้ที่ไม่ได้รับการฝึกอบรมสามารถประมาณการอนุมาน Bayes: https://papers.cnl.salk.edu/PDFs/Optimal%20Inference%201983 -646.pdf
มีเอกสารจำนวนมากที่เชื่อมโยงการเรียนรู้เชิงลึกกับทฤษฎีทางประสาทเช่นกันดังต่อไปนี้ซึ่งแสดงให้เห็นว่าผลของการ backpropagation สามารถเกิดขึ้นได้ในสถาปัตยกรรมทางประสาทที่มีเหตุผล: https://arxiv.org/pdf/1411.0247.pdf
แน่นอนว่ามีคำถามเปิดมากมายและไม่มีทฤษฎีสหพันธ์ uncontroverisal เดียว แต่สามารถพูดได้ในเกือบทุกสาขา
คำพูดของวิกิพีเดียของคุณเป็นที่น่าสงสัยเพราะการเรียนรู้ที่พัฒนาขึ้น อันที่จริงมีอยู่[citation needed]
ในหน้า Wikipedia
ดูhttps://github.com/terryum/awesome-deep-learning-papers มีลิงก์อยู่ในเอกสารประมาณ 100 ฉบับคุณยังคิดว่าการเรียนรู้แบบลึกขาด "ทฤษฎีทั่วไป" หรือไม่?
ใช่. การเรียนรู้อย่างลึกซึ้งนั้นยากที่จะเข้าใจเพราะเป็นแบบจำลองที่ซับซ้อนมาก แต่นั่นไม่ได้หมายความว่าเราไม่มีทฤษฎี
อาจเป็นlime
แพ็คเกจและเป็นกระดาษ: "ทำไมฉันจึงควรเชื่อใจคุณ?": การอธิบายการคาดการณ์ของลักษณนามใด ๆจะช่วยคุณได้ บทความแนะนำว่าเราควรจะสามารถประมาณโมเดลที่ซับซ้อน (รวมถึงการเรียนรู้ลึก) ในพื้นที่ด้วยโมเดลที่ง่ายกว่ามาก
คำถามสำคัญที่ยังคงอยู่ในทฤษฎีของการเรียนรู้อย่างลึกซึ้งคือเหตุผลว่าทำไมโมเดลขนาดใหญ่เช่นนี้ (ที่มีพารามิเตอร์มากกว่าจุดข้อมูล) จึงไม่เหมาะสมกับชุดข้อมูลที่เราใช้
ทฤษฎีคลาสสิกตามมาตรการความซับซ้อนไม่ได้อธิบายพฤติกรรมของเครือข่ายประสาทจริง ตัวอย่างเช่นการประมาณของมิติข้อมูล VC ให้ขอบเขตทั่วไปที่ว่างเปล่า เท่าที่ฉันรู้ขอบเขตที่แคบที่สุด (บนและล่าง) บนมิติ VC นั้นจะกำหนดไว้ใน [1] และอยู่ในลำดับของจำนวนน้ำหนักในเครือข่าย เห็นได้ชัดว่าความซับซ้อนของกรณีที่เลวร้ายที่สุดนี้ไม่สามารถอธิบายได้ว่าทำไมเครือข่าย resnet ใหญ่ ๆ ใน CIFAR หรือ MNIST
เมื่อเร็ว ๆ นี้มีความพยายามอื่น ๆ ในการทำให้มั่นใจว่าการวางนัยทั่วไปสำหรับโครงข่ายประสาทเทียมเช่นโดยสัมพันธ์กับเคอร์เนลแทนเจนต์หรือโดยมาตรการเชิงบรรทัดฐานต่างๆเกี่ยวกับน้ำหนัก ตามลำดับสิ่งเหล่านี้พบว่าไม่ได้ใช้กับเครือข่ายขนาดจริงและมีคุณสมบัติที่ไม่น่าพอใจอื่น ๆ [2]
มีงานบางอย่างในกรอบ PAC Bayes สำหรับขอบเขตที่ไม่ว่างเช่น [3] อย่างไรก็ตามการตั้งค่าเหล่านี้ต้องการความรู้เกี่ยวกับเครือข่ายที่ผ่านการฝึกอบรมและมีความแตกต่างในด้านรสชาติของการวิเคราะห์ PAC แบบดั้งเดิม
แง่มุมอื่น ๆ :
การปรับให้เหมาะสม: ทำไมเราถึงได้คำตอบที่ 'ดี' จากการไล่ระดับสีของปัญหาที่ไม่นูนออกมา? (มีคำตอบบางประการสำหรับเรื่องนี้ในวรรณคดีล่าสุด)
การตีความ: เราสามารถอธิบายในระดับที่เข้าใจง่ายว่าเครือข่ายคือ 'ความคิด' หรือไม่? (ไม่ใช่พื้นที่ของฉัน)
การอ้างอิง (ไม่สมบูรณ์):
ฉันต้องการชี้ให้เห็นว่าไม่มีทฤษฎีที่ดีเกี่ยวกับสาเหตุที่การเรียนรู้ด้วยเครื่องจักรโดยทั่วไป ขอบเขต VC ยังถือว่าเป็นแบบจำลอง แต่ความเป็นจริงไม่เหมาะกับอุดมคติทางคณิตศาสตร์เหล่านี้ ในที่สุดเมื่อมันมาถึงการประยุกต์ใช้ทุกอย่างลงมาเพื่อผลลัพธ์ที่เร้าอารมณ์ แม้การหาปริมาณความคล้ายคลึงกันระหว่างภาพโดยใช้อัลกอริธึมที่สอดคล้องกับความเข้าใจที่เข้าใจง่ายของมนุษย์ก็ยากจริงๆ
อย่างไรก็ตาม NN ไม่ทำงานได้ดีในรูปแบบที่เชื่อมต่ออย่างสมบูรณ์ เครือข่ายที่ประสบความสำเร็จทั้งหมดมีการทำให้เป็นมาตรฐานบางอย่างที่สร้างไว้ในสถาปัตยกรรมเครือข่าย (CNN, LSTM และอื่น ๆ )