นี่คือข้อตกลง:
ในทางเทคนิคคุณเขียนประโยคจริง (ทั้งสองรุ่นสามารถประมาณฟังก์ชั่น 'ไม่บ้า' ให้พารามิเตอร์เพียงพอ) แต่ประโยคเหล่านั้นไม่ได้รับคุณทุกที่!
ทำไมถึงเป็นอย่างนั้น? ทีนี้ลองดูทฤษฎีการประมาณสากลหรือหลักฐานที่เป็นทางการอื่น ๆ ว่าเครือข่ายประสาทสามารถคำนวณ f (x) ใด ๆ ได้ถ้ามีเซลล์ประสาทเพียงพอ
หลักฐานทั้งหมดที่ฉันได้เห็นนั้นใช้เลเยอร์ที่ซ่อนอยู่เพียงชั้นเดียวเท่านั้น
ลองดูที่นี่http://neuralnetworksanddeeplearning.com/chap5.htmlสำหรับการใช้สัญชาตญาณ มีงานแสดงให้เห็นว่าในแง่หนึ่งจำนวนเซลล์ประสาทที่ต้องการนั้นเพิ่มขึ้นแบบทวีคูณหากคุณใช้แค่เลเยอร์เดียว
ในขณะที่ในทางทฤษฎีคุณถูกต้องในทางปฏิบัติคุณไม่มีหน่วยความจำไม่ จำกัด ดังนั้นคุณไม่ต้องการฝึกโครงข่าย 2 ^ 1,000 นิวรอนใช่ไหม? แม้ว่าคุณจะมีหน่วยความจำไม่ จำกัด จำนวนสุทธินั้นก็จะเหมาะสมอย่างแน่นอน
ในใจของฉันจุดที่สำคัญที่สุดของ ML คือจุดที่ใช้งานได้จริง! ลองขยายอีกหน่อย ปัญหาใหญ่ที่แท้จริงที่นี่ไม่ได้เป็นเพียงการเพิ่ม / ลดจำนวนพหุนามอย่างรวดเร็วนอกชุดฝึกอบรม ไม่ใช่เลย. เป็นตัวอย่างอย่างรวดเร็วพิกเซลของรูปภาพใด ๆ อยู่ในช่วงที่เฉพาะเจาะจงมาก ([0,255] สำหรับแต่ละสี RGB) ดังนั้นคุณสามารถมั่นใจได้ว่าตัวอย่างใหม่ใด ๆ จะอยู่ในช่วงของค่าชุดฝึกอบรมของคุณ ไม่เรื่องใหญ่คือ: การเปรียบเทียบนี้ไม่มีประโยชน์ในการเริ่มต้นด้วย (!)
ฉันขอแนะนำให้คุณลองทดสอบกับ MNIST สักเล็กน้อยแล้วลองดูผลลัพธ์ที่แท้จริงที่คุณสามารถทำได้ด้วยการใช้เลเยอร์เดียวเพียงชั้นเดียว
อวนที่ใช้งานได้ใช้วิธีที่มากกว่าหนึ่งเลเยอร์ที่ซ่อนอยู่บางครั้งหลายสิบ (ดี Resnet มากยิ่งขึ้น ... ) ของชั้น ด้วยเหตุผล. เหตุผลนั้นไม่ได้รับการพิสูจน์และโดยทั่วไปการเลือกสถาปัตยกรรมสำหรับโครงข่ายประสาทเทียมเป็นงานวิจัยที่ได้รับความนิยม กล่าวอีกนัยหนึ่งในขณะที่เรายังต้องการทราบข้อมูลเพิ่มเติมทั้งสองแบบที่คุณได้เปรียบเทียบ (การถดถอยเชิงเส้นและ NN ที่มีเลเยอร์ที่ซ่อนอยู่เพียงชั้นเดียว) สำหรับชุดข้อมูลจำนวนมากนั้นไม่มีประโยชน์อะไรเลย!
โดยวิธีการในกรณีที่คุณจะได้รับใน ML มีอีกทฤษฎีที่ไร้ประโยชน์ซึ่งจริง ๆ แล้วเป็น 'พื้นที่ของการวิจัยในปัจจุบัน' - PAC (อาจถูกต้องประมาณ) มิติ / VC ฉันจะขยายออกเป็นโบนัส:
ถ้าโดยทั่วไปการประมาณโดยทั่วไประบุว่าได้รับจำนวนเซลล์ประสาทที่ไม่มีที่สิ้นสุดเราสามารถประมาณฟังก์ชั่นใด ๆ (ขอบคุณมาก?) สิ่งที่ PAC กล่าวว่าในแง่การปฏิบัติคือให้ (ในทางปฏิบัติ!) จำนวนตัวอย่างฉลากที่ไม่มีที่สิ้นสุด ต้องการสมมติฐานที่ดีที่สุดในแบบจำลองของเรา มันตลกมากเมื่อฉันคำนวณจำนวนตัวอย่างจริงที่จำเป็นสำหรับเน็ตจริงเพื่อให้อยู่ในอัตราข้อผิดพลาดที่ต้องการในทางปฏิบัติพร้อมความน่าจะเป็นที่โอเค :) มันมากกว่าจำนวนอิเล็กตรอนในจักรวาล PS เพื่อเพิ่มมันยังถือว่าตัวอย่างเป็น IID (นั่นไม่เคยเป็นจริง!)