ฉันไม่คิดว่าจะมีคำตอบที่ชัดเจนสำหรับคำถามของคุณ แต่ฉันคิดว่าภูมิปัญญาดั้งเดิมดำเนินไปดังนี้:
โดยทั่วไปเมื่อพื้นที่สมมติฐานของอัลกอริทึมการเรียนรู้เพิ่มขึ้นอัลกอริทึมสามารถเรียนรู้โครงสร้างที่สมบูรณ์ยิ่งขึ้นและสมบูรณ์ยิ่งขึ้น แต่ในเวลาเดียวกันอัลกอริทึมก็มีแนวโน้มที่จะมีน้ำหนักเกินและข้อผิดพลาดทั่วไปนั้นมีแนวโน้มที่จะเพิ่มขึ้น
ดังนั้นในที่สุดสำหรับชุดข้อมูลที่กำหนดใด ๆ เราขอแนะนำให้ทำงานกับโมเดลขั้นต่ำที่มีความสามารถเพียงพอที่จะเรียนรู้โครงสร้างที่แท้จริงของข้อมูล แต่นี่เป็นคำแนะนำที่เป็นคลื่นเพราะมือมักจะไม่รู้จัก "โครงสร้างที่แท้จริงของข้อมูล" และแม้แต่ความสามารถของแบบจำลองผู้สมัครก็ยังไม่เข้าใจเท่าที่ควร
เมื่อพูดถึงโครงข่ายประสาทเทียมขนาดของพื้นที่สมมุติฐานจะถูกควบคุมโดยจำนวนพารามิเตอร์ และดูเหมือนว่าสำหรับพารามิเตอร์จำนวนคงที่ (หรือลำดับความสำคัญคงที่) การลงลึกทำให้โมเดลสามารถจับภาพโครงสร้างที่สมบูรณ์ยิ่งขึ้น (เช่นกระดาษนี้ )
นี่อาจอธิบายความสำเร็จของโมเดลที่ลึกกว่าบางส่วนด้วยพารามิเตอร์ที่น้อยลง: VGGNet (จาก 2014) มี 16 เลเยอร์ที่มีพารามิเตอร์ ~ 140M ในขณะที่ ResNet (จากปี 2015) เอาชนะด้วย 152 เลเยอร์ แต่มีเพียงพารามิเตอร์ 2M เท่านั้น
(ด้านข้างแบบจำลองขนาดเล็กอาจจะง่ายต่อการคำนวณ แต่ฉันไม่คิดว่ามันเป็นปัจจัยสำคัญของตัวเอง - เนื่องจากความลึกทำให้การฝึกอบรมซับซ้อนจริง ๆ )
โปรดทราบว่าแนวโน้มนี้ (ความลึกมากกว่าพารามิเตอร์น้อยกว่า) ส่วนใหญ่จะปรากฏในงานที่เกี่ยวข้องกับการมองเห็นและเครือข่าย convolutional และสิ่งนี้เรียกร้องให้มีคำอธิบายเฉพาะโดเมน ดังนั้นนี่คือมุมมองอื่น:
"เซลล์ประสาท" แต่ละตัวในเลเยอร์ convolutional มี "เขตข้อมูลที่เปิดกว้าง" ซึ่งเป็นขนาดและรูปร่างของอินพุตที่มีผลต่อแต่ละเอาต์พุต โดยสังหรณ์ใจแต่ละเคอร์เนลจับความสัมพันธ์ระหว่างอินพุตใกล้เคียง และเมล็ดเล็ก ๆ (ซึ่งเป็นเรื่องธรรมดาและเป็นที่นิยม) มีทุ่งโล่งขนาดเล็กเพื่อให้พวกเขาสามารถให้ข้อมูลเกี่ยวกับความสัมพันธ์ในท้องถิ่นเท่านั้น
แต่เมื่อคุณไปลึกกว่านั้นเขตข้อมูลที่เปิดกว้างของแต่ละเซลล์ประสาทที่เกี่ยวกับเลเยอร์ก่อนหน้านี้บางส่วนจะใหญ่ขึ้น ดังนั้นเลเยอร์ที่ลึกสามารถให้คุณลักษณะที่มีความหมายระดับโลกและรายละเอียดเชิงนามธรรม (ความสัมพันธ์ของความสัมพันธ์ ... ของความสัมพันธ์ของวัตถุ) ในขณะที่ใช้เมล็ดเล็ก ๆ เท่านั้น (ซึ่งทำให้ความสัมพันธ์ของเครือข่ายเรียนรู้เป็นปกติ
ดังนั้นประโยชน์ของเครือข่ายการสนทนาเชิงลึกในการมองเห็นคอมพิวเตอร์อาจถูกอธิบายบางส่วนโดยโครงสร้างเชิงพื้นที่ของภาพและวิดีโอ เป็นไปได้ว่าเวลาจะบอกว่าสำหรับปัญหาประเภทต่าง ๆ หรือสำหรับสถาปัตยกรรมที่ไม่ใช่การสนทนาความลึกไม่ได้ผลดีนัก