นี่เป็นคำถามที่ยอดเยี่ยมและมีการวิจัยเกี่ยวกับปัญหาด้านความจุ / ความลึกที่คุณกล่าวถึง
มีหลักฐานมากมายที่แสดงให้เห็นว่าความลึกของเครือข่ายประสาทเทียมนำไปสู่การเรียนรู้ลำดับชั้นของคุณลักษณะที่หลากหลายยิ่งขึ้น สังเกตุเราเห็นว่าตาข่ายที่มีประสิทธิภาพดีที่สุดนั้นมีแนวโน้มที่จะ "ลึก": Oxford VGG-Net มี 19 ชั้น, สถาปัตยกรรม Google Inception นั้นลึก, Microsoft Deep Residual Network มีรายงาน 152 ชั้นและสิ่งเหล่านี้ล้วนได้รับมาตรฐาน ImageNet ที่น่าประทับใจมาก ผล.
บนพื้นผิวมันเป็นความจริงที่ว่ารุ่นความจุที่สูงกว่ามีแนวโน้มที่จะมีน้ำหนักเกินเว้นแต่คุณจะใช้เครื่องปรับสภาพปกติบางประเภท วิธีหนึ่งที่เครือข่ายที่ลึกเกินไปของการ overfitting อาจส่งผลกระทบต่อประสิทธิภาพการทำงานคือพวกเขาจะเข้าใกล้ข้อผิดพลาดในการฝึกอบรมที่ต่ำมากในช่วงเวลาสั้น ๆ ของการฝึกอบรมจำนวนน้อยนั่นคือเราไม่สามารถฝึกอบรมเครือข่าย เทคนิคอย่าง Dropout ซึ่งเป็นเทคนิคการทำให้เป็นกฎแบบสุ่มทำให้เราสามารถฝึกอวนได้ลึกมากเป็นระยะเวลานาน สิ่งนี้มีผลทำให้เราสามารถเรียนรู้คุณสมบัติที่ดีขึ้นและปรับปรุงความถูกต้องในการจัดหมวดหมู่ของเราเพราะเราได้รับข้อมูลการฝึกอบรมมากขึ้น
เกี่ยวกับคำถามแรกของคุณ:
ทำไมคุณไม่สามารถลดจำนวนเลเยอร์ / โหนดต่อเลเยอร์ในเครือข่ายนิวรัลลึกและทำให้มันทำงานกับข้อมูลจำนวนน้อยลงได้?
หากเราลดขนาดชุดการฝึกอบรมสิ่งนั้นจะส่งผลต่อประสิทธิภาพการวางนัยทั่วไปอย่างไร หากเราใช้ชุดฝึกอบรมที่มีขนาดเล็กลงอาจส่งผลให้เกิดการเรียนรู้การแสดงคุณลักษณะที่มีขนาดเล็กลงและอาจกระทบต่อความสามารถทั่วไปของเรา ในที่สุดเราต้องการที่จะสามารถพูดคุยกันได้ดี การมีชุดการฝึกอบรมที่ใหญ่ขึ้นทำให้เราสามารถเรียนรู้ลำดับชั้นของคุณลักษณะที่มีความหลากหลายยิ่งขึ้น
สำหรับคำถามที่สองของคุณ:
มี "จำนวนพารามิเตอร์ขั้นต่ำ" ขั้นพื้นฐานหรือไม่ที่เครือข่ายประสาทต้องการจนกว่าจะถึง "kicks" ด้านล่างของเลเยอร์จำนวนหนึ่งดูเหมือนว่าเครือข่ายประสาทจะไม่ทำงานเช่นเดียวกับคุณสมบัติที่เขียนด้วยมือ
ตอนนี้เรามาเพิ่มความแตกต่างกันเล็กน้อยในการสนทนาข้างต้นเกี่ยวกับปัญหาเชิงลึก มันปรากฏขึ้นเมื่อเราอยู่กับสถานะปัจจุบันของศิลปะในการฝึกอบรมประสิทธิภาพสูงจากการขีดข่วนใช้สถาปัตยกรรมเชิงลึกบางประเภท
แต่มีการสตริงของผลที่จะมุ่งเน้นไปที่การบีบอัดรุ่น ดังนั้นนี่ไม่ใช่คำตอบสำหรับคำถามของคุณโดยตรง แต่เกี่ยวข้องกัน การบีบอัดแบบมีความสนใจในคำถามต่อไปนี้: เมื่อใช้แบบจำลองที่มีประสิทธิภาพสูง (ในกรณีของเราสมมติว่าเป็นตาข่ายสนทนาลึก) เราสามารถบีบอัดแบบจำลองลดความลึกหรือแม้แต่การนับพารามิเตอร์และรักษาประสิทธิภาพเดียวกันได้หรือไม่
เราสามารถดูประสิทธิภาพสูงสุทธิแปลงความจุสูงเป็นครู เราสามารถใช้ครูในการฝึกอบรมรูปแบบนักเรียนที่มีขนาดกะทัดรัดขึ้นได้หรือไม่?
น่าแปลกที่คำตอบคือ: ใช่ มีชุดของผลลัพธ์บทความที่ดีสำหรับมุมมองสุทธิ conv เป็นบทความโดย Rich Caruana และ Jimmy Ba
Do Net Nets จำเป็นต้องลึกหรือไม่ . พวกเขาสามารถฝึกแบบจำลองตื้น ๆ เพื่อเลียนแบบโมเดลที่ลึกกว่าด้วยการสูญเสียประสิทธิภาพเล็กน้อย มีการทำงานเพิ่มเติมในหัวข้อนี้เช่น:
งานอื่น ๆ ฉันแน่ใจว่าฉันพลาดบทความดีๆอื่น ๆ
สำหรับฉันแล้วผลลัพธ์ในคำถามเหล่านี้มีความจุเท่าไหร่ที่แบบจำลองน้ำตื้นเหล่านี้มีจริงๆ ในบทความ Caruana, Ba พวกเขาระบุความเป็นไปได้ดังต่อไปนี้:
"ผลการวิจัยชี้ให้เห็นว่าความแข็งแกร่งของการเรียนรู้อย่างลึกซึ้งอาจเกิดขึ้นจากการจับคู่ที่ดีระหว่างสถาปัตยกรรมชั้นลึกกับขั้นตอนการฝึกอบรมในปัจจุบันและเป็นไปได้ที่จะคิดขั้นตอนวิธีการเรียนรู้ที่ดีขึ้น จำนวนพารามิเตอร์ความลึกอาจทำให้การเรียนรู้ง่ายขึ้น แต่อาจไม่จำเป็นเสมอไป "
สิ่งสำคัญคือต้องมีความชัดเจน: ในบทความ Caruana บทความ Ba พวกเขาไม่ได้ฝึกฝนแบบจำลองแบบตื้นตั้งแต่เริ่มต้นนั่นคือการฝึกอบรมจากชั้นเรียนเพียงอย่างเดียวเพื่อให้ได้ประสิทธิภาพการทำงานที่ทันสมัย แต่พวกเขาฝึกฝนแบบจำลองประสิทธิภาพสูงที่ลึกและจากโมเดลนี้พวกเขาแยกความน่าจะเป็นของบันทึกสำหรับแต่ละดาต้าพอยน์ จากนั้นเราจะฝึกแบบจำลองตื้นเพื่อทำนายความน่าจะเป็นของบันทึกเหล่านี้ ดังนั้นเราจึงไม่ได้ฝึกแบบจำลองน้ำตื้นบนฉลากของชั้นเรียน แต่ใช้ความน่าจะเป็นบันทึกเหล่านี้
อย่างไรก็ตามมันก็ยังเป็นผลลัพธ์ที่น่าสนใจ แม้ว่าสิ่งนี้จะไม่ได้ให้คำตอบกับคำถามของคุณโดยตรง แต่ก็มีแนวคิดที่น่าสนใจที่เกี่ยวข้องมาก
พื้นฐาน: เป็นสิ่งสำคัญเสมอที่ต้องจำไว้ว่า "ความสามารถ" ตามทฤษฎีของแบบจำลองกับการค้นหาการกำหนดค่าที่ดีของแบบจำลองของคุณนั้นแตกต่างกัน หลังขึ้นอยู่กับวิธีการเพิ่มประสิทธิภาพของคุณ