7
ทำไมการเรียนรู้แบบเจาะลึกถึงแม้จะมีมิติ VC ไม่ดีล่ะ
สูตรVapnik – Chervonenkis (VC) -สำหรับเครือข่ายประสาทเทียมมีตั้งแต่ถึงโดยมีในกรณีที่แย่ที่สุดโดยที่คือจำนวนขอบและคือจำนวนโหนด จำนวนตัวอย่างการฝึกอบรมที่จำเป็นต้องมีการรับรองที่แข็งแกร่งของการวางนัยทั่วไปเป็นเส้นตรงกับมิติ VCO(E)O(E)O(E)O(E2)O(E2)O(E^2)O(E2V2)O(E2V2)O(E^2V^2)EEEVVV ซึ่งหมายความว่าสำหรับเครือข่ายที่มีขอบเป็นพันล้านเช่นเดียวกับในกรณีของโมเดลการเรียนรู้ลึกที่ประสบความสำเร็จชุดข้อมูลการฝึกอบรมนั้นต้องการตัวอย่างการฝึกอบรมนับพันล้านตัวอย่างในกรณีที่ดีที่สุดเพื่อ quadrillions ในกรณีที่แย่ที่สุด ชุดฝึกอบรมที่ใหญ่ที่สุดในปัจจุบันมีตัวอย่างประมาณหนึ่งแสนล้านตัวอย่าง เนื่องจากมีข้อมูลการฝึกอบรมไม่เพียงพอจึงไม่น่าเป็นไปได้ที่รูปแบบการเรียนรู้เชิงลึกจะเป็นเรื่องทั่วไป แต่พวกเขากำลังเตรียมข้อมูลการฝึกอบรมมากเกินไป ซึ่งหมายความว่าโมเดลจะทำงานได้ไม่ดีกับข้อมูลที่ไม่เหมือนกันกับข้อมูลการฝึกอบรมซึ่งเป็นคุณสมบัติที่ไม่พึงประสงค์สำหรับการเรียนรู้ของเครื่อง เนื่องจากการวิเคราะห์เชิงลึกของ VC ไม่สามารถให้การเรียนรู้ที่ลึกเกินจริงได้ การมีความแม่นยำสูงในชุดข้อมูลบางส่วนนั้นไม่ได้มีความหมายมากนัก มีบางสิ่งที่พิเศษเกี่ยวกับสถาปัตยกรรมการเรียนรู้ลึกที่ลดมิติ VC ลงอย่างมากหรือไม่? หากคุณไม่คิดว่าการวิเคราะห์มิติ VC มีความเกี่ยวข้องโปรดแสดงหลักฐาน / คำอธิบายว่าการเรียนรู้อย่างลึกซึ้งนั้นเป็นเรื่องทั่วไปและไม่ได้ทำให้เกินกำลัง คือมันมีการเรียกคืนที่ดีและมีความแม่นยำหรือเพียงแค่การเรียกคืนที่ดี? การเรียกคืน 100% นั้นง่ายมากที่จะบรรลุเช่นเดียวกับความแม่นยำ 100% การเข้าใกล้ทั้ง 100% นั้นยากมาก เป็นตัวอย่างที่ตรงกันข้ามนี่เป็นหลักฐานที่แสดงว่าการเรียนรู้ลึก overfitting ตัวแบบ overfit นั้นง่ายที่จะหลอกเพราะมันได้รวมเสียงรบกวนที่กำหนดไว้ ดูภาพต่อไปนี้สำหรับตัวอย่างการ overfitting นอกจากนี้โปรดดูคำตอบที่มีอันดับต่ำกว่าสำหรับคำถามนี้เพื่อทำความเข้าใจปัญหาของตัวแบบ overfit แม้จะมีความแม่นยำในข้อมูลการทดสอบ บางคนตอบว่าการทำให้เป็นมาตรฐานช่วยแก้ปัญหามิติ VC ขนาดใหญ่ ดูคำถามนี้สำหรับการอภิปรายเพิ่มเติม