"ความสามารถ" ของรูปแบบการเรียนรู้ของเครื่องคืออะไร?

ฉันกำลังศึกษานี้กวดวิชาในแปรผัน Autoencoders โดยคาร์ล Doersch ในหน้าสองมันระบุ:

หนึ่งในเฟรมเวิร์กดังกล่าวที่ได้รับความนิยมมากที่สุดคือ Variational Autoencoder [1, 3] ซึ่งเป็นหัวเรื่องของบทช่วยสอนนี้ สมมติฐานของรุ่นนี้อ่อนแอและการฝึกอบรมนั้นรวดเร็วผ่านการ backpropagation VAE ทำการประมาณค่า แต่ข้อผิดพลาดที่แนะนำโดยการประมาณนี้มีขนาดเล็กมากซึ่งเป็นแบบจำลองความจุสูง ลักษณะเหล่านี้มีส่วนทำให้ความนิยมเพิ่มขึ้นอย่างรวดเร็ว

ฉันเคยอ่านข้อเรียกร้องเหล่านี้เกี่ยวกับโมเดลความจุสูงมาแล้ว แต่ดูเหมือนว่าฉันจะไม่พบคำจำกัดความที่ชัดเจนสำหรับมัน ฉันยังพบคำถาม stackoverflow ที่เกี่ยวข้องนี้แต่สำหรับฉันคำตอบนั้นไม่น่าพอใจมาก

มีคำจำกัดความสำหรับความสามารถของแบบจำลองหรือไม่? คุณวัดได้ไหม

— Andrés Marafioti
แหล่งที่มา

ความจุเป็นคำที่ไม่เป็นทางการ มันใกล้มาก (หากไม่ใช่คำพ้องความหมาย) สำหรับความซับซ้อนของแบบจำลอง เป็นวิธีที่จะพูดคุยเกี่ยวกับความซับซ้อนของรูปแบบหรือความสัมพันธ์ที่โมเดลสามารถแสดงออกได้ คุณสามารถคาดหวังรูปแบบที่มีความจุสูงกว่าเพื่อให้สามารถสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรได้มากกว่าแบบจำลองที่มีความจุต่ำกว่า

การวาดภาพเปรียบเทียบจากนิยามความสามารถด้านภาษาพูดคุณสามารถคิดว่ามันเป็นความสามารถของแบบจำลองในการเรียนรู้จากข้อมูลมากขึ้นเรื่อย ๆ จนกว่าจะมีข้อมูล "เต็ม" อย่างสมบูรณ์

มีหลายวิธีในการทำให้เป็นกำลังการผลิตอย่างเป็นทางการและคำนวณค่าตัวเลขสำหรับมัน แต่ที่สำคัญเหล่านี้เป็นเพียงความเป็นไปได้ "การปฏิบัติการ" ของความจุ สูตรคือการตีความความงามที่ผิดพลาดเพียงอย่างเดียว)

มิติ VCเป็นสูตรทางคณิตศาสตร์ของความสามารถที่เข้มงวด อย่างไรก็ตามอาจมีช่องว่างขนาดใหญ่ระหว่างมิติ VC ของแบบจำลองและความสามารถที่แท้จริงของแบบจำลองเพื่อให้พอดีกับข้อมูล แม้ว่าการรู้ว่าสลัว VC จะให้ข้อ จำกัด กับข้อผิดพลาดในการวางนัยทั่วไปของรุ่นนี้ก็มักจะหลวมเกินไปที่จะเป็นประโยชน์กับเครือข่ายประสาท

งานวิจัยอีกสายหนึ่งที่นี่คือการใช้บรรทัดฐานสเปกตรัมของเมทริกซ์น้ำหนักในเครือข่ายประสาทเทียมเป็นเครื่องวัดความจุ วิธีหนึ่งในการทำความเข้าใจนี้คือบรรทัดฐานของสเปกตรัม จำกัด ค่าคงที่ Lipschitz ของเครือข่าย

วิธีทั่วไปในการประเมินความสามารถของแบบจำลองคือการนับจำนวนพารามิเตอร์ ยิ่งพารามิเตอร์มากเท่าใดความจุโดยทั่วไปก็จะสูงขึ้น แน่นอนว่าบ่อยครั้งที่เครือข่ายขนาดเล็กเรียนรู้ที่จะสร้างแบบจำลองข้อมูลที่ซับซ้อนได้ดีกว่าเครือข่ายขนาดใหญ่ดังนั้นการวัดนี้จึงยังห่างไกลจากความสมบูรณ์แบบ

อีกวิธีในการวัดความจุอาจเป็นการฝึกอบรมโมเดลของคุณด้วยเลเบลแบบสุ่ม ( Neyshabur et. al ) - หากเครือข่ายของคุณสามารถจดจำอินพุตจำนวนมากพร้อมกับเลเบลแบบสุ่มได้อย่างถูกต้องแสดงว่าโมเดลนั้นมีความสามารถในการจดจำ จุดข้อมูลเป็นรายบุคคล ยิ่งอินพุต / เอาต์พุตคู่ซึ่งสามารถ "เรียนรู้" มากเท่าใดความจุก็จะยิ่งมากขึ้นเท่านั้น

$\epsilon$

— shimao
แหล่งที่มา

นี่เป็นคำตอบที่ดีกว่าคำตอบจาก stackoverflow ขอบคุณ ฉันยังคงมีปัญหาบางอย่างกับการเห็นคำศัพท์ที่กำหนดไว้อย่างหลวม ๆ เพื่อใช้เป็นข้ออ้างในเรื่องอื่น แต่ฉันคิดว่านั่นคือสิ่งที่สนามกำลังก้าวไปข้างหน้า

— Andrés Marafioti

"อาจมีช่องว่างขนาดใหญ่ระหว่างมิติ VC ของแบบจำลองและความจุที่แท้จริงของแบบจำลอง" นี่เป็นข้อความที่ทำให้เข้าใจผิดอย่างมากเพราะ "ความจุจริง" ไม่ได้กำหนดไว้อย่างแม่นยำ ในความเป็นจริงมิติ VC เป็นเครื่องวัดที่ดีของความสามารถของแบบจำลอง เนื่องจากเครือข่ายประสาทดูเหมือนจะแก้ปัญหาบางอย่างเท่านั้นจึงไม่ทำให้พวกเขา "มีความสามารถสูง" ในความเป็นจริงคนส่วนใหญ่คิดว่าเครือข่ายประสาทกำลังแก้ปัญหาในขณะที่พวกเขากำลังแก้ไขปัญหาที่ง่ายกว่ามากและในความเป็นจริงพวกเขามักจะล้มเหลวอย่างหายนะ (เพราะพวกเขา "ฝึกหัด"

— nbro