มิติข้อมูล VC บอกอะไรเราเกี่ยวกับการเรียนรู้อย่างลึกซึ้ง


15

ในการเรียนรู้เครื่องจักรขั้นพื้นฐานเราได้รับการสอน "กฎง่ายๆ" ต่อไปนี้:

ก) ขนาดของข้อมูลของคุณควรมีขนาดอย่างน้อย 10 เท่าของขนาด VC ของชุดสมมติฐานของคุณ

b) เครือข่ายประสาทเทียมที่มีการเชื่อมต่อ N มีมิติ VC ประมาณ N

ดังนั้นเมื่อเครือข่ายนิวรัลการเรียนรู้อย่างลึกซึ้งได้พูดไปแล้วหลายล้านหน่วยนี่หมายความว่าเราควรจะพูดจุดข้อมูลนับพันล้านหรือไม่ คุณช่วยส่องแสงนี้ให้หน่อยได้ไหม?


เครือข่ายประสาทลึกจะไม่มีหน่วยนับล้านในขณะที่คุณระบุ อย่างไรก็ตามมันจะมีการเชื่อมต่อนับล้าน ฉันจะสมมติว่ากฎข้อที่สองของคุณไม่ได้ยึดไว้กับเครือข่ายเหล่านี้เป็นหลักเนื่องจากลักษณะปกติของพวกเขา (เช่น CNN ที่มีการออกกลางคัน)
pir

ฉันคิดว่ากุญแจสำคัญคือการผูก VC นั้นไม่สิ้นสุด ถ้ามันมีขอบเขต จำกัด ทฤษฎี PAC จะบอกเราว่าการเรียนรู้นั้นเป็นไปได้ ข้อมูลเท่าไหร่นั่นคือคำถามอื่น
Vladislavs Dovgalecs

คำตอบ:


4

กฎของหัวแม่มือที่คุณพูดถึงไม่สามารถนำไปใช้กับเครือข่ายประสาท

โครงข่ายประสาทเทียมมีพารามิเตอร์พื้นฐานบางอย่างเช่นน้ำหนักและอคติ จำนวนน้ำหนักขึ้นอยู่กับจำนวนการเชื่อมต่อระหว่างเลเยอร์เครือข่ายและจำนวนอคตินั้นขึ้นอยู่กับจำนวนของเซลล์ประสาท

ขนาดของข้อมูลที่ต้องการอย่างมากขึ้นอยู่กับ -

  1. ประเภทของการใช้โครงข่ายประสาทเทียม
  2. เทคนิคที่ใช้ในการกูสุทธิ
  3. อัตราการเรียนรู้ที่ใช้ในการฝึกอบรมอินเทอร์เน็ต

สิ่งนี้ถูกกล่าวว่าเป็นวิธีที่เหมาะสมและแน่ใจว่าจะรู้ว่าแบบจำลองนั้นมีการบรรจุมากเกินไปหรือไม่เพื่อตรวจสอบว่าข้อผิดพลาดในการตรวจสอบนั้นใกล้เคียงกับข้อผิดพลาดในการฝึกอบรมหรือไม่ ถ้าใช่แสดงว่าแบบจำลองทำงานได้ดี หากไม่มีแสดงว่าแบบจำลองมีแนวโน้มที่จะมีน้ำหนักเกินและนั่นหมายความว่าคุณต้องลดขนาดของแบบจำลองของคุณหรือแนะนำเทคนิคการทำให้เป็นมาตรฐาน


คุณจะต้องล้อเล่นเมื่อคุณพูดว่าวิธีที่ดีที่สุดที่จะเข้าใจว่ารูปแบบ overfitting คือการตรวจสอบว่าข้อผิดพลาดการตรวจสอบอยู่ใกล้กับข้อผิดพลาดการฝึกอบรม
nbro

6
@nbro หากคุณมีชุดการระงับที่เหมาะสมเพื่อตรวจสอบข้อผิดพลาดในการตรวจสอบนั่นเป็นวิธีการที่เชื่อถือได้มากขึ้นในการ overfitting สำหรับเครือข่ายที่ผ่านการฝึกอบรมเฉพาะของคุณ
Dougal

@Dougal คุณแค่ทำซ้ำสิ่งที่คุณพูดในคำตอบของคุณ
nbro

3
ไม่ใช่คำตอบของฉัน @nbro แต่เมื่อใช้ชุดการตรวจสอบคุณจะได้รับความน่าจะเป็นสูงเล็กน้อยที่เกิดจากข้อผิดพลาดทั่วไปของ Hoeffding หรือที่คล้ายกันในขณะที่ผ่าน VC bounds จะมีขอบเขตบนที่หลวมซึ่งไม่เจาะจงชุดข้อมูลและเครือข่ายที่คุณมี มือ.
Dougal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.