อะไรคือทางเลือกของ VC-dimension สำหรับวัดความซับซ้อนของโครงข่ายประสาทเทียม?


16

ฉันได้พบวิธีการพื้นฐานบางอย่างในการวัดความซับซ้อนของเครือข่ายประสาท:

มีทางเลือกอื่นหรือไม่?

เป็นที่ต้องการ:

  • หากการวัดความซับซ้อนสามารถใช้ในการวัดโครงข่ายประสาทจากกระบวนทัศน์ต่าง ๆ (เพื่อวัด backprop, โครงข่ายประสาทเทียม, ความสัมพันธ์ของน้ำตก ฯลฯ ) ในระดับเดียวกัน ตัวอย่างเช่น VC-dimension สามารถใช้กับประเภทที่แตกต่างกันในเครือข่าย (หรือแม้แต่สิ่งอื่นที่ไม่ใช่เครือข่ายประสาท) ในขณะที่จำนวนของเซลล์ประสาทจะมีประโยชน์เฉพาะระหว่างรุ่นที่เฉพาะเจาะจงมากที่ฟังก์ชั่นการเปิดใช้งานสัญญาณ คุณสมบัติของเครือข่ายเหมือนกัน
  • หากมีความสอดคล้องที่ดีกับการวัดมาตรฐานของความซับซ้อนของฟังก์ชั่นที่เรียนรู้ได้โดยเครือข่าย
  • หากเป็นการง่ายในการคำนวณตัวชี้วัดในเครือข่ายเฉพาะ (อันสุดท้ายนี้ไม่จำเป็นต้องเป็น)

หมายเหตุ

คำถามนี้ขึ้นอยู่กับคำถามทั่วไปเพิ่มเติมเกี่ยวกับ CogSci.SE


3
ความซับซ้อนไม่ควรขึ้นอยู่กับอัลกอริทึมการเรียนรู้ด้วยหรือ มิติ VC มักจะนำไปใช้กับวิธีการที่มีฟังก์ชั่นการสูญเสียนูน หากคุณมีการสูญเสียแบบไม่นูนคุณสามารถรับสถานการณ์ที่แบบจำลองของคุณสามารถแยกบางจุดได้ แต่คุณเรียนรู้อัลกอริทึมจะไม่พบวิธีแก้ปัญหานี้ ดังนั้นฉันรู้สึกว่ามันค่อนข้างยากที่จะมีขอบเขตโดยใช้โครงสร้างของเครือข่าย ฉันเห็นด้วยกับ @tdc ว่าข้อผิดพลาดทั่วไปเป็นวิธีที่จะไป บทความของ Vapnik เกี่ยวกับทฤษฎีการเรียนรู้ทางสถิติอาจเป็นจุดเริ่มต้นที่ดีในการเรียนรู้
Andreas Mueller

คำตอบ:


8

คุณอาจต้องการดูกระดาษ "(ไม่) ผูกข้อผิดพลาดที่แท้จริงโดย John Langford & Rich Caruana (NIPS, 2001)

รัฐที่เป็นนามธรรม:

เรานำเสนอวิธีการใหม่ในการกำหนดอัตราความผิดพลาดที่แท้จริงของตัวจําแนกอย่างต่อเนื่องที่มีมูลค่าตามขอบเขต PAC-Bayes วิธีแรกสร้างการกระจายตัวแยกประเภทโดยการพิจารณาว่าพารามิเตอร์แต่ละตัวในแบบจำลองมีความอ่อนไหวต่อเสียงรบกวนอย่างไร อัตราความผิดพลาดที่แท้จริงของตัวจําแนกสโตแคสติกที่พบกับการวิเคราะห์ความไวนั้นสามารถถูก จำกัด ขอบเขตอย่างแน่นหนาโดยใช้การผูก PAC-Bayes ในบทความนี้เราแสดงให้เห็นถึงวิธีการในเครือข่ายประสาทเทียมที่มีผลลัพธ์ของการปรับปรุงขนาด 2 3 เพื่อเปรียบเทียบกับขอบเขตสุทธิประสาทที่ดีที่สุดที่กำหนด

พวกเขาแสดงให้เห็นว่าคุณสามารถใช้ขอบเขตสไตล์ PAC-Bayes กับเครือข่ายประสาทเทียม อย่างไรก็ตามการวิเคราะห์นั้นใช้กับเครือข่ายประสาทส่งต่อ 2 ชั้นที่มีฟังก์ชั่นการถ่ายโอน sigmoidal ในกรณีนี้ความซับซ้อนจะขึ้นอยู่กับจำนวนของโหนดและความแปรปรวนของน้ำหนักเท่านั้น พวกเขาแสดงให้เห็นว่าสำหรับการตั้งค่านี้ขอบเขตที่คาดการณ์ได้อย่างมีประสิทธิภาพเมื่อการฝึกอบรมเกินจะเกิดขึ้น น่าเสียดายที่มันไม่ได้กระทบกับคุณสมบัติ "ที่ต้องการ" ของคุณ!


+1 ที่ดูเท่ - ขอบคุณฉันจะดู แต่ฉันยอมรับว่ามันไม่เหมาะกับคุณสมบัติที่ต้องการใด ๆ และในตอนแรกดูเหมือนจะไม่ได้วัดความซับซ้อนของเครือข่ายมากเท่ากับประสิทธิภาพของมัน ... แต่ฉันคิดว่าสิ่งเหล่านี้แยกกันไม่ออก
Artem Kaznatcheev

สิ่งที่มันกำลังมองหาที่เป็นข้อผิดพลาดทั่วไป ขอบเขตที่สร้างมักจะมีคำที่ขึ้นอยู่กับข้อผิดพลาดการฝึกอบรมและระยะเวลาการลงโทษขึ้นอยู่กับความซับซ้อนของรูปแบบ สิ่งที่คุณสนใจคือคำศัพท์ที่ซับซ้อน แต่จะเป็นส่วนประกอบในเกือบทุกด้าน วิดีโอนี้อธิบายได้ดีกว่าที่ฉันทำได้!
tdc

คิดว่าทิศทางนี้ไม่ถูกต้อง ข้อผิดพลาดแตกต่างจากความซับซ้อนของเครือข่ายมาก แม้ว่าทฤษฎีที่มีอยู่อาจเบลอทั้งสอง ตัวอย่างง่ายๆคือ overfitting ที่มีข้อผิดพลาดต่ำ แต่มีความซับซ้อนสูง นอกจากนี้ข้อผิดพลาดอาจทำงานในรูปแบบที่ไม่ซับซ้อนและซับซ้อน เช่นอคติ ดูเหมือนว่าเครือข่ายขนาดเล็กอาจประมาทข้อผิดพลาด etcetera

@vzn แต่ข้อผิดพลาดทั่วไปเป็นข้อผิดพลาดของข้อมูลในอนาคต - เช่นถ้าคุณมีข้อผิดพลาดในการฝึกอบรมต่ำและมีความซับซ้อนสูงข้อผิดพลาดของคุณจะหายไป
tdc

3

นอกจากนี้คุณอาจสนใจงานมิติที่สลายไขมันโดยศาสตราจารย์ปีเตอร์บาร์ตเลต นี่คือการแนะนำเบื้องต้นเกี่ยวกับการวิเคราะห์ความซับซ้อนของโครงข่ายประสาทในกระดาษ IEEE 1998: ตัวอย่างความซับซ้อนของการจำแนกรูปแบบกับเครือข่ายประสาท: ขนาดของน้ำหนักมีความสำคัญมากกว่าขนาดของเครือข่าย (Bartlett 1998) [ http: //ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=661502]

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.