หนึ่งคน (ในทางทฤษฎี) สามารถฝึกโครงข่ายประสาทเทียมด้วยตัวอย่างการฝึกอบรมที่น้อยกว่าน้ำหนักได้หรือไม่?


12

ก่อนอื่น: ฉันรู้ว่าไม่มีขนาดตัวอย่างทั่วไปที่ต้องใช้ในการฝึกอบรมโครงข่ายประสาท ขึ้นอยู่กับปัจจัยหลายอย่างเช่นความซับซ้อนของงานเสียงในข้อมูลและอื่น ๆ ยิ่งฉันมีตัวอย่างการฝึกอบรมมากเท่าไหร่เครือข่ายของฉันก็ยิ่งดีขึ้นเท่านั้น

แต่ฉันสงสัยว่า: เป็นไปได้ไหมในทางทฤษฎีที่จะฝึกโครงข่ายประสาทด้วยตัวอย่างการฝึกอบรมที่น้อยกว่าน้ำหนักถ้าฉันคิดว่างานของฉันจะ "ง่าย" เพียงพอหรือไม่ มีใครรู้บ้างไหมว่านี่เป็นตัวอย่างที่ดีหรือไม่? หรือเครือข่ายนี้จะทำงานได้ไม่ดีหรือไม่?

ถ้าฉันพิจารณาตัวอย่างเช่นการถดถอยพหุนามฉันไม่สามารถพอดีกับพหุนามระดับ 4 (เช่นมี 5 พารามิเตอร์อิสระ) ในจุดข้อมูลเพียง 4 จุด มีกฎที่คล้ายกันสำหรับเครือข่ายประสาทเทียมหรือไม่โดยพิจารณาจากจำนวนน้ำหนักของฉันเป็นจำนวนพารามิเตอร์อิสระหรือไม่


ใช่: หากน้ำหนักถูกเริ่มต้นแบบสุ่มมันเป็นไปได้ในทางทฤษฎีในการรับเครือข่ายประสาทที่ได้รับการฝึกฝนอย่างสมบูรณ์แบบแม้จะไม่มีตัวอย่างการฝึกอบรม (การโพสต์เป็นความคิดเห็นไม่ใช่คำตอบเพราะฉันรู้ว่านี่ไม่ใช่สิ่งที่คุณต้องการจริงๆ)
Darren Cook

คำตอบ:


17

คนทำเช่นนั้นตลอดเวลาด้วยเครือข่ายขนาดใหญ่ ตัวอย่างเช่นเครือข่าย AlexNet ที่มีชื่อเสียงมีพารามิเตอร์ประมาณ 60 ล้านในขณะที่ ImageNet ILSVRC ซึ่งเดิมได้รับการฝึกอบรมนั้นมีเพียง 1.2 ล้านภาพ

เหตุผลที่คุณไม่พอดีกับจุดข้อมูลพหุนาม 5 พารามิเตอร์กับ 4 จุดคือมันสามารถหาฟังก์ชั่นที่เหมาะกับจุดข้อมูลของคุณ แต่จะทำสิ่งที่ไร้สาระที่อื่นเสมอ อย่างที่ทราบเมื่อเร็ว ๆ นี้ AlexNet และเครือข่ายที่คล้ายกันสามารถติดป้ายกำกับสุ่มที่ใช้กับ ImageNet และจดจำได้ง่ายทั้งหมดน่าจะเป็นเพราะพวกเขามีพารามิเตอร์มากกว่าจุดฝึกอบรมมากมาย แต่สิ่งที่เกี่ยวกับไพรเออร์ของเครือข่ายรวมกับกระบวนการเพิ่มประสิทธิภาพการไล่ระดับสีแบบลาดสุ่มหมายความว่าในทางปฏิบัติแล้วโมเดลเหล่านี้ยังสามารถพูดคุยกับจุดข้อมูลใหม่ได้ดีเมื่อคุณให้ป้ายกำกับจริง เรายังไม่เข้าใจจริงๆว่าทำไมถึงเกิดขึ้น


2
+1 ฉันขอเพิ่มเติมสำหรับการเปรียบเทียบกับการถดถอยพหุนามฉันยังพิจารณาว่าตัวอย่างมีมิติสูง ความละเอียดของภาพโดยเฉลี่ยบน ImageNet นั้นอยู่ที่ประมาณ 469x387 พิกเซลถ้าตัดเป็น 256x256 เรามีพารามิเตอร์อินพุต 65,000 1.2 ล้านตัวซึ่งมีความสัมพันธ์กันสูงในแต่ละตัวอย่างดังนั้นจึงให้ข้อมูลจำนวนมากกับเครือข่ายประสาท กว่าในกรณีการถดถอยพหุนาม
jjmontes

3
@jjmontes จริง แต่ความลึกลับหลักคือเครือข่ายเหล่านี้มีความสามารถในการจดจำและพูดคุย (ดี) กล่าวอีกนัยหนึ่งพวกเขาสามารถทำลายข้อมูลการฝึกอบรมด้วยป้ายกำกับแบบสุ่มและยังคงใช้งานได้ดี นี่ไม่ใช่สิ่งที่เราเห็นในวิธีการ ML แบบดั้งเดิม
Amelio Vazquez-Reina

6

ระบบที่บ่อนทำลายจะถูกบั่นทอนเฉพาะในกรณีที่คุณไม่มีข้อ จำกัด อื่นใดนอกจากข้อมูล ผสานกับตัวอย่างของคุณปรับจุดข้อมูลพหุนาม 4 องศาให้เหมาะสม 4 หมายความว่าคุณมีอิสระในระดับหนึ่งซึ่งไม่ได้ จำกัด ข้อมูลซึ่งทำให้คุณมีเส้น (ในพื้นที่สัมประสิทธิ์) ของการแก้ปัญหาที่ดีเท่า ๆ กัน อย่างไรก็ตามคุณสามารถใช้เทคนิคการทำให้เป็นมาตรฐานแบบต่าง ๆ เพื่อทำให้ปัญหาสามารถจัดการได้ ตัวอย่างเช่นการกำหนดโทษให้กับ L2-norm (เช่นผลรวมของกำลังสอง) ของสัมประสิทธิ์คุณจะมั่นใจได้ว่าจะมีทางออกที่ไม่ซ้ำใครกับการออกกำลังกายที่สูงที่สุดเสมอ

เทคนิคการทำให้เป็นมาตรฐานนั้นมีอยู่สำหรับโครงข่ายประสาทเทียมดังนั้นคำตอบสั้น ๆ สำหรับคำถามของคุณคือ 'ใช่คุณทำได้' สิ่งที่น่าสนใจเป็นพิเศษคือเทคนิคที่เรียกว่า "การออกกลางคัน" ซึ่งในการอัปเดตน้ำหนักแต่ละครั้งคุณจะ 'สุ่ม' ชุดย่อยบางส่วนของโหนดจากเครือข่าย นั่นคือสำหรับการวนซ้ำของอัลกอริทึมการเรียนรู้คุณทำท่าว่าโหนดเหล่านี้ไม่มีอยู่จริง โดยไม่ต้องออกกลางคันเน็ตสามารถเรียนรู้การแทนค่าที่ซับซ้อนมากของอินพุตที่ขึ้นอยู่กับโหนดทั้งหมดที่ทำงานร่วมกันอย่างถูกต้อง การเป็นตัวแทนดังกล่าวมีแนวโน้มที่จะ 'จดจำ' ข้อมูลการฝึกอบรมมากกว่าการหารูปแบบที่สรุป การออกกลางคันช่วยให้แน่ใจว่าเครือข่ายไม่สามารถใช้โหนดทั้งหมดในครั้งเดียวเพื่อให้พอดีกับข้อมูลการฝึกอบรม มันจะต้องสามารถเป็นตัวแทนของข้อมูลได้ดีแม้ว่าบางโหนดจะหายไป

นอกจากนี้โปรดทราบว่าเมื่อใช้การออกกลางคันระดับความเป็นอิสระ ณ จุดใดก็ตามในระหว่างการฝึกอบรมอาจน้อยกว่าจำนวนตัวอย่างการฝึกอบรมถึงแม้ว่าโดยรวมแล้วคุณกำลังเรียนรู้น้ำหนักมากกว่าตัวอย่างการฝึกอบรม


2
นี่อาจเป็นการแสดงบทบาทที่ชัดเจนเกินจริงในตาข่ายลึก: บทความนี้ที่ฉันอ้างถึงในคำตอบของฉันแสดงให้เห็นว่าการออกกลางคันและรูปแบบอื่นของการทำให้เป็นระเบียบมีผลเพียงเล็กน้อยต่อจำนวนเครือข่ายที่สามารถจดจำได้ มันอาจเป็นไปได้ว่าเรื่องราวพื้นฐานของคุณนั้นถูกต้อง แต่การทำให้เป็นระเบียบหลักในการเล่นนั้นเป็นเรื่องที่ชัดเจนจาก SGD ทั้งหมดนี้ยังค่อนข้างมืด
Dougal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.