มีใครเคยเห็นวรรณกรรมเกี่ยวกับการฝึกอบรมล่วงหน้าในโครงข่ายประสาทเทียมแบบลึกหรือไม่? ฉันเห็นเฉพาะการฝึกอบรมล่วงหน้าในเครื่องสร้างรหัสอัตโนมัติหรือเครื่องโบลต์แมนที่ จำกัด เท่านั้น
มีใครเคยเห็นวรรณกรรมเกี่ยวกับการฝึกอบรมล่วงหน้าในโครงข่ายประสาทเทียมแบบลึกหรือไม่? ฉันเห็นเฉพาะการฝึกอบรมล่วงหน้าในเครื่องสร้างรหัสอัตโนมัติหรือเครื่องโบลต์แมนที่ จำกัด เท่านั้น
คำตอบ:
ฉันไม่แน่ใจว่าสิ่งนี้ตอบคำถามของคุณอย่างแน่นอนหรือไม่ แต่จากสิ่งที่ฉันเข้าใจเหตุผลที่คุณไม่เห็นผู้คนเตรียมการไว้ล่วงหน้า ( ฉันหมายถึงสิ่งนี้ในแง่ที่ว่าไม่ได้รับการฝึกฝนมาก่อน ) ตาข่ายมั่นใจเพราะเป็นนวัตกรรมที่หลากหลาย ได้แสดงผลล่วงหน้าแล้วโดยไม่จำเป็นต้องดูแลระบบล่วงหน้า (สำหรับตอนนี้ใครจะรู้ว่าปัญหาและปัญหาในอนาคตจะเป็นอย่างไร)
หนึ่งในนวัตกรรมหลักกำลังเคลื่อนย้ายออกจาก sigmoidal (sigmoid, tanh) หน่วยการกระตุ้นซึ่งสามารถอิ่มตัว / มีพื้นที่ที่อยู่ใกล้กับความโค้งราบและการไล่ระดับสีน้อยมากจึงแพร่กระจายไปด้านหลังดังนั้นการเรียนรู้ช้ามากอย่างไม่น่าเชื่อ และวัตถุประสงค์ Glorot, Bordes และ Bengio บทความDeep Sparse Rectifier Neural Networksใช้หน่วยเชิงเส้นที่แก้ไข (ReLUs) เป็นฟังก์ชั่นการเปิดใช้งานแทนหน่วย sigmoidal แบบดั้งเดิม ReLUs มีรูปแบบต่อไปนี้:x) โปรดสังเกตว่าพวกมันไม่ได้ จำกัด และในส่วนที่เป็นบวกจะมีการไล่ระดับสีที่คงที่ 1
บทความ Glorot, Bordes และ Bengio ใช้ ReLUs สำหรับ perceptrons หลายชั้นและไม่ใช่ Conv Nets บทความก่อนหน้านี้อะไรคือสถาปัตยกรรม Multi-Stage ที่ดีที่สุดสำหรับการจดจำวัตถุโดย Jarret และคนอื่น ๆ จากกลุ่ม NYU ของ Yann LeCun ใช้การแก้ไขความไม่เชิงเส้น แต่สำหรับหน่วย sigmoidal ดังนั้นพวกเขาจึงมีฟังก์ชั่นการเปิดใช้งานในรูปแบบบทความทั้งสองตั้งข้อสังเกตอีกว่าการใช้การแก้ไขความไม่เชิงเส้นนั้นดูเหมือนว่าจะปิดช่องว่างระหว่างวิธีการที่ได้รับการควบคุมอย่างหมดจด
อีกนวัตกรรมหนึ่งคือเราได้ทำการกำหนดค่าเริ่มต้นที่ดีขึ้นมากสำหรับเครือข่ายที่ลึก การใช้ความคิดของการสร้างมาตรฐานความแปรปรวนข้ามเลเยอร์ของเครือข่ายได้สร้างกฎที่ดีในช่วงหลายปี หนึ่งในคนแรกที่ได้รับความนิยมมากที่สุดคือโดย Glorot และ Bengio การทำความเข้าใจกับความยากลำบากของการฝึกอบรมเครือข่าย Feedforward ลึกซึ่งให้วิธีการเริ่มต้นตาข่ายลึกภายใต้สมมติฐานการเปิดใช้งานเชิงเส้นและต่อมาในการขุดลึกเข้าไปในวงจรเรียงกระแสโดยกลุ่มสมาชิกในทีมงานวิจัยของ Microsoft ซึ่งปรับเปลี่ยนการกำหนดค่าเริ่มต้นน้ำหนัก Glorot และ Bengio เป็นบัญชีสำหรับการแก้ไขความไม่เชิงเส้น การกำหนดน้ำหนักเป็นเรื่องใหญ่สำหรับอวนที่ลึกมาก สำหรับตาข่าย 30 ชั้น Conv การเริ่มต้นน้ำหนัก MSR ทำได้ดีกว่าการเริ่มต้นน้ำหนัก Glorot โปรดทราบว่ากระดาษ Glorot ออกมาในปี 2010 และกระดาษ MSR ออกมาในปี 2558
ฉันไม่แน่ใจว่ากระดาษ ImageNet Classification with Deep Convolutional Neural Networksโดย Alex Krizhevsky, Ilya Sutskever และ Geoff Hinton เป็นคนแรกที่ใช้ ReLUs เพื่อใช้มุ้ง แต่มีผลกระทบมากที่สุด ในบทความนี้เราจะเห็นว่า ReLUs สำหรับการเรียนรู้ด้วยความเร็วเพิ่มขึ้นจากหลักฐานหนึ่งในกราฟ CIFAR-10 ของพวกเขาซึ่งแสดงให้เห็นว่า ReLU Convets สามารถบรรลุอัตราความผิดพลาดในการฝึกอบรมที่ต่ำกว่าเร็วกว่า non-ReLU ReLUs เหล่านี้ไม่ได้รับผลกระทบจากปัญหา sigmoidal ที่ลาดเอียง / หายไปและสามารถใช้ในการฝึกตาข่ายที่ลึกกว่านั้น หนึ่งในนวัตกรรมที่ยิ่งใหญ่อีกอย่างหนึ่งคือการใช้งานการฝึกอบรมแบบ Dropout การฉีดเสียงแบบสุ่มหรือเทคนิคการหาค่าเฉลี่ยแบบจำลอง (ขึ้นอยู่กับมุมมองของคุณ) ซึ่งช่วยให้เราสามารถฝึกอบรมเครือข่ายประสาทที่ใหญ่กว่า
และนวัตกรรมเครือข่าย Conv ยังคงดำเนินไปอย่างต่อเนื่องเกือบทุกวิธีโดยใช้ ReLUs (หรือการดัดแปลงบางอย่างเช่น PReLUs จาก Microsoft Research) การออกกลางคันและการฝึกอบรมภายใต้การดูแลอย่างใกล้ชิด (SGD + Momentum อาจเป็นเทคนิคอัตราการเรียนรู้แบบปรับตัวเช่น RMSProp หรือ ADAGrad )
ดังนั้น ณ ตอนนี้มุ้งจำนวนมากที่มีประสิทธิภาพสูงสุดดูเหมือนจะเป็นธรรมชาติที่อยู่ภายใต้การดูแลอย่างแท้จริง นั่นไม่ใช่การบอกว่าการเตรียมการล่วงหน้าหรือการใช้เทคนิคที่ไม่ได้รับการสำรองอาจไม่สำคัญในอนาคต แต่มีการฝึกฝนอวนสูงอย่างไม่น่าเชื่อได้จับคู่หรือเหนือกว่าประสิทธิภาพของมนุษย์ในชุดข้อมูลที่สมบูรณ์มากเพียงแค่ใช้การฝึกอบรมภายใต้การดูแล ในความเป็นจริงฉันเชื่อว่าการส่ง Microsoft Research ล่าสุดไปยังการประกวด ImageNet 2015 มี 150 ชั้น นั่นไม่ใช่การพิมพ์ผิด 150
หากคุณต้องการใช้ pretraining ที่ไม่ได้รับการฝึกอบรมสำหรับตาข่ายที่เชื่อถือได้ฉันคิดว่าคุณจะหางานที่ดีที่สุดที่การฝึกอบรมที่มี "มาตรฐาน" ภายใต้การดูแลของตาข่าย Conv ว่าทำงานได้ไม่ดีนักและลอง pretraining ที่ไม่ได้รับการดูแล
ซึ่งแตกต่างจากการสร้างแบบจำลองภาษาธรรมชาติดูเหมือนว่าจะยากที่จะหางานที่ไม่ได้รับการดูแลซึ่งจะช่วยให้งานที่ได้รับการดูแลนั้นสอดคล้องกับข้อมูลภาพ แต่ถ้าคุณมองไปรอบ ๆ อินเทอร์เน็ตคุณจะเห็นผู้บุกเบิกการเรียนรู้ระดับลึกบางคน (Yoshua Bengio, Yann LeCun เพื่อบอกชื่อไม่กี่คน) พูดคุยเกี่ยวกับความสำคัญที่พวกเขาคิดว่าการเรียนรู้แบบไม่มีผู้ดูแลเป็นอย่างไรและจะเป็นอย่างไร
ตามที่สามารถเข้าใจได้จากคำตอบข้างต้นการฝึกอบรมล่วงหน้านั้น 'ล้าสมัย' เมื่อมีหลายสิ่งเกิดขึ้น อย่างไรก็ตามฉันต้องการกลั่นความเข้าใจของฉัน:
คุณจะเห็นว่าการฝึกอบรมล่วงหน้าเปลี่ยนไปในรูปแบบของการเตรียมการล่วงหน้าและการเริ่มต้นน้ำหนัก แต่ยังคงใช้งานได้อยู่
ในฐานะที่เป็นโน้ตสุดท้ายการเรียนรู้ของเครื่องนั้นทันสมัยมาก ฉันเป็นการส่วนตัวที่ชอบพนันแอนดรูว์งว่าการเรียนรู้แบบไม่มีผู้ดูแลและเรียนรู้ด้วยตนเองจะมีอิทธิพลในอนาคตดังนั้นอย่าทำให้สิ่งนี้เป็นศาสนา :)
มีเอกสารบางส่วน แต่ไม่มากเท่ากับ autoencoders หรือ RBM ฉันคิดว่าเหตุผลคือเส้นเวลาของ NN RBM แบบซ้อนและ autoencoder เปิดตัวในปี 2549และ2550ตามลำดับ หลังจากการจ้างงานของ ReLU ในปี 2009การเรียนรู้แบบไม่มีผู้ดูแลถูกยกเลิกบางส่วน (เมื่อมีข้อมูลเพียงพอที่จะเรียนรู้ในการเรียนรู้แบบมีผู้สอนโดยตรง) แม้ว่า Convolution net (หรือ LeNet) จะถูกประดิษฐ์ขึ้นในปี 1989แต่ก็ไม่สามารถฝึกฝนเป็นโครงสร้างที่ลึกจนถึงปี 2012ซึ่งเป็นที่นิยมหลังจากการเรียนรู้แบบมีผู้สอนโดยตรงกับ ReLU ดังนั้นฉันคิดว่านักวิจัยได้ฝึกมันเป็นส่วนใหญ่โดยใช้การเรียนรู้แบบมีผู้สอนโดยตรง