ก่อนการฝึกอบรมในโครงข่ายประสาทเทียมแบบลึก?


33

มีใครเคยเห็นวรรณกรรมเกี่ยวกับการฝึกอบรมล่วงหน้าในโครงข่ายประสาทเทียมแบบลึกหรือไม่? ฉันเห็นเฉพาะการฝึกอบรมล่วงหน้าในเครื่องสร้างรหัสอัตโนมัติหรือเครื่องโบลต์แมนที่ จำกัด เท่านั้น

คำตอบ:


39

ฉันไม่แน่ใจว่าสิ่งนี้ตอบคำถามของคุณอย่างแน่นอนหรือไม่ แต่จากสิ่งที่ฉันเข้าใจเหตุผลที่คุณไม่เห็นผู้คนเตรียมการไว้ล่วงหน้า ( ฉันหมายถึงสิ่งนี้ในแง่ที่ว่าไม่ได้รับการฝึกฝนมาก่อน ) ตาข่ายมั่นใจเพราะเป็นนวัตกรรมที่หลากหลาย ได้แสดงผลล่วงหน้าแล้วโดยไม่จำเป็นต้องดูแลระบบล่วงหน้า (สำหรับตอนนี้ใครจะรู้ว่าปัญหาและปัญหาในอนาคตจะเป็นอย่างไร)

หนึ่งในนวัตกรรมหลักกำลังเคลื่อนย้ายออกจาก sigmoidal (sigmoid, tanh) หน่วยการกระตุ้นซึ่งสามารถอิ่มตัว / มีพื้นที่ที่อยู่ใกล้กับความโค้งราบและการไล่ระดับสีน้อยมากจึงแพร่กระจายไปด้านหลังดังนั้นการเรียนรู้ช้ามากอย่างไม่น่าเชื่อ และวัตถุประสงค์ Glorot, Bordes และ Bengio บทความDeep Sparse Rectifier Neural Networksใช้หน่วยเชิงเส้นที่แก้ไข (ReLUs) เป็นฟังก์ชั่นการเปิดใช้งานแทนหน่วย sigmoidal แบบดั้งเดิม ReLUs มีรูปแบบต่อไปนี้:x) โปรดสังเกตว่าพวกมันไม่ได้ จำกัด และในส่วนที่เป็นบวกจะมีการไล่ระดับสีที่คงที่ 1(x)=สูงสุด(0,x)

บทความ Glorot, Bordes และ Bengio ใช้ ReLUs สำหรับ perceptrons หลายชั้นและไม่ใช่ Conv Nets บทความก่อนหน้านี้อะไรคือสถาปัตยกรรม Multi-Stage ที่ดีที่สุดสำหรับการจดจำวัตถุโดย Jarret และคนอื่น ๆ จากกลุ่ม NYU ของ Yann LeCun ใช้การแก้ไขความไม่เชิงเส้น แต่สำหรับหน่วย sigmoidal ดังนั้นพวกเขาจึงมีฟังก์ชั่นการเปิดใช้งานในรูปแบบ(x)=|tanh(x)|บทความทั้งสองตั้งข้อสังเกตอีกว่าการใช้การแก้ไขความไม่เชิงเส้นนั้นดูเหมือนว่าจะปิดช่องว่างระหว่างวิธีการที่ได้รับการควบคุมอย่างหมดจด

อีกนวัตกรรมหนึ่งคือเราได้ทำการกำหนดค่าเริ่มต้นที่ดีขึ้นมากสำหรับเครือข่ายที่ลึก การใช้ความคิดของการสร้างมาตรฐานความแปรปรวนข้ามเลเยอร์ของเครือข่ายได้สร้างกฎที่ดีในช่วงหลายปี หนึ่งในคนแรกที่ได้รับความนิยมมากที่สุดคือโดย Glorot และ Bengio การทำความเข้าใจกับความยากลำบากของการฝึกอบรมเครือข่าย Feedforward ลึกซึ่งให้วิธีการเริ่มต้นตาข่ายลึกภายใต้สมมติฐานการเปิดใช้งานเชิงเส้นและต่อมาในการขุดลึกเข้าไปในวงจรเรียงกระแสโดยกลุ่มสมาชิกในทีมงานวิจัยของ Microsoft ซึ่งปรับเปลี่ยนการกำหนดค่าเริ่มต้นน้ำหนัก Glorot และ Bengio เป็นบัญชีสำหรับการแก้ไขความไม่เชิงเส้น การกำหนดน้ำหนักเป็นเรื่องใหญ่สำหรับอวนที่ลึกมาก สำหรับตาข่าย 30 ชั้น Conv การเริ่มต้นน้ำหนัก MSR ทำได้ดีกว่าการเริ่มต้นน้ำหนัก Glorot โปรดทราบว่ากระดาษ Glorot ออกมาในปี 2010 และกระดาษ MSR ออกมาในปี 2558

ฉันไม่แน่ใจว่ากระดาษ ImageNet Classification with Deep Convolutional Neural Networksโดย Alex Krizhevsky, Ilya Sutskever และ Geoff Hinton เป็นคนแรกที่ใช้ ReLUs เพื่อใช้มุ้ง แต่มีผลกระทบมากที่สุด ในบทความนี้เราจะเห็นว่า ReLUs สำหรับการเรียนรู้ด้วยความเร็วเพิ่มขึ้นจากหลักฐานหนึ่งในกราฟ CIFAR-10 ของพวกเขาซึ่งแสดงให้เห็นว่า ReLU Convets สามารถบรรลุอัตราความผิดพลาดในการฝึกอบรมที่ต่ำกว่าเร็วกว่า non-ReLU ReLUs เหล่านี้ไม่ได้รับผลกระทบจากปัญหา sigmoidal ที่ลาดเอียง / หายไปและสามารถใช้ในการฝึกตาข่ายที่ลึกกว่านั้น หนึ่งในนวัตกรรมที่ยิ่งใหญ่อีกอย่างหนึ่งคือการใช้งานการฝึกอบรมแบบ Dropout การฉีดเสียงแบบสุ่มหรือเทคนิคการหาค่าเฉลี่ยแบบจำลอง (ขึ้นอยู่กับมุมมองของคุณ) ซึ่งช่วยให้เราสามารถฝึกอบรมเครือข่ายประสาทที่ใหญ่กว่า

และนวัตกรรมเครือข่าย Conv ยังคงดำเนินไปอย่างต่อเนื่องเกือบทุกวิธีโดยใช้ ReLUs (หรือการดัดแปลงบางอย่างเช่น PReLUs จาก Microsoft Research) การออกกลางคันและการฝึกอบรมภายใต้การดูแลอย่างใกล้ชิด (SGD + Momentum อาจเป็นเทคนิคอัตราการเรียนรู้แบบปรับตัวเช่น RMSProp หรือ ADAGrad )

ดังนั้น ณ ตอนนี้มุ้งจำนวนมากที่มีประสิทธิภาพสูงสุดดูเหมือนจะเป็นธรรมชาติที่อยู่ภายใต้การดูแลอย่างแท้จริง นั่นไม่ใช่การบอกว่าการเตรียมการล่วงหน้าหรือการใช้เทคนิคที่ไม่ได้รับการสำรองอาจไม่สำคัญในอนาคต แต่มีการฝึกฝนอวนสูงอย่างไม่น่าเชื่อได้จับคู่หรือเหนือกว่าประสิทธิภาพของมนุษย์ในชุดข้อมูลที่สมบูรณ์มากเพียงแค่ใช้การฝึกอบรมภายใต้การดูแล ในความเป็นจริงฉันเชื่อว่าการส่ง Microsoft Research ล่าสุดไปยังการประกวด ImageNet 2015 มี 150 ชั้น นั่นไม่ใช่การพิมพ์ผิด 150

หากคุณต้องการใช้ pretraining ที่ไม่ได้รับการฝึกอบรมสำหรับตาข่ายที่เชื่อถือได้ฉันคิดว่าคุณจะหางานที่ดีที่สุดที่การฝึกอบรมที่มี "มาตรฐาน" ภายใต้การดูแลของตาข่าย Conv ว่าทำงานได้ไม่ดีนักและลอง pretraining ที่ไม่ได้รับการดูแล

ซึ่งแตกต่างจากการสร้างแบบจำลองภาษาธรรมชาติดูเหมือนว่าจะยากที่จะหางานที่ไม่ได้รับการดูแลซึ่งจะช่วยให้งานที่ได้รับการดูแลนั้นสอดคล้องกับข้อมูลภาพ แต่ถ้าคุณมองไปรอบ ๆ อินเทอร์เน็ตคุณจะเห็นผู้บุกเบิกการเรียนรู้ระดับลึกบางคน (Yoshua Bengio, Yann LeCun เพื่อบอกชื่อไม่กี่คน) พูดคุยเกี่ยวกับความสำคัญที่พวกเขาคิดว่าการเรียนรู้แบบไม่มีผู้ดูแลเป็นอย่างไรและจะเป็นอย่างไร


1
ฉันได้เห็นในบทสอนของ Stanford เรื่อง ConvNet ว่ามีการเตรียมการล่วงหน้าในเครือข่ายประสาทเทียม นี่คือลิงค์: cs231n.github.io/transfer-learningสิ่งเหล่านี้แตกต่างกันหรือไม่? เนื่องจากพวกเขากำลังทำสิ่งเดียวกันจริง ๆ ใช่ไหม
Rika

2
เฮ้ฉันขอโทษที่ตอบช้า การถ่ายโอนการเรียนรู้ทำได้หลายอย่าง มันถูกใช้เพื่อหลีกเลี่ยงงานที่น่าเบื่อของการฝึกฝนตั้งแต่เริ่มต้นและแทนที่จะใช้คุณสมบัติที่ได้รับการฝึกฝนบนชุดข้อมูลขนาดใหญ่เช่น ImageNet และเราจะฝึกอบรมตัวจําแนกแทนเฉพาะบนคุณลักษณะเหล่านั้นแทน ฉันได้อัปเดตคำตอบเพื่อระบุว่าวันนี้คุณไม่เห็นpretraining ที่ไม่มีผู้ดูแลจำนวนมากซึ่งไม่เหมือนกับการเรียนรู้การถ่ายโอน ขอบคุณสำหรับความคิดเห็น
Indie AI

+1 คำตอบที่ดีมาก สิ่งที่ฉันขาดหายไปมีการพูดคุยหรือแสดงความคิดเห็นว่าคุณกำลังพูดอะไร (เช่นไม่จำเป็นต้องมีการเตรียมตัวล่วงหน้า) นำไปใช้เฉพาะกับเครือข่ายประสาทเทียม (ถ้าเป็นเช่นนั้นทำไม?) หรือกับเครือข่ายลึก ๆ คนที่สลับซับซ้อน
อะมีบาพูดว่า Reinstate Monica

14

ตามที่สามารถเข้าใจได้จากคำตอบข้างต้นการฝึกอบรมล่วงหน้านั้น 'ล้าสมัย' เมื่อมีหลายสิ่งเกิดขึ้น อย่างไรก็ตามฉันต้องการกลั่นความเข้าใจของฉัน:

  1. นานมาแล้วในปี 2010 ทุกคนใส่ใจเกี่ยวกับการฝึกอบรมล่วงหน้า นี่เป็นบทความที่ยอดเยี่ยมเกี่ยวกับเรื่องที่ฉันไม่เห็นว่านำขึ้นมา
  2. ก่อนหน้านี้เล็กน้อยก่อนที่ Alex Krizhevsky, Ilya Sutskever และ Geoff Hinton ได้ตีพิมพ์กระดาษ imagenet ของพวกเขาผู้คนยังคงเชื่อว่าคุณสมบัติที่สำคัญนั้นมี แต่ส่วนใหญ่มุ่งเน้นไปที่การเรียนรู้ที่ไม่ได้รับการฝึกฝนและแม้แต่การเรียนรู้ด้วยตนเอง
  3. ไม่ยากเลยที่จะดูว่าทำไม - หน่วยการสร้างของเครือข่ายประสาทในเวลานั้นไม่แข็งแรงและรวมตัวกันอย่างช้าๆเป็นคุณสมบัติที่มีประโยชน์ หลายครั้งที่พวกเขาล้มเหลวอย่างงดงาม การฝึกอบรมพื้นฐานมีประโยชน์เมื่อคุณมีข้อมูลเพียงพอคุณสามารถเริ่มต้นได้ดีสำหรับ SGD
  4. เมื่อนำ relu ขึ้นมาเครือข่ายก็จะรวมกันเร็วขึ้น เมื่อ relu รั่วและการแก้ปัญหาล่าสุดที่ถูกนำขึ้นมามุ้งประสาทกลายเป็นเครื่องจักรที่มีประสิทธิภาพมากขึ้นเมื่อมันมาถึงการบรรจบกันเพื่อให้ได้ผลลัพธ์ที่ทำงานได้ ฉันขอแนะนำให้คุณเล่นกับตัวอย่างโครงข่ายประสาทเทียมที่ยอดเยี่ยม googler ที่มีความสามารถนี้เขียนไว้คุณจะเห็นสิ่งที่ฉันกำลังพูดถึง
  5. มาถึงประเด็นหลักของเรานั่นคือไม่ได้บอกว่ารูปแบบของการฝึกอบรมพื้นฐานบางอย่างไม่สำคัญในการเรียนรู้อย่างลึกซึ้ง หากคุณต้องการได้ผลลัพธ์ที่ทันสมัยคุณต้องทำการประมวลผลข้อมูลล่วงหน้า (เช่น ZCA) และเลือกน้ำหนักเริ่มต้นอย่างเหมาะสม - นี่เป็นบทความที่ดีมากสำหรับเรื่องนี้

คุณจะเห็นว่าการฝึกอบรมล่วงหน้าเปลี่ยนไปในรูปแบบของการเตรียมการล่วงหน้าและการเริ่มต้นน้ำหนัก แต่ยังคงใช้งานได้อยู่

ในฐานะที่เป็นโน้ตสุดท้ายการเรียนรู้ของเครื่องนั้นทันสมัยมาก ฉันเป็นการส่วนตัวที่ชอบพนันแอนดรูว์งว่าการเรียนรู้แบบไม่มีผู้ดูแลและเรียนรู้ด้วยตนเองจะมีอิทธิพลในอนาคตดังนั้นอย่าทำให้สิ่งนี้เป็นศาสนา :)


13

มีเอกสารบางส่วน แต่ไม่มากเท่ากับ autoencoders หรือ RBM ฉันคิดว่าเหตุผลคือเส้นเวลาของ NN RBM แบบซ้อนและ autoencoder เปิดตัวในปี 2549และ2550ตามลำดับ หลังจากการจ้างงานของ ReLU ในปี 2009การเรียนรู้แบบไม่มีผู้ดูแลถูกยกเลิกบางส่วน (เมื่อมีข้อมูลเพียงพอที่จะเรียนรู้ในการเรียนรู้แบบมีผู้สอนโดยตรง) แม้ว่า Convolution net (หรือ LeNet) จะถูกประดิษฐ์ขึ้นในปี 1989แต่ก็ไม่สามารถฝึกฝนเป็นโครงสร้างที่ลึกจนถึงปี 2012ซึ่งเป็นที่นิยมหลังจากการเรียนรู้แบบมีผู้สอนโดยตรงกับ ReLU ดังนั้นฉันคิดว่านักวิจัยได้ฝึกมันเป็นส่วนใหญ่โดยใช้การเรียนรู้แบบมีผู้สอนโดยตรง


ดังนั้นคุณยอมรับว่ายังไม่มีการฝึกอบรมล่วงหน้าในโครงข่ายประสาทเทียมที่ลึกซึ้ง?
RockTheStar

4
@ RockTheStar ไม่มี แต่ไม่มากเท่ากับสองก่อนหน้า research.microsoft.com/pubs/200804/CNN-Interspeech2013_pub.pdf งานวิจัยนี้ได้ใช้แล้ว นี่คือคำพูดสั้น ๆ ; "เราสังเกตว่าการฝึกอบรมล่วงหน้าช่วยเพิ่มทั้ง DNN และ CNN ยกเว้น CNN ใน TIMIT ที่ pretraining ไม่ได้ช่วยโดยทั่วไปการปรับปรุงสัมพัทธ์ของการใช้ pretraining สำหรับ CNN นั้นน้อยกว่า DNN"
yasin.yazici
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.