NNs ที่เรียนรู้อย่างลึกซึ้งแตกต่างจากตอนที่ฉันเรียนเพียง 4 ปีที่แล้ว (2012) อย่างไร


13

มีการกล่าวในWikipediaและdeeplearning4jว่าการเรียนรู้ระดับลึก NN (DLNN) เป็น NN ที่มีเลเยอร์ที่ซ่อนอยู่> 1

NN ประเภทนี้เป็นมาตรฐานที่มหาวิทยาลัยสำหรับฉันในขณะที่ DLNN นั้นถูก hyped มากในตอนนี้ เคยไปทำแล้ว - เรื่องใหญ่อะไร

ฉันได้ยินมาด้วยว่า NN ที่ซ้อนกันนั้นถือว่าเป็นการเรียนรู้อย่างลึกซึ้ง การเรียนรู้อย่างลึกซึ้งเป็นอย่างไร

ภูมิหลังของฉันใน NN ส่วนใหญ่มาจากมหาวิทยาลัยไม่ใช่จากงาน:

  • การศึกษาการใช้งานของ NN ในอุตสาหกรรม
  • มีประมาณ 5 หลักสูตรเกี่ยวกับ artif Intel & จักร เรียน - แม้ว่าอาจจะมี 2 คนใน NN
  • ใช้ NN สำหรับโครงการขนาดเล็กและเรียบง่ายเกี่ยวกับการจดจำภาพ - ใช้ NN-Feed Feed-Forward 3 ชั้น
  • ไม่ได้ทำการวิจัยจริง (เหมือนในวิทยานิพนธ์ของแพทย์) กับพวกเขา

@NeilSlater: ฉันศึกษาพวกมันอย่างหนาแน่นที่สุดในรอบปี 2012
Make42

คำตอบ:


23

คุณถูกต้องแล้วที่แนวคิดพื้นฐานของ NN ลึกไม่ได้เปลี่ยนไปตั้งแต่ปี 2012 แต่มีการปรับปรุงหลายวิธีในการฝึกอบรม NN ที่ลึกซึ่งทำให้พวกเขามีประสิทธิภาพมากขึ้นในเชิงคุณภาพ ปัจจุบันมีสถาปัตยกรรมที่หลากหลายให้เลือกมากมาย ฉันได้แสดงรายการการพัฒนาบางส่วนตั้งแต่ปี 2012 จัดกลุ่มตามการปรับปรุงการฝึกอบรมและการปรับปรุงสถาปัตยกรรม:

การปรับปรุงการฝึกอบรม NN ลึก

  • ฮาร์ดแวร์ : การเปลี่ยนแปลงที่ชัดเจนที่สุดคือความก้าวหน้าของกฎหมายของมัวร์ วันนี้มีพลังในการคำนวณมากขึ้น การประมวลผลแบบคลาวด์ยังทำให้ผู้ใช้สามารถฝึกอบรม NNs ขนาดใหญ่ได้โดยง่ายโดยไม่จำเป็นต้องซื้ออุปกรณ์ขนาดใหญ่

  • ซอฟต์แวร์ : ซอฟต์แวร์โอเพนซอร์ซสำหรับการเรียนรู้อย่างลึกซึ้งนั้นได้รับการปรับปรุงให้ดีขึ้นอย่างมากตั้งแต่ปี 2555 ย้อนกลับไปในปี 2555 นั่นก็คือ Theano ซึ่งอาจเป็น Caffe เช่นกัน ฉันแน่ใจว่ามีบางคนเช่นกัน แต่วันนี้เรายังมี TensorFlow, Torch, Paddle และ CNTK ซึ่งทั้งหมดได้รับการสนับสนุนโดย บริษัท เทคโนโลยีขนาดใหญ่ สิ่งนี้เกี่ยวข้องอย่างใกล้ชิดกับหัวข้อย่อยของฮาร์ดแวร์เนื่องจากแพลตฟอร์มเหล่านี้ทำให้การฝึกอบรมบน GPU เป็นเรื่องง่ายซึ่งจะช่วยเพิ่มความเร็วในการฝึกอบรมได้อย่างมาก

  • ฟังก์ชั่นการเปิดใช้งาน : การใช้ฟังก์ชั่นการเปิดใช้งาน ReLU น่าจะเป็นที่แพร่หลายมากขึ้นในทุกวันนี้ซึ่งทำให้การฝึกอบรมเครือข่ายลึกง่ายขึ้น ในด้านการวิจัยมีฟังก์ชั่นการเปิดใช้งานที่หลากหลายซึ่งรวมถึงReLU ที่รั่ว , Parametric ReLUและmaxout units ที่หลากหลาย

  • อัลกอริธึมการเพิ่มประสิทธิภาพ : ปัจจุบันมีอัลกอริธึมการเพิ่มประสิทธิภาพมากกว่านี้ AdagradและAdadeltaเพิ่งเปิดตัวในปี 2011 และ 2012 ตามลำดับ แต่ตอนนี้เรายังมีเครื่องมือเพิ่มประสิทธิภาพของอดัมและมันก็กลายเป็นตัวเลือกยอดนิยม

  • การออกกลางคัน : ในช่วงไม่กี่ปีที่ผ่านมาการออกกลางคันได้กลายเป็นเครื่องมือมาตรฐานสำหรับการทำให้เป็นมาตรฐานเมื่อฝึกเครือข่ายประสาท การออกกลางคันเป็นรูปแบบการรวมกลุ่มที่ไม่แพงสำหรับ NNs โดยทั่วไปชุดของแบบจำลองที่ผ่านการฝึกอบรมเกี่ยวกับตัวอย่างแบบสุ่มของชุดข้อมูลจะมีประสิทธิภาพสูงกว่าแบบจำลองเดียวที่ผ่านการฝึกอบรมในชุดข้อมูลทั้งหมด นี่เป็นเรื่องยากที่จะทำอย่างชัดเจนสำหรับ NNs เพราะพวกเขามีราคาแพงมากในการฝึกอบรม แต่เอฟเฟกต์ที่คล้ายกันนี้สามารถประมาณได้โดยการสุ่ม "ปิด" เซลล์ประสาทในแต่ละขั้นตอน กราฟย่อยที่แตกต่างกันใน NN จบลงด้วยการฝึกอบรมชุดข้อมูลที่แตกต่างกันและด้วยเหตุนี้จึงเรียนรู้สิ่งต่าง ๆ เช่นนี้อาจทำให้ NN โดยรวมมีความทนทานต่อการ overfitting มากขึ้น การออกกลางคันเป็นเทคนิคง่ายๆที่ดูเหมือนว่าจะปรับปรุงประสิทธิภาพในเกือบทุกกรณีดังนั้นจึงเป็น '

  • การทำให้เป็นมาตรฐานของแบทช์ : เป็นที่ทราบกันมานานแล้วว่า NNs ฝึกอบรมได้ดีที่สุดกับข้อมูลที่ได้รับการทำให้เป็นมาตรฐาน --- นั่นคือค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วยเป็นศูนย์ ในเครือข่ายที่ลึกมาก ๆ เมื่อข้อมูลผ่านแต่ละเลเยอร์อินพุทจะถูกแปลงและโดยทั่วไปจะลอยไปสู่การกระจายที่ไม่มีคุณสมบัติที่ดีและเป็นมาตรฐาน สิ่งนี้ทำให้การเรียนรู้ในชั้นลึก ๆ เหล่านี้ยากขึ้นเพราะจากมุมมองของมันอินพุตไม่ได้มีค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย ค่าเฉลี่ยอาจมีขนาดใหญ่มากและค่าความแปรปรวนอาจน้อยมาก การปรับสภาพแบทช์ให้ความสำคัญกับเรื่องนี้โดยการแปลงอินพุตเป็นเลเยอร์ให้มีค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย ดูเหมือนว่าจะมีประสิทธิภาพอย่างมากในการฝึกอบรม NN ที่ลึกล้ำ

  • ทฤษฎี : จนกระทั่งเมื่อไม่นานมานี้มันคิดว่าเหตุผลที่ NNs ลึกฝึกยากนั่นคืออัลกอริธึมการปรับให้เหมาะสมติดอยู่ในท้องถิ่นน้อยที่สุดและมีปัญหาในการออกและค้นหาโลกน้อยที่สุด ในช่วงสี่ปีที่ผ่านมามีการศึกษาจำนวนหนึ่งที่ดูเหมือนจะบ่งบอกว่าสัญชาตญาณนี้ผิด (เช่นGoodfellow และคณะ 2014) ในพื้นที่พารามิเตอร์ที่มีมิติสูงมากของ NN ลึกสุดยอดท้องถิ่นมีแนวโน้มที่จะไม่เลวร้ายยิ่งไปกว่าโลกน้อยมาก ปัญหาคือว่าเมื่อการฝึกอบรม NN สามารถพบตัวเองบนที่ราบสูงที่กว้างและยาว นอกจากนี้ที่ราบสูงเหล่านี้สามารถสิ้นสุดอย่างกระทันหันในหน้าผาสูงชัน ถ้า NN ทำตามขั้นตอนเล็ก ๆ มันใช้เวลานานมากในการเรียนรู้ แต่ถ้าขั้นตอนมีขนาดใหญ่เกินไปก็จะพบว่ามีการไล่ระดับสีอย่างมากเมื่อมันไหลลงสู่หน้าผาซึ่งจะยกเลิกการทำงานก่อนหน้านี้ทั้งหมด (สิ่งนี้สามารถหลีกเลี่ยงได้ด้วยการตัดการไล่ระดับสีซึ่งเป็นอีกนวัตกรรมหลังปี 2012)

สถาปัตยกรรมใหม่

  • เครือข่ายที่เหลือ : นักวิจัยที่ได้รับสามารถในการฝึกอบรมเครือข่ายลึกอย่างไม่น่าเชื่อโดยใช้ (มากกว่า 1000 ชั้น!) เครือข่ายที่เหลือ แนวคิดที่นี่คือแต่ละชั้นไม่เพียง แต่รับผลลัพธ์จากเลเยอร์ก่อนหน้า แต่ยังรวมถึงอินพุตดั้งเดิมด้วย หากได้รับการฝึกฝนอย่างถูกต้องสิ่งนี้จะกระตุ้นให้แต่ละชั้นเรียนรู้สิ่งที่แตกต่างจากชั้นก่อนหน้าเพื่อให้แต่ละชั้นเพิ่มเติมเพิ่มข้อมูล

  • เครือข่ายที่กว้างและลึก : เครือข่ายที่กว้างและตื้นมีแนวโน้มที่จะจดจำการแมประหว่างอินพุตและเอาต์พุตของพวกเขาได้อย่างง่ายดาย เครือข่ายที่ลึกพูดคุยกันดีกว่ามาก โดยปกติแล้วคุณต้องการภาพรวมที่ดี แต่มีบางสถานการณ์เช่นระบบคำแนะนำซึ่งการท่องจำอย่างง่ายโดยไม่มีการวางนัยก็เป็นสิ่งสำคัญเช่นกัน ในกรณีเหล่านี้คุณต้องการมอบโซลูชันที่ดีและมีสาระสำคัญเมื่อผู้ใช้สร้างคิวรีทั่วไป แต่โซลูชันที่แม่นยำมากเมื่อผู้ใช้สร้างคิวรีเฉพาะ เครือข่ายที่กว้างและลึกสามารถตอบสนองภารกิจนี้ได้เป็นอย่างดี

  • เครื่องทัวริงประสาท : ข้อบกพร่องของเอ็นเอ็นกำเริบแบบดั้งเดิม (ไม่ว่าจะเป็น RNN มาตรฐานหรือสิ่งที่ซับซ้อนกว่าเช่น LSTM) คือหน่วยความจำของพวกเขาค่อนข้าง "ใช้งานง่าย" พวกเขาจัดการเพื่อจดจำอินพุตที่ผ่านมาโดยบันทึกการเปิดใช้งานเลเยอร์ที่ซ่อนอยู่ที่พวกเขาผลิตในอนาคต อย่างไรก็ตามบางครั้งมันก็สมเหตุสมผลดีกว่าที่จะเก็บข้อมูลบางอย่างไว้อย่างชัดเจน (นี่อาจเป็นความแตกต่างระหว่างการเขียนหมายเลขโทรศัพท์ลงบนแผ่นกระดาษกับการจดจำว่าหมายเลขนั้นมีประมาณ 7 หลักและมีสองสามวินาทีในนั้นและอาจมีเส้นประอยู่ตรงกลาง) เครื่องทัวริงประสาทเป็นวิธีหนึ่งในการแก้ไขปัญหานี้ แนวคิดคือเครือข่ายสามารถเรียนรู้ที่จะให้ข้อมูลบางอย่างกับธนาคารหน่วยความจำได้อย่างชัดเจน สิ่งนี้ไม่ตรงไปตรงมาเพราะอัลกอริทึม backprop ต้องการฟังก์ชันที่แตกต่างกัน แต่การส่งข้อมูลไปยังที่อยู่หน่วยความจำเป็นการดำเนินการที่ไม่ต่อเนื่องโดยกำเนิด ดังนั้นทัวริงเครื่องประสาทรับรอบนี้โดยการส่งข้อมูลเล็กน้อยเพื่อกระจายที่อยู่หน่วยความจำที่แตกต่างกัน สถาปัตยกรรมเหล่านี้ดูเหมือนจะทำงานได้ไม่ดีนัก แต่ความคิดนั้นสำคัญมาก ตัวแปรเหล่านี้บางส่วนอาจจะแพร่หลายในอนาคต

  • เครือข่ายฝ่ายต่อต้านทั่วไป : GANsเป็นความคิดที่น่าตื่นเต้นมากซึ่งดูเหมือนว่าจะเห็นการใช้งานจริงจำนวนมากอยู่แล้ว แนวคิดที่นี่คือการฝึกอบรม NNS สองตัวพร้อมกัน: อันที่พยายามสร้างตัวอย่างจากการแจกแจงความน่าจะเป็นพื้นฐาน (ตัวกำเนิด) และอีกอันที่พยายามแยกแยะความแตกต่างระหว่างจุดข้อมูลจริงและจุดข้อมูลปลอมที่สร้างโดยเครื่องกำเนิด (ผู้แยก) ตัวอย่างเช่นหากชุดข้อมูลของคุณคือชุดของรูปภาพห้องนอนเครื่องกำเนิดไฟฟ้าจะพยายามสร้างรูปห้องนอนของตัวเองและผู้จำแนกจะพยายามคิดออกว่ามันกำลังดูรูปจริงของห้องนอนหรือรูปปลอมของห้องนอน ในท้ายที่สุดคุณมี NNs ที่มีประโยชน์มากสองอย่าง: อันที่ดีในการจำแนกภาพเป็นห้องนอนหรือไม่ใช่ห้องนอนและอีกอันที่ดีในการสร้างภาพที่เหมือนจริงของห้องนอน


จุดดี! ฉันไม่ได้ตระหนักว่าการออกกลางคันเป็นการพัฒนาเร็ว ๆ นี้! ฉันได้เพิ่มตอนนี้ ขอบคุณ!
J. O'Brien Antognini

0

การเรียนรู้เชิงลึก (และโดยเฉพาะอย่างยิ่งเครือข่ายประสาทที่ซับซ้อน) เป็นที่นิยมมากในขณะนี้เนื่องจากการปรับปรุงล่าสุดในการตรวจจับการมองเห็น / การตรวจจับวัตถุที่หลากหลาย โดยเฉพาะอย่างยิ่งคอนเซ็ปท์ถูกนำมาใช้เพื่อลดข้อผิดพลาดการจัดหมวดหมู่ของ ImageNet จาก 28% ในปี 2010 เป็น 7% ในปี 2014 การเรียนรู้ที่ลึกล้ำเกินไป แต่ก็ไม่ควรเบี่ยงเบนไปจากความจริงที่ว่ามีการปรับปรุงที่มีความหมาย


DLNN อยู่มาได้ซักพักแล้ว - แต่พวกเขาได้รับการปรับให้ทำงานได้ดีเมื่อเร็ว ๆ นี้ มันคืออะไร
Make42

นอกจากนี้คำจำกัดความคืออะไร?
Make42

ใช่พวกเขาอยู่ใกล้ ๆ กันมานาน แต่พวกเขาดังขึ้นเรื่อย ๆ เพราะตอนนี้พวกเขาปรับจูนอย่างมีประสิทธิภาพมากขึ้น เช่นเดียวกับ Neil Slater ที่กล่าวว่า DL ถูกนิยามอย่างกว้าง ๆ เพราะมันเป็นคำศัพท์ ฉันจะกำหนดเป็นเครือข่ายใด ๆ ที่มีเลเยอร์ที่ซ่อนอยู่มากกว่า 3 ชั้น DL ยังรวมถึงมุ้งที่เชื่อมต่ออย่างสมบูรณ์ตัวเข้ารหัสอัตโนมัติและมุ้งที่ซับซ้อน อวนซ้ำอาจตกอยู่ภายใต้หมวดหมู่ DL โดยขึ้นอยู่กับว่าคุณถามใคร
Ryan Zotti

0
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.