เริ่มจากเรื่องไม่สำคัญ: เครือข่ายระบบประสาทลึกเป็นเพียงเครือข่ายอาหารที่มีเลเยอร์ที่ซ่อนอยู่มากมาย
นี่คือสิ่งที่จะพูดเกี่ยวกับความหมายมากขึ้นหรือน้อยลง โครงข่ายประสาทเทียมสามารถเกิดขึ้นอีกหรือป้อนไปข้างหน้า ฟีดข้างหน้าไม่มีลูปใด ๆ ในกราฟและสามารถจัดเรียงเป็นชั้นได้ หากมี "มาก" ชั้นแล้วเราบอกว่าเครือข่ายที่มีความลึก
วิธีการหลายชั้นเครือข่ายไม่จำเป็นต้องมีเพื่อให้มีคุณสมบัติเป็นลึก? ไม่มีคำตอบที่ชัดเจนเกี่ยวกับเรื่องนี้ (มันเหมือนกับถามว่ามีกี่ธัญพืชที่ทำกอง ) แต่โดยปกติแล้วการมีสองชั้นที่ซ่อนอยู่นับเป็นชั้นลึก ในทางตรงกันข้ามเครือข่ายที่มีเลเยอร์ที่ซ่อนอยู่เพียงชั้นเดียวเรียกว่า "ตื้น" ฉันสงสัยว่าจะมีอัตราเงินเฟ้อเกิดขึ้นที่นี่และในอีกสิบปีคนอาจคิดว่าอะไรก็ตามที่น้อยกว่าพูดสิบชั้นนั้นตื้นและเหมาะสำหรับการออกกำลังกายในโรงเรียนอนุบาลเท่านั้น "ลึก" อย่างไม่เป็นทางการแสดงให้เห็นว่าเครือข่ายยากที่จะจัดการ
นี่คือภาพประกอบดัดแปลงมาจากที่นี่ :
แต่คำถามจริงที่คุณถามคือแน่นอนว่าทำไมการมีหลายเลเยอร์จึงมีประโยชน์
ฉันคิดว่าคำตอบที่น่าประหลาดใจคือไม่มีใครรู้จริง ๆ มีคำอธิบายทั่วไปบางอย่างที่ฉันจะตรวจสอบโดยย่อด้านล่าง แต่ก็ไม่มีใครแสดงให้เห็นว่าเป็นเรื่องจริงและไม่มีใครแน่ใจได้ว่าการมีหลายเลเยอร์นั้นมีประโยชน์จริงๆ
ฉันบอกว่านี่เป็นสิ่งที่น่าประหลาดใจเพราะการเรียนรู้อย่างลึกล้ำนั้นได้รับความนิยมอย่างมากทำลายสถิติทั้งหมด (จากการจดจำรูปภาพไปจนถึงการเล่นไปที่การแปลอัตโนมัติ ฯลฯ ) ทุก ๆ ปีกำลังถูกใช้โดยอุตสาหกรรม ฯลฯ และอื่น ๆ เรายังคงไม่ได้ค่อนข้างแน่ใจว่าทำไมมันได้ผลดี
ฉันฐานการอภิปรายของฉันในการเรียนรู้ลึกหนังสือโดย Goodfellow, Bengio และ Courville ซึ่งก็ออกไปในปี 2017 และได้รับการยอมรับอย่างกว้างขวางว่าเป็นหนังสือเกี่ยวกับการเรียนรู้ลึก (สามารถออนไลน์ได้อย่างอิสระ) ส่วนที่เกี่ยวข้องคือ6.4.1 คุณสมบัติการประมาณและความลึกโดยทั่วไป
คุณเขียนว่า
10 ปีที่แล้วในชั้นเรียนฉันได้เรียนรู้ว่าการมีหลายเลเยอร์หรือหนึ่งเลเยอร์ (ไม่นับอินพุทและเลเยอร์เอาท์พุท) เทียบเท่าในแง่ของฟังก์ชั่นที่เครือข่ายประสาทเทียมสามารถแสดง [... ]
คุณต้องอ้างถึงทฤษฎีบทประมาณสากลที่เรียกว่าพิสูจน์โดย Cybenko ในปี 1989 และได้รับการรับรองโดยบุคคลต่างๆในปี 1990 มันเป็นพื้นกล่าวว่าเครือข่ายประสาทตื้น (1 ชั้นที่ซ่อนอยู่) สามารถประมาณใด ๆฟังก์ชั่นคือสามารถในหลักการเรียนรู้อะไร สิ่งนี้เป็นจริงสำหรับฟังก์ชั่นการเปิดใช้งานแบบไม่เชิงเส้นต่าง ๆ รวมถึงหน่วยเชิงเส้นที่แก้ไขแล้วซึ่งเครือข่ายประสาทส่วนใหญ่ใช้อยู่ในปัจจุบัน (หนังสืออ้างอิงLeshno et al. 1993สำหรับผลลัพธ์นี้)
ถ้าเป็นเช่นนั้นแล้วทำไมทุกคนใช้มุ้งลึก
คำตอบที่ไร้เดียงสาก็คือเพราะพวกเขาทำงานได้ดีขึ้น นี่คือรูปจากหนังสือการเรียนรู้เชิงลึกที่แสดงว่ามันช่วยให้มีเลเยอร์มากขึ้นในงานหนึ่งโดยเฉพาะ แต่ปรากฏการณ์เดียวกันนี้มักพบเห็นได้ทั่วทั้งงานและโดเมนต่าง ๆ :
เรารู้ว่าเครือข่ายตื้นสามารถทำงานได้ดีเหมือนเครือข่ายที่ลึกกว่า แต่มันไม่ได้; และพวกเขามักจะทำไม่ได้ คำถามคือ --- ทำไม คำตอบที่เป็นไปได้:
- บางทีเครือข่ายตื้น ๆ อาจต้องการเซลล์ประสาทมากขึ้น
- บางทีเครือข่ายแบบตื้นอาจจะฝึกได้ยากกว่าด้วยอัลกอริธึมปัจจุบันของเรา (เช่นมีมินิมาท้องถิ่นที่น่ารังเกียจมากกว่าหรืออัตราการคอนเวอร์เจนซ์ช้ากว่าหรืออะไรก็ตาม)?
- บางทีสถาปัตยกรรมที่ตื้นไม่เหมาะกับปัญหาที่เรามักจะพยายามแก้ไข (เช่นการรู้จำวัตถุเป็นกระบวนการ "เชิงลึก" ที่เป็นแก่นสารสำคัญ)?
- อื่น ๆ อีก?
การเรียนรู้ลึกหนังสือระบุว่าสำหรับจุด bullet # 1 และ # 3 ข้อแรกมันให้เหตุผลว่าจำนวนหน่วยในเครือข่ายตื้นเติบโตขึ้นชี้แจงกับความซับซ้อนของงาน ดังนั้นเพื่อให้มีประโยชน์เครือข่ายที่ตื้นอาจต้องมีขนาดใหญ่มาก อาจใหญ่กว่าเครือข่ายที่ลึกมาก สิ่งนี้ขึ้นอยู่กับเอกสารจำนวนมากที่พิสูจน์ว่าเครือข่ายตื้น ๆในบางกรณีจำเป็นต้องมีเซลล์ประสาทจำนวนมาก แต่ไม่ว่าจะเป็นเช่นการจำแนกประเภท MNIST หรือ Go play เป็นกรณีดังกล่าวไม่ชัดเจน ประการที่สองหนังสือพูดว่า:
การเลือกแบบจำลองลึกจะเข้ารหัสความเชื่อโดยทั่วไปว่าฟังก์ชันที่เราต้องการเรียนรู้ควรเกี่ยวข้องกับการจัดองค์ประกอบของฟังก์ชั่นที่เรียบง่ายหลายอย่าง สิ่งนี้สามารถตีความได้จากมุมมองการเรียนรู้ที่เป็นตัวแทนว่าเราเชื่อว่าปัญหาการเรียนรู้ประกอบด้วยการค้นพบชุดของปัจจัยพื้นฐานของความแปรปรวนที่สามารถอธิบายได้ในแง่ของปัจจัยอื่น ๆ
ฉันคิดว่า "ฉันทามติ" ในปัจจุบันคือมันเป็นการรวมกันของสัญลักษณ์แสดงหัวข้อย่อย # 1 และ # 3: สำหรับงานในโลกแห่งความเป็นจริงสถาปัตยกรรมเชิงลึกมักเป็นประโยชน์และสถาปัตยกรรมตื้นจะไม่มีประสิทธิภาพและต้องใช้เซลล์ประสาทมากขึ้นสำหรับประสิทธิภาพเดียวกัน
แต่มันก็ยังห่างไกลจากการพิสูจน์แล้ว พิจารณาเช่นZagoruyko และ Komodakis 2016 เครือข่ายที่เหลือไวด์ เครือข่ายที่เหลือซึ่งมีเลเยอร์มากกว่า 150 เลเยอร์ปรากฏในปี 2558และชนะการประกวดการจดจำรูปภาพหลายรูปแบบ นี่เป็นความสำเร็จครั้งยิ่งใหญ่และดูเหมือนจะเป็นข้อโต้แย้งที่น่าดึงดูดสำหรับความลึก นี่คือรูปหนึ่งจากงานนำเสนอโดยผู้เขียนคนแรกบนกระดาษเครือข่ายที่เหลือ (โปรดทราบว่าเวลาที่สับสนไปทางซ้ายที่นี่):
แต่กระดาษที่เชื่อมโยงข้างต้นแสดงให้เห็นว่าเครือข่ายที่เหลือ "กว้าง" ที่มี "เพียง" 16 ชั้นเท่านั้นที่จะมีประสิทธิภาพสูงกว่าเครือข่ายที่ลึกกว่าที่มี 150 ชั้น หากเป็นจริงแล้วจุดรวมของรูปด้านบนจะพังลง
หรือพิจารณาBa และ Caruana, 2014, Deep Net ต้องเป็น Deep หรือไม่? :
ในบทความนี้เราให้หลักฐานเชิงประจักษ์ว่าตาข่ายตื้นสามารถเรียนรู้การทำงานเหมือนกับตาข่ายลึกและในบางกรณีมีจำนวนพารามิเตอร์เท่ากันกับตาข่ายลึก เราทำสิ่งนี้โดยการฝึกอบรมรูปแบบล้ำสมัยที่ล้ำสมัยเป็นครั้งแรกจากนั้นทำการฝึกอบรมแบบจำลองน้ำตื้นเพื่อเลียนแบบตัวแบบลึก รุ่นเลียนแบบได้รับการฝึกฝนโดยใช้รูปแบบการบีบอัดแบบที่อธิบายไว้ในส่วนถัดไป ด้วยความสามารถในการบีบอัดแบบจำลองเราจึงสามารถฝึกอวนตื้นให้มีความแม่นยำเหมือนแบบจำลองลึก ๆ บางอย่างแม้ว่าเราจะไม่สามารถฝึกอวนตื้นเหล่านี้ให้แม่นยำเหมือนอวนลึกเมื่ออวนตื้นได้รับการฝึกฝนโดยตรงจากต้นฉบับ ข้อมูลการฝึกอบรมที่มีข้อความ ถ้าตาข่ายตื้นที่มีจำนวนพารามิเตอร์เท่ากันกับตาข่ายลึกสามารถเรียนรู้ที่จะเลียนแบบตาข่ายลึกที่มีความเที่ยงตรงสูง
หากเป็นจริงนี่หมายความว่าคำอธิบายที่ถูกต้องนั้นค่อนข้างจะเป็นหัวข้อย่อยของฉัน # 2 และไม่ใช่ # 1 หรือ # 3
อย่างที่ฉันบอกไปแล้ว --- ยังไม่มีใครรู้แน่ชัด
สรุปข้อสังเกต
ปริมาณของความคืบหน้าจะประสบความสำเร็จในการเรียนรู้ลึกในช่วง ~ 10 ปีที่ผ่านมาเป็นที่น่าตื่นตาตื่นใจอย่างแท้จริง แต่ส่วนใหญ่ของความคืบหน้านี้ก็ประสบความสำเร็จโดยการทดลองและข้อผิดพลาดและเรายังขาดความเข้าใจพื้นฐานเกี่ยวกับสิ่งที่ว่าทำให้มุ้งลึกในการทำงานให้ดี แม้แต่รายการสิ่งที่ผู้คนคิดว่าสำคัญสำหรับการตั้งค่าเครือข่ายที่มีประสิทธิภาพก็ดูเหมือนว่าจะเปลี่ยนไปทุกสองสามปี
ยุคฟื้นฟูศิลปวิทยาลึกการเรียนรู้เริ่มต้นในปี 2006 เมื่อเจฟฟรีย์ฮินตัน (ที่ได้รับการทำงานในเครือข่ายประสาทสำหรับ 20 ปีโดยไม่ต้องสนใจมากจากใคร) ตีพิมพ์คู่ของเอกสารที่นำเสนอการพัฒนาวิธีที่มีประสิทธิภาพในการฝึกอบรมเครือข่ายลึก ( กระดาษวิทยาศาสตร์ , ประสาทกระดาษคำนวณ ) . เคล็ดลับคือการใช้การฝึกอบรมแบบไม่สำรองล่วงหน้าก่อนเริ่มการไล่ระดับสี เอกสารเหล่านี้ปฏิวัติวงการและเป็นเวลาสองสามปีที่ผู้คนคิดว่าการฝึกอบรมแบบไม่มีผู้ดูแลเป็นกุญแจสำคัญ
จากนั้นในปี 2010 Martens แสดงให้เห็นว่าเครือข่ายประสาทลึกสามารถผ่านการฝึกอบรมด้วยวิธีการที่สอง-order (เรียกว่าวิธีการที่รัฐฟรี) และสามารถ outperform เครือข่ายการฝึกอบรมที่มีก่อนการฝึกอบรม: การเรียนรู้ลึกผ่านการเพิ่มประสิทธิภาพของรัฐฟรี จากนั้นในปี 2013 Sutskever และคณะ แสดงให้เห็นว่าโคตรลาดสุ่มด้วยเทคนิคที่ฉลาดมากบางคนสามารถมีประสิทธิภาพสูงกว่าวิธีการรัฐฟรี: ในความสำคัญของการเริ่มต้นและแรงผลักดันในการเรียนรู้ลึก นอกจากนี้ประมาณปี 2010 คนตระหนักว่าการใช้หน่วยเชิงเส้นที่ถูกต้องแทนที่จะเป็นหน่วย sigmoid สร้างความแตกต่างอย่างมากสำหรับการไล่ระดับสี การออกกลางคันปรากฏในปี 2014 เครือข่ายที่เหลือปรากฏขึ้นในปี 2558 ผู้คนกำลังติดตามวิธีการฝึกฝนเครือข่ายที่ลึกและมีประสิทธิภาพมากขึ้นเรื่อย ๆสิ่งที่ดูเหมือนความเข้าใจที่สำคัญเมื่อ 10 ปีที่แล้วมักถูกมองว่าเป็นเรื่องน่ารำคาญในปัจจุบัน ทั้งหมดนี้ส่วนใหญ่ขับเคลื่อนด้วยการลองผิดลองถูกและมีความเข้าใจเพียงเล็กน้อยว่าอะไรทำให้บางสิ่งทำงานได้ดีและบางอย่างไม่เป็นเช่นนั้น การฝึกอบรมเครือข่ายที่ลึกซึ้งนั้นเป็นเหมือนกลอุบายใหญ่ ๆ เทคนิคที่ประสบความสำเร็จมักจะหาเหตุผลโพสต์ factum
เราไม่รู้ด้วยซ้ำว่าทำไมเครือข่ายที่ลึกถึงสมรรถนะที่สูง เพียง 10 ปีที่คนเคยตำหนิคนท้องถิ่นน้อยที่สุด แต่ความคิดในปัจจุบันคือว่านี่ไม่ใช่ประเด็น (เมื่อที่ราบสูงที่มีความสมบูรณ์แบบการไล่ระดับสีมีแนวโน้มที่จะอยู่ขนาดใหญ่) นี้เป็นเช่นคำถามพื้นฐานเกี่ยวกับเครือข่ายลึกและเราไม่ได้รู้ว่านี้
ปรับปรุง:นี้จะมากหรือน้อยเรื่องของอาลี Rahimi ของ NIPS 2017 พูดคุยเกี่ยวกับการเรียนรู้ของเครื่องเป็นเล่นแร่แปรธาตุ: https://www.youtube.com/watch?v=Qi1Yry33TQE
[คำตอบนี้เขียนใหม่ทั้งหมดในเดือนเมษายน 2560 ดังนั้นความคิดเห็นบางส่วนด้านล่างจะไม่นำมาใช้อีกต่อไป]