หากการเอาเซลล์ประสาทออกบางส่วนจะส่งผลให้แบบจำลองมีประสิทธิภาพดีขึ้นทำไมไม่ลองใช้โครงข่ายประสาทที่เรียบง่ายกว่าโดยมีเลเยอร์น้อยลงและมีเซลล์ประสาทน้อยลงในตอนแรก เหตุใดจึงต้องสร้างแบบจำลองที่ใหญ่และซับซ้อนกว่าเดิมในตอนเริ่มต้นและระงับบางส่วนในภายหลัง
หากการเอาเซลล์ประสาทออกบางส่วนจะส่งผลให้แบบจำลองมีประสิทธิภาพดีขึ้นทำไมไม่ลองใช้โครงข่ายประสาทที่เรียบง่ายกว่าโดยมีเลเยอร์น้อยลงและมีเซลล์ประสาทน้อยลงในตอนแรก เหตุใดจึงต้องสร้างแบบจำลองที่ใหญ่และซับซ้อนกว่าเดิมในตอนเริ่มต้นและระงับบางส่วนในภายหลัง
คำตอบ:
ฟังก์ชั่นการออกกลางคันคือการเพิ่มความทนทานของโมเดลและเพื่อกำจัดการพึ่งพาระหว่างเซลล์ประสาท
เซลล์ประสาทจะถูกลบออกสำหรับการส่งผ่านเดี่ยวและย้อนกลับผ่านเครือข่าย - หมายถึงน้ำหนักของพวกเขาจะถูกตั้งค่าเป็นศูนย์สำหรับการผ่านนั้นและข้อผิดพลาดของพวกเขาเช่นกันซึ่งหมายความว่าน้ำหนักจะไม่ได้รับการปรับปรุง การออกกลางคันยังทำหน้าที่เป็นรูปแบบของการทำให้เป็นมาตรฐานเนื่องจากเป็นการลงโทษตัวแบบสำหรับความซับซ้อนของมัน
ฉันอยากจะแนะนำให้อ่าน pf ส่วน Dropout ในหนังสือเรียนลึกของ Michael Nielsen (ฟรีและออนไลน์) ซึ่งให้สัญชาตญาณที่ดีและยังมีไดอะแกรม / คำอธิบายที่เป็นประโยชน์มาก เขาอธิบายว่า:
การออกกลางคันเป็นเทคนิคที่แตกต่างอย่างสิ้นเชิงสำหรับการทำให้เป็นมาตรฐาน การออกกลางคันไม่เหมือนกับ L1 และ L2 การออกกลางคันไม่ได้อาศัยการแก้ไขฟังก์ชั่นต้นทุน เราจะปรับเปลี่ยนเครือข่ายแทน
นี่คือบทความสรุปที่ดี จากบทความนั้น:
ข้อสังเกตบางอย่าง:
- การออกกลางคันบังคับให้เครือข่ายประสาทเทียมเรียนรู้คุณสมบัติที่แข็งแกร่งกว่าซึ่งมีประโยชน์เมื่อใช้ร่วมกับชุดย่อยแบบสุ่มที่แตกต่างกันจำนวนมากของเซลล์ประสาทอื่น
- การออกกลางคันประมาณสองเท่าของจำนวนการวนซ้ำที่จำเป็นในการรวมเข้าด้วยกัน อย่างไรก็ตามเวลาฝึกอบรมสำหรับแต่ละยุคมีน้อย
- ด้วยยูนิตที่ซ่อนอยู่ของ H ซึ่งแต่ละตัวสามารถดรอปได้เรามีโมเดลที่เป็นไปได้ 2 ^ H ในขั้นตอนการทดสอบเครือข่ายทั้งหมดจะถูกพิจารณาและการเปิดใช้งานแต่ละครั้งจะลดลงด้วยปัจจัย p
ลองนึกภาพฉันขอให้คุณทำให้ฉันดื่มชาสักถ้วย - คุณอาจใช้มือขวาเทน้ำ, ตาซ้ายของคุณเพื่อวัดระดับน้ำและจากนั้นมือขวาของคุณอีกครั้งเพื่อกวนชาด้วยช้อน นี่หมายถึงมือซ้ายและตาขวาของคุณมีจุดประสงค์เล็กน้อย การใช้กลางคันจะช่วยให้มือขวาหันหลังไปทางด้านหลังทำให้คุณต้องใช้มือซ้าย ตอนนี้หลังจากที่ทำชา 20 ถ้วยให้ฉันด้วยตาข้างเดียวหรือมือข้างหนึ่งออกจากการกระทำคุณจะได้รับการฝึกฝนที่ดีกว่าในการใช้ทุกอย่างที่มี บางทีคุณอาจถูกบังคับให้ทำชาในห้องครัวเล็ก ๆ ในภายหลังซึ่งเป็นไปได้ที่จะใช้กาต้มน้ำที่แขนซ้ายของคุณ ... และหลังจากใช้งานการออกกลางคันคุณมีประสบการณ์ในการทำเช่นนั้น! คุณมีประสิทธิภาพมากขึ้นในการมองไม่เห็นข้อมูล
การออกกลางคันไม่ได้เป็นการกำจัดเซลล์ประสาทออกไปเพียง แต่เซลล์ประสาทนั้น ๆ จะไม่เล่นบทบาทใด ๆ (อย่าเปิดใช้งาน) สำหรับชุดข้อมูลที่กำหนด
ตัวอย่าง -สมมติว่ามีถนน 8 เลน - เมื่อรถบรรทุกมาพวกเขาผ่านเลน 1,2,4,6,7 เมื่อรถยนต์มาถึงพวกเขาผ่านเลน 2,3,4,7,8 และเมื่อจักรยานมา พวกเขาผ่านเลน 1,2,5,8 ดังนั้นไม่ว่าจะมียานพาหนะใดก็ตามเลนทั้งหมดอยู่ที่นั่น แต่มีเพียงบางส่วนเท่านั้นที่ใช้
ในทำนองเดียวกันเซลล์ประสาททั้งหมดถูกนำมาใช้ในแบบจำลองทั้งหมด แต่มีการเปิดใช้งานเซลล์เซตย่อยเพียงชุดเดียวสำหรับชุดข้อมูลเฉพาะ และรูปแบบจะไม่ลดลงในภายหลังความซับซ้อนของแบบจำลองจะยังคงอยู่เหมือนเดิม
เหตุใดจึงต้องใช้การออกกลางคัน
ตามที่ระบุในหนังสือเรียนรู้ลึกโดย Ian Goodfellow
การออกกลางคันมีประสิทธิภาพมากกว่าตัวกำหนดมาตรฐานอื่น ๆ ที่คำนวณได้เช่นการลดน้ำหนักข้อ จำกัด เชิงบรรทัดฐานของตัวกรองและการทำให้กิจกรรมกระจัดกระจาย
เขายังพูดว่า -
ข้อดีอย่างหนึ่งของการออกกลางคันคือมีราคาถูกมาก
ข้อดีอีกอย่างที่สำคัญของการออกกลางคันคือไม่ จำกัด ประเภทของรูปแบบหรือขั้นตอนการฝึกอบรมที่สามารถใช้ได้อย่างมีนัยสำคัญ มันทำงานได้ดีกับเกือบทุกรุ่นที่ใช้การแจกแจงแบบกระจายและสามารถฝึกฝนด้วยการไล่ระดับสีแบบสุ่ม ซึ่งรวมถึงเครือข่ายนิวรัลไปข้างหน้าแบบจำลองความน่าจะเป็นเช่นเครื่อง Boltzmann แบบ จำกัด (Srivastava et al., 2014) และเครือข่ายประสาทแบบกำเริบ (Bayer และ Osendorfer, 2014; Pascanu et al., 2014a)
หนังสือเล่มนี้พูดว่า -
แนวคิดหลักคือการแนะนำเสียงในค่าเอาต์พุตของเลเยอร์สามารถแยกแยะรูปแบบของเหตุการณ์ที่ไม่สำคัญซึ่งเครือข่ายจะเริ่มจดจำหากไม่มีสัญญาณรบกวน
อีกวิธีในการดูว่าการออกกลางคันคืออะไรมันเป็นเหมือนแผ่นเหล็กและเข็มก่อนสัมประสิทธิ์สำหรับ covariate (นั่นคือบางส่วนของคำที่ซับซ้อนของการแปรปรวนร่วมของ covariates ดั้งเดิมที่มีการเปลี่ยนแปลงการทำงานที่ซับซ้อนบางอย่าง) ในแบบจำลอง Bayesian นี่คือการตีความที่เสนอโดย Yarin Gal ในวิทยานิพนธ์ของเขา (ดูรายการสิ่งพิมพ์ของเขา )
นี่คืออาร์กิวเมนต์การโบกมือโดยย่อสำหรับสาเหตุที่เป็นเช่นนี้:
ทำไมเราต้องการแผ่นหินและเหล็กแหลมมาก่อน มันก่อให้เกิดแบบจำลองแบบเบย์เฉลี่ยระหว่างเครือข่ายที่เป็นกลางโดยไม่มีเซลล์ประสาทนั้นและเป็นหนึ่งเดียวกับมันในคำอื่น ๆ มันช่วยให้เราแสดงความไม่แน่นอนเกี่ยวกับว่าเครือข่ายที่เป็นกลางจำเป็นต้องมีความซับซ้อนที่เป็นไปได้อย่างแท้จริงหรือไม่ การคาดการณ์ สิ่งนี้กล่าวถึงปัญหาที่สำคัญของเครือข่ายที่เป็นกลางซึ่งสามารถเกินความเหมาะสมกับข้อมูลได้
เลเยอร์การออกกลางคันคัดเฉพาะส่วนของเซลล์ประสาทที่ระบุลดความสามารถในการดำเนินการของโมเดลในคำถาม สิ่งนี้จะช่วยป้องกันเครือข่ายจากการตัดสินใจที่ไม่เชิงเส้นในขอบเขตที่ซับซ้อน (เช่น "เสียง" ในชุดข้อมูล) ซึ่งจะเป็นการป้องกัน
Dropout ช่วยปรับปรุงประสิทธิภาพของโมเดลการเรียนรู้ของเครื่องด้วยเหตุผลดังต่อไปนี้: