ทำไมการทำให้เป็นมาตรฐานไม่สามารถแก้ปัญหาความหิวโหยของโครงข่ายประสาทได้


37

ปัญหาที่ฉันเห็นบ่อยขึ้นในบริบทของเครือข่ายประสาททั่วไปและโดยเฉพาะอย่างยิ่งเครือข่ายประสาทลึกคือพวกเขากำลัง "หิวข้อมูล" - นั่นคือพวกเขาทำงานได้ไม่ดียกเว้นว่าเรามีชุดข้อมูลขนาดใหญ่ ที่จะฝึกอบรมเครือข่าย

ความเข้าใจของฉันคือว่านี่เป็นเพราะความจริงที่ว่า NNets โดยเฉพาะอย่างยิ่ง NNets ลึกมีระดับของเสรีภาพจำนวนมาก ดังนั้นในแบบจำลอง NNet จึงมีพารามิเตอร์จำนวนมากและหากจำนวนพารามิเตอร์ของแบบจำลองมีขนาดใหญ่เมื่อเทียบกับจำนวนจุดข้อมูลการฝึกอบรมมีแนวโน้มที่จะเพิ่มขึ้นพอดี

แต่ทำไมปัญหานี้ถึงไม่ได้รับการแก้ไขโดยการทำให้เป็นมาตรฐาน เท่าที่ฉันรู้ NNets สามารถใช้การทำให้เป็นมาตรฐาน L1 และ L2 และยังมีวิธีการทำให้เป็นมาตรฐานของตนเองเช่นการออกกลางคันซึ่งสามารถลดจำนวนพารามิเตอร์ในเครือข่าย

เราสามารถเลือกวิธีการทำให้เป็นมาตรฐานของเราเช่นที่พวกเขาบังคับใช้ parsimony และ จำกัด ขนาดของเครือข่ายได้หรือไม่?


เพื่อชี้แจงความคิดของฉัน: สมมติว่าเรากำลังใช้ Deep NNet ขนาดใหญ่เพื่อพยายามสร้างแบบจำลองข้อมูลของเรา แต่ชุดข้อมูลมีขนาดเล็กและสามารถจำลองโดยโมเดลเชิงเส้นได้ แล้วทำไมน้ำหนักของเครือข่ายไม่มาบรรจบกันในลักษณะที่เซลล์ประสาทหนึ่งเลียนแบบการถดถอยเชิงเส้นและส่วนอื่น ๆ ทั้งหมดมารวมกันเป็นศูนย์ เหตุใดการทำให้เป็นมาตรฐานไม่ช่วยด้วยสิ่งนี้


7
"แล้วทำไมน้ำหนักของเครือข่ายไม่มาบรรจบกันในลักษณะที่เซลล์ประสาทหนึ่งเลียนแบบการถดถอยเชิงเส้นและส่วนอื่น ๆ ทั้งหมดมารวมกันเป็นศูนย์ทำไมไม่ทำให้การทำให้เป็นมาตรฐานเป็นปกติ?" ฉันคิดว่านี่น่าจะเป็นบทความที่น่าสนใจมาก ๆ : สร้างเครือข่ายและปัญหานั้นแล้วประเมินว่าจะเกิดอะไรขึ้น
Reinstate Monica

คุณมีปัญหาในการลดการไล่ระดับสีในภายหลังในชั้นที่ลึกกว่าของเครือข่ายแม้ในขณะที่คุณทำให้ปกติ นี่คือเหตุผลที่ผู้คนใช้การทำให้เป็นกลุ่มแบบปกติเพื่อทำสิ่งที่คุณอธิบายอย่างมีประสิทธิภาพ วิธีการอื่น ๆ มีอยู่แล้วสำหรับเรื่องนี้ (เช่น LSTM) และมีสิ่งต่าง ๆ ที่สามารถช่วยจัดการกับความอดอยากเช่นการออกกลางคัน
Benjamin Gruenbaum


ตาม @cliffab คำตอบด้านล่างการทำให้เป็นมาตรฐานไม่ใช่สิ่งที่คุณต้องการในการปรับปรุงประสิทธิภาพ หากต้องการกล่าวง่ายๆภาพแมวที่หมุนได้ไม่เหมือนกับภาพแมวเดี่ยวที่มีการปรับมาตรฐาน
seanv507

1
ฉันไม่แปลกใจเลย กับชนิดของชุดเวลาที่ฉันจัดการกับที่ทำงานผมยังไม่พบวิธีการที่เต้นวิธีอนุกรมเวลา Skool เก่า แต่ฉันพยายาม :)
Aksakal

คำตอบ:


43

วิธีง่าย ๆ ที่จะอธิบายก็คือการทำให้เป็นมาตรฐานนั้นไม่เหมาะสมกับเสียงรบกวน แต่ก็ไม่ได้ทำอะไรมากในแง่ของการกำหนดรูปทรงของสัญญาณ หากคุณคิดว่าการเรียนรู้อย่างลึกซึ้งในฐานะผู้ประมาณฟังก์ชั่นที่ยอดเยี่ยมขนาดยักษ์คุณจะรู้ว่ามันต้องการข้อมูลจำนวนมากเพื่อกำหนดรูปทรงของสัญญาณที่ซับซ้อน

หากไม่มีเสียงดังรบกวนการเพิ่มความซับซ้อนของ NN จะทำให้การประมาณดีขึ้น จะไม่มีการลงโทษใด ๆ กับขนาดของ NN ที่ใหญ่กว่าจะดีกว่าในทุกกรณี พิจารณาเทย์เลอร์โดยประมาณคำศัพท์อื่น ๆ จะดีกว่าสำหรับฟังก์ชันที่ไม่ใช่พหุนาม (ละเว้นปัญหาความแม่นยำเชิงตัวเลข)

สิ่งนี้จะพังเมื่อมีสัญญาณรบกวนเนื่องจากคุณเริ่มปรับให้เหมาะสมกับเสียงรบกวน ดังนั้นนี่คือการทำให้เป็นปกติเพื่อช่วย: มันอาจลดความเหมาะสมของสัญญาณรบกวนดังนั้นเราจึงสามารถสร้างNN ที่ใหญ่กว่าเพื่อให้เหมาะกับปัญหาที่ไม่เชิงเส้น

การสนทนาต่อไปนี้ไม่จำเป็นสำหรับคำตอบของฉัน แต่ฉันเพิ่มบางส่วนเพื่อตอบความคิดเห็นและกระตุ้นให้เนื้อหาหลักของคำตอบข้างต้น โดยพื้นฐานแล้วคำตอบที่เหลือของฉันก็เหมือนกับไฟไหม้ฝรั่งเศสที่มาพร้อมกับอาหารเบอร์เกอร์คุณสามารถข้ามมันได้

(Ir) กรณีที่เกี่ยวข้อง: การถดถอยพหุนาม

ลองดูตัวอย่างของเล่นของการถดถอยพหุนาม นอกจากนี้ยังเป็นตัวประมาณที่ดีมากสำหรับฟังก์ชั่นต่างๆ เราจะมองไปที่ฟังก์ชั่นในภูมิภาค อย่างที่คุณเห็นได้จากซีรี่ส์ของ Taylor ด้านล่างการขยายลำดับที่ 7 นั้นค่อนข้างดีอยู่แล้วดังนั้นเราสามารถคาดหวังได้ว่าพหุนามของลำดับที่ 7+ น่าจะพอดีเช่นกัน:x ( - 3 , 3 )sin(x)x(3,3)

ป้อนคำอธิบายรูปภาพที่นี่

ต่อไปเราจะใส่พหุนามกับคำสั่งที่สูงขึ้นเรื่อย ๆ กับชุดข้อมูลที่มีเสียงดังมาก ๆ พร้อมข้อสังเกต 7 ข้อ:

ป้อนคำอธิบายรูปภาพที่นี่

เราสามารถสังเกตสิ่งที่เราได้รับการบอกเล่าเกี่ยวกับชื่อพหุนามที่หลายคนรู้จัก: พวกมันไม่เสถียรและเริ่มสั่นคลอนอย่างดุเดือดเมื่อมีคำสั่งพหุนามเพิ่มขึ้น

อย่างไรก็ตามปัญหาไม่ใช่ตัวพหุนาม ปัญหาคือเสียงรบกวน เมื่อเราใส่ชื่อพหุนามกับข้อมูลที่มีเสียงดังส่วนหนึ่งของความพอดีคือเสียงดังไม่ใช่สัญญาณ นี่คือชื่อพหุนามที่เหมือนกันพอดีกับชุดข้อมูลเดียวกัน แต่มีการขจัดจุดรบกวนอย่างสมบูรณ์ เหมาะอย่างยิ่ง!

ขอให้สังเกตแบบที่สมบูรณ์แบบสำหรับการสั่งซื้อสายตา 6. นี้ไม่ควรแปลกใจตั้งแต่วันที่ 7 ข้อสังเกตคือทั้งหมดที่เราจำเป็นต้องระบุตัวตนเพื่อที่ 6 พหุนามและที่เราเห็นจากพล็อตเทย์เลอร์ประมาณข้างต้นว่าการสั่งซื้อที่มีอยู่แล้ว 6 ประมาณการที่ดีมากที่จะในช่วงข้อมูลของเราsin(x)

ป้อนคำอธิบายรูปภาพที่นี่

นอกจากนี้โปรดสังเกตว่าชื่อพหุนามคำสั่งที่สูงกว่านั้นไม่เหมาะกับคำสั่งที่ 6 เนื่องจากมีการสังเกตไม่เพียงพอที่จะกำหนด ลองดูว่าเกิดอะไรขึ้นกับการสังเกต 100 ข้อ ในแผนภูมิด้านล่างคุณจะเห็นว่าชุดข้อมูลขนาดใหญ่ช่วยให้เราสามารถใส่คำสั่งชื่อพหุนามที่สูงขึ้นได้อย่างไร

ป้อนคำอธิบายรูปภาพที่นี่

เยี่ยมมาก แต่ปัญหาคือเรามักจะจัดการกับข้อมูลที่มีเสียงดัง ดูสิ่งที่เกิดขึ้นหากคุณพอดีกับการสังเกต 100 ครั้งของข้อมูลที่มีเสียงดังมากดูแผนภูมิด้านล่าง เรากลับไปที่สี่เหลี่ยมจัตุรัสหนึ่ง: พหุนามลำดับที่สูงขึ้นทำให้เกิดการสั่นที่น่ากลัว ดังนั้นการเพิ่มชุดข้อมูลจึงไม่ช่วยในการเพิ่มความซับซ้อนของแบบจำลองเพื่ออธิบายข้อมูลได้ดีขึ้น นี่เป็นอีกครั้งเพราะโมเดลที่ซับซ้อนนั้นเหมาะสมกว่าไม่เพียง แต่กับรูปร่างของสัญญาณ แต่ยังรวมถึงรูปร่างของเสียงด้วย

ป้อนคำอธิบายรูปภาพที่นี่

ในที่สุดเรามาลองใช้การทำให้เป็นมาตรฐานสำหรับปัญหานี้ แผนภูมิด้านล่างแสดงการทำให้เป็นมาตรฐาน (ซึ่งมีบทลงโทษแตกต่างกัน) นำไปใช้กับการถดถอยพหุนาม 9 เปรียบเทียบสิ่งนี้กับคำสั่ง (กำลัง) 9 พอดีกับพหุนามข้างต้น: ในระดับที่เหมาะสมของการทำให้เป็นมาตรฐานมันเป็นไปได้ที่จะพอดีกับพหุนามคำสั่งที่สูงขึ้นกับข้อมูลที่มีเสียงดัง

ป้อนคำอธิบายรูปภาพที่นี่

ในกรณีที่มันไม่ชัดเจน: ฉันไม่แนะนำให้ใช้การถดถอยพหุนามด้วยวิธีนี้ พหุนามเป็นสิ่งที่ดีสำหรับคนในท้องถิ่นดังนั้นพหุนามที่ชาญฉลาดจึงเป็นทางเลือกที่ดี เพื่อให้พอดีกับโดเมนทั้งหมดกับพวกเขามักจะเป็นความคิดที่ไม่ดีเพราะพวกเขามีความไวต่อเสียงรบกวนแน่นอนเพราะมันควรจะเห็นได้ชัดจากแปลงข้างต้น เสียงไม่ว่าจะเป็นตัวเลขหรือมาจากแหล่งอื่น ๆ นั้นไม่สำคัญเท่าไรในบริบทนี้ เสียงนั้นเป็นเสียงรบกวนและพหุนามจะตอบสนองต่อมันอย่างหลงใหล


8
และเมื่อชุดข้อมูลของคุณมีขนาดเล็กมันเป็นเรื่องยากมากที่จะแยกแยะความแตกต่างระหว่างเสียงรบกวนและไม่ใช่เสียงรบกวน
Alex R.

3
จริงกูจะช่วยให้มีขนาดใหญ่ NN โดยไม่ต้อง overfitting
Aksakal

6
@Alex - เหตุใดจึงเป็นค่าเริ่มต้นของรุ่นที่ง่ายกว่า มีความแปรปรวนที่ไม่สามารถอธิบายที่ยังคงพอดีโดยการเพิ่มความซับซ้อน! และ ... เป้าหมายคือเพื่อลดความแปรปรวนที่ไม่ได้อธิบายให้มากที่สุด ... หากไม่เป็นเช่นนั้น NN จะใช้ค่าเริ่มต้นเป็นแบบจำลองที่ง่ายที่สุดที่เป็นไปได้นั่นคือ "0" แต่ตามที่ Aksakal เขียนไว้เมื่อ NN ลดความแปรปรวนที่ไม่ได้อธิบายในข้อมูลให้มากขึ้นมันก็เหมาะสมกับความแปรปรวนที่ไม่สามารถอธิบายได้เช่น overfitting ดังนั้นจึงจำเป็นต้องทำให้เป็นมาตรฐาน
jbowman

2
อีกสิ่งหนึ่ง: สมมติว่ากระบวนการพื้นฐานที่คุณสร้างแบบจำลองนั้นมีเสียงดังเช่นพฤติกรรมการลงคะแนนของมนุษย์หรือผลลัพธ์ด้านสุขภาพบางอย่างที่ยากต่อการคาดเดา สมมติว่าข้อมูลของคุณเต็มไปด้วยข้อผิดพลาดการวัดทุกประเภทและอาจมีอคติในการเลือกบางอย่าง ในสภาพแวดล้อมที่มีสัญญาณรบกวนสูงเช่นนี้ฉันไม่เพียงต้องการรุ่นที่เรียบง่ายกว่าพร้อมการปรับสภาพปกติเท่านั้น ฉันอาจต้องการข้อมูลที่น้อยลงเพื่อที่ฉันจะได้ไม่ต้องจบการวัดเสียงรบกวนอย่างแม่นยำแม้จะพยายามทำตามปกติ
Brash Equilibrium

2
@ BrashEquilibrium - จุดที่ยอดเยี่ยม เรากำลังทำการพยากรณ์ขนาดใหญ่โดยใช้เครื่องเพิ่มระดับความลาดชันที่มีคุณสมบัติ 150 แห่งซึ่งส่วนใหญ่มีระดับเสียงรบกวนสูง (แต่ยังคงปรับปรุงคุณภาพการคาดการณ์) และค้นพบว่าให้ GBM 20% ของข้อมูลในการฝึกอบรม ผลการคาดการณ์ที่ดีกว่าการให้ 50% หรือมากกว่าแม้จะใช้กลไกการทำให้เป็นมาตรฐานอื่น ๆ ทั้งหมด
jbowman

7

ณ จุดนี้เวลามันไม่เข้าใจดีเมื่อใดและทำไมวิธีการทำให้เป็นมาตรฐานบางอย่างประสบความสำเร็จและล้มเหลว ในความเป็นจริงมันไม่เข้าใจเลยว่าทำไมการเรียนรู้ลึกจึงเป็นงานแรก

เมื่อพิจารณาจากความจริงที่ว่าโครงข่ายใยประสาทเทียมที่ลึกพอจะสามารถจดจำข้อมูลการฝึกอบรมที่มีความประพฤติดีที่สุดได้อย่างสมบูรณ์แบบนั้นมีวิธีแก้ปัญหาที่ผิดมากกว่าที่เหมาะสมสำหรับตาข่ายน้ำลึกใด ๆ การทำให้เป็นมาตรฐานการพูดในวงกว้างนั้นเป็นความพยายามที่จะ จำกัด การแสดงออกของแบบจำลองสำหรับการแก้ปัญหา "ผิด" เหล่านี้ - ซึ่ง "ผิด" ถูกกำหนดโดยฮิวริสติกที่เราคิดว่าสำคัญสำหรับโดเมนนั้น ๆ แต่บ่อยครั้งมันเป็นเรื่องยากที่จะกำหนดฮิวริสติกเช่นคุณจะไม่สูญเสียการแสดงออกที่ "ถูกต้อง" ไป ตัวอย่างที่ดีของเรื่องนี้คือการลงโทษ L2

วิธีการน้อยมากที่จะถือว่าเป็นรูปแบบของการทำให้เป็นปกติโดยทั่วไปจะใช้กับพื้นที่การใช้งานทั้งหมดของ ML วิสัยทัศน์ NLP และปัญหาการทำนายเชิงโครงสร้างล้วน แต่มีตำราอาหารของตนเองเกี่ยวกับเทคนิคการทำให้เป็นมาตรฐานซึ่งแสดงให้เห็นว่ามีประสิทธิภาพในการทดลองสำหรับโดเมนเหล่านั้น แต่ถึงแม้จะอยู่ในโดเมนเหล่านั้นเทคนิคเหล่านี้จะมีประสิทธิภาพในบางสถานการณ์เท่านั้น ยกตัวอย่างเช่นการทำแบทช์ให้เป็นมาตรฐานในเครือข่ายที่ตกค้างลึกดูเหมือนว่าจะทำให้การออกกลางคันซ้ำซ้อนแม้จะมีการแสดงให้เห็นว่าทั้งคู่ได้ปรับปรุงการวางนัยทั่วไปอย่างอิสระ

ในบันทึกย่อแยกต่างหากฉันคิดว่าคำว่าการทำให้เป็นระเบียบเป็นวงกว้างมากจนยากที่จะเข้าใจอะไรเกี่ยวกับเรื่องนี้ เมื่อพิจารณาถึงความจริงที่ว่า convolutions จำกัด พื้นที่ของพารามิเตอร์แบบเอกซ์โปเนนเชียลเกี่ยวกับพิกเซลคุณสามารถพิจารณารูปแบบของเครือข่ายประสาทเทียมแบบ convolutional บนเครือข่ายวานิลลานิวรัล


ฉันไม่แน่ใจว่าฉันเห็นด้วยกับย่อหน้าแรกของคุณหรือไม่
Ander Biguri

3
ยากที่จะพูดถึงมันใน 500 ตัวอักษร แต่นักวิจัยชั้นนำของโลกอ้างว่าความสำเร็จของ SGD ไม่เป็นที่เข้าใจ ตัวอย่างเช่นใช้ Ilya S. จาก OpenAI: youtube.com/watch?v=RvEwFvl-TrY&feature=youtu.be&t=339
Austin Shin

เห็นด้วยอย่างสมบูรณ์ - อาจเป็นเหตุผลว่าทำไมมันง่ายกว่าที่จะให้เหตุผลกับการประมาณค่าพหุนามมากกว่าอวนจริง ...
P-Gn

3

ระดับหนึ่งในทฤษฎีที่แสดงให้เห็นว่าทำไมปัญหานี้เป็นพื้นฐานคือไม่มีอาหารกลางวันฟรีทฤษฎีบท สำหรับทุกปัญหาที่มีตัวอย่าง จำกัด ที่การทำให้เป็นมาตรฐานบางอย่างมีปัญหาอีกประการหนึ่งที่การทำให้เป็นมาตรฐานเดียวกันนั้นจะทำให้สิ่งเลวร้ายลง ตามที่ออสตินชี้ให้เห็นเรามักพบว่าการทำให้เป็นมาตรฐาน L1 / L2 มีประโยชน์สำหรับปัญหาในโลกแห่งความจริงมากมาย แต่นี่เป็นเพียงการสังเกตและเนื่องจากทฤษฎีบทของ NFL ไม่สามารถรับประกันได้โดยทั่วไป


3

ฉันจะบอกว่าในระดับสูงอคติอุปนัยของ DNNs (เครือข่ายประสาทลึก) มีประสิทธิภาพ แต่หลวมเกินไปเล็กน้อยหรือไม่ให้ความเห็นมากพอ โดยที่ฉันหมายความว่า DNNs จับสถิติพื้นผิวจำนวนมากเกี่ยวกับสิ่งที่เกิดขึ้น แต่ไม่สามารถเข้าถึงโครงสร้างระดับสูงเชิงสาเหตุ / องค์ประกอบที่ลึกกว่า (คุณสามารถดู convolutions เป็นสเปคอคติอคติคนยากจน)

นอกจากนี้ยังเชื่อว่าในชุมชนการเรียนรู้ของเครื่องว่าวิธีที่ดีที่สุดในการสรุป (การอนุมาน / การทำนายที่ดีกับข้อมูลน้อย) คือการหาโปรแกรมที่สั้นที่สุดที่ก่อให้เกิดข้อมูล แต่การเหนี่ยวนำ / การสังเคราะห์ของโปรแกรมนั้นยากและเราไม่มีวิธีที่ดีในการทำอย่างมีประสิทธิภาพ ดังนั้นเราจึงพึ่งพาการประมาณอย่างใกล้ชิดซึ่งก็คือการค้นหาวงจรและเรารู้วิธีการทำ backpropagation ที่นี่ Ilya Sutskever ให้ภาพรวมของความคิดนั้น


เพื่อแสดงให้เห็นความแตกต่างในอำนาจทั่วไปของแบบจำลองแสดงเป็นโปรแกรมที่เกิดขึ้นจริงเทียบกับโมเดลการเรียนรู้ลึกฉันจะแสดงหนึ่งในบทความนี้: การจำลองเป็นเครื่องมือของความเข้าใจที่เกิดเหตุทางกายภาพ

ป้อนคำอธิบายรูปภาพที่นี่

(A) โมเดล IPE [กลไกฟิสิกส์ที่ใช้งานง่าย] รับอินพุต (เช่นการรับรู้ภาษาหน่วยความจำภาพ ฯลฯ ) ที่ยกตัวอย่างการกระจายไปตามฉาก (1) จากนั้นจำลองผลกระทบของฟิสิกส์ในการแจกแจง (2) แล้วรวมผลลัพธ์สำหรับเอาท์พุทไปยังเซ็นเซอร์อื่น ๆ และปัญญา (3)

ป้อนคำอธิบายรูปภาพที่นี่

(B) ประสบการณ์ 1 (มันจะหล่นหรือไม่) สิ่งเร้าบนหอคอย หอคอยที่มีเส้นขอบสีแดงนั้นมีความสมดุลอย่างแท้จริงและอีกสองคนนั้นมีความสูงเท่ากัน แต่คนที่มีขอบสีน้ำเงินนั้นถูกตัดสินว่ามีความเป็นไปได้น้อยกว่าที่นางแบบและผู้คนจะตกลงมา

(C) โมเดล IPE ที่น่าจะเป็น (แกน x) เทียบกับค่าเฉลี่ยการตัดสินโดยมนุษย์ (แกน y) ใน Exp 1. ดูรูปที่ S3 สำหรับความสัมพันธ์สำหรับค่าอื่น ๆ ของσและ ϕ แต่ละจุดแทนหนึ่งหอคอย (ด้วย SEM) และวงกลมสีทั้งสามสอดคล้องกับหอคอยสามแห่งใน B

(D) ความจริงภาคพื้นดิน (ที่ไม่น่าจะเป็นไปได้) กับการตัดสินของมนุษย์ (ประสบการณ์ 1) เนื่องจากมันไม่ได้เป็นตัวแทนของความไม่แน่นอนจึงไม่สามารถจับการตัดสินของผู้คนสำหรับสิ่งเร้าของเราเช่นหอคอยแดงใน B (โปรดสังเกตว่ากรณีเหล่านี้อาจหายากในฉากธรรมชาติที่การกำหนดค่ามีแนวโน้มที่ชัดเจนมากขึ้นหรือ ความไม่แน่นอนและ IPE นั้นคาดว่าจะมีความสัมพันธ์ที่ดีขึ้นกับความจริงพื้นฐานมากกว่าที่เราทำกับสิ่งเร้า)

ประเด็นของฉันในที่นี้คือความพอดีใน C นั้นดีจริงๆเพราะแบบจำลองจับอคติที่ถูกต้องเกี่ยวกับวิธีที่มนุษย์ตัดสินทางกายภาพ นี่คือส่วนใหญ่เพราะมันเป็นแบบจำลองฟิสิกส์จริง (จำไว้ว่ามันเป็นเครื่องมือฟิสิกส์จริง) และสามารถจัดการกับความไม่แน่นอน

ตอนนี้คำถามที่ชัดเจนคือ: คุณสามารถทำสิ่งนั้นได้ด้วยการเรียนรู้อย่างลึกซึ้ง? นี่คือสิ่งที่ Lerer et al ทำในงานนี้: การเรียนรู้สัญชาตญาณทางกายภาพของ Block Towers ตามตัวอย่าง

แบบจำลองของพวกเขา: ป้อนคำอธิบายรูปภาพที่นี่

แบบจำลองของพวกเขาค่อนข้างดีในงานที่ทำ (คาดการณ์จำนวนบล็อกล้มและแม้กระทั่งทิศทางที่ตกลงมา)

ป้อนคำอธิบายรูปภาพที่นี่

แต่มันก็มีข้อบกพร่องที่สำคัญสองประการ:

  • ต้องการข้อมูลจำนวนมากในการฝึกอบรมอย่างเหมาะสม
  • โดยทั่วไปจะใช้วิธีตื้นเท่านั้น: คุณสามารถถ่ายโอนไปยังภาพที่ดูสมจริงยิ่งขึ้นเพิ่มหรือลบ 1 หรือ 2 บล็อก แต่มีอะไรมากกว่านั้นและประสิทธิภาพลดลงอย่างหายนะ: เพิ่ม 3 หรือ 4 บล็อกเปลี่ยนงานทำนาย ...

มีการศึกษาเปรียบเทียบการทำโดยห้องปฏิบัติการ Tenenbaum เกี่ยวกับทั้งสองวิธี: เปรียบเทียบการประเมินผลการประมาณความน่าจะเป็นและการจำลองโครงข่ายประสาทลึกเป็นบัญชีของฉากทางกายภาพของมนุษย์เข้าใจ

การอ้างถึงส่วนการอภิปราย:

ประสิทธิภาพของ CNN ลดลงเนื่องจากมีข้อมูลการฝึกอบรมน้อยลง แม้ว่า AlexNet (ไม่ได้รับการฝึกหัด) จะทำงานได้ดีขึ้นด้วยภาพการฝึกอบรม 200,000 ภาพ แต่ก็ยังทนทุกข์ทรมานจากการขาดข้อมูลในขณะที่ AlexNet ที่ถูกฝึกหัดนั้นสามารถเรียนรู้ได้ดีขึ้นจากภาพการฝึกอบรมจำนวนเล็กน้อย สำหรับงานของเราทั้งสองรุ่นต้องการภาพประมาณ 1,000 ภาพเพื่อให้สามารถเทียบเคียงกับโมเดล IPE และมนุษย์ได้

ซีเอ็นเอ็นยังมีความสามารถในการวางนัยทั่วไปที่ จำกัด ในการเปลี่ยนแปลงฉากขนาดเล็กเช่นการเปลี่ยนจำนวนบล็อก ในทางตรงกันข้ามโมเดล IPE จะพูดคุยทั่วไปและจับวิธีที่ความแม่นยำในการตัดสินของมนุษย์ลดลงตามจำนวนบล็อกในสแต็ก

เมื่อนำมารวมกันผลลัพธ์เหล่านี้ชี้ไปที่สิ่งพื้นฐานเกี่ยวกับการรับรู้ของมนุษย์ที่เครือข่ายประสาท (หรืออย่างน้อย CNNs) ไม่ได้จับภาพในขณะนี้: การดำรงอยู่ของแบบจำลองทางจิตของกระบวนการเชิงสาเหตุของโลก แบบจำลองเชิงสาเหตุเชิงสาเหตุสามารถจำลองเพื่อทำนายว่าจะเกิดอะไรขึ้นในสถานการณ์เชิงคุณภาพแบบใหม่และพวกเขาไม่ต้องการข้อมูลการฝึกอบรมที่กว้างขวางและหลากหลายเพื่อพูดคุยในวงกว้าง แต่โดยทั่วไปแล้วพวกเขาอาจมีข้อผิดพลาด เสียงพลศาสตร์) ในการใช้งานโดยการจำลองสถานการณ์

กลับไปยังจุดที่ฉันต้องการ: ในขณะที่โครงข่ายประสาทเทียมเป็นแบบจำลองที่ทรงพลังพวกเขาดูเหมือนจะขาดความสามารถในการแสดงโครงสร้างเชิงสาเหตุเชิงองค์ประกอบและเชิงซ้อน และพวกเขาก็ทำสิ่งนั้นโดยต้องการข้อมูลการฝึกอบรมมากมาย

และกลับไปที่คำถามของคุณ: ฉันอยากที่จะให้อคติในวงกว้างและความจริงที่ว่าโครงข่ายประสาทเทียมไม่ได้เป็นแบบจำลองเวรกรรม / การประกอบคือเหตุผลที่พวกเขาต้องการข้อมูลการฝึกอบรมมากมาย การทำให้เป็นมาตรฐานไม่ใช่การแก้ไขที่ยอดเยี่ยมเนื่องจากวิธีที่พวกเขาพูดคุยกันทั่วไป การแก้ไขที่ดีกว่าคือการเปลี่ยนความลำเอียงของพวกเขาดังเช่นที่ฮินตันกำลังทดลองกับแคปซูลสำหรับการสร้างแบบจำลองทั้งส่วน / ส่วนเรขาคณิตหรือเครือข่ายปฏิสัมพันธ์สำหรับการสร้างแบบจำลองความสัมพันธ์


2

ประการแรกมีวิธีการทำให้เป็นมาตรฐานมากมายทั้งในการใช้งานและในการวิจัยเชิงรุกเพื่อการเรียนรู้อย่างลึกซึ้ง ดังนั้นหลักฐานของคุณไม่แน่ใจทั้งหมด

สำหรับวิธีการใช้งานการลดน้ำหนักเป็นการดำเนินการโดยตรงของการลงโทษ L2 กับน้ำหนักผ่านทางลาดลง ใช้ความลาดชันของบรรทัดฐานกำลังสองของน้ำหนักของคุณและเพิ่มขั้นตอนเล็ก ๆ ในทิศทางนี้ให้กับพวกเขาในการทำซ้ำแต่ละครั้ง การออกกลางคันถือเป็นรูปแบบของการทำให้เป็นมาตรฐานซึ่งกำหนดโครงสร้างโดยเฉลี่ย สิ่งนี้ดูเหมือนจะบอกเป็นนัยถึงการลงโทษ L2 ผ่านเครือข่ายที่มีพารามิเตอร์ที่ใช้ร่วมกัน

คุณน่าจะเพิ่มระดับของเทคนิคเหล่านี้หรือเทคนิคอื่น ๆ เพื่อจัดการกับตัวอย่างเล็ก ๆ แต่โปรดทราบว่าการทำให้เป็นปกติหมายถึงการกำหนดความรู้เดิม การลงโทษ L2 ในตุ้มน้ำหนักหมายถึง Gaussian ก่อนหน้าสำหรับตุ้มน้ำหนัก การเพิ่มจำนวนของการทำให้เป็นปกตินั้นเป็นสิ่งสำคัญที่ระบุว่าความรู้ก่อนหน้าของคุณนั้นแน่นอนมากขึ้น ดังนั้นคุณสามารถทำได้และมันจะให้น้อยลง แต่เอาท์พุทลำเอียงอาจดูด เห็นได้ชัดว่าการแก้ปัญหาคือความรู้ก่อนที่ดีกว่า สำหรับการรับรู้ภาพนี่จะหมายถึงนักบวชที่มีโครงสร้างมากขึ้นเกี่ยวกับสถิติปัญหาของคุณ ปัญหาเกี่ยวกับทิศทางนี้คือคุณกำลังกำหนดความเชี่ยวชาญด้านโดเมนจำนวนมากและการหลีกเลี่ยงการกำหนดความเชี่ยวชาญของมนุษย์เป็นหนึ่งในเหตุผลที่คุณใช้การเรียนรู้อย่างลึกซึ้ง


+1 สำหรับการกล่าวถึงอคติ ทำไมไม่อธิบายเรื่องทั้งหมดนี้ในแง่ของอคติและความแปรปรวน? "Overfitting" ไม่มีคำจำกัดความทางคณิตศาสตร์ที่แม่นยำและบอกถึงการแบ่งขั้วที่ไม่มีตัวตน ("overfit" / "not-overfit")
Josh

2

เพื่อชี้แจงความคิดของฉัน: สมมติว่าเรากำลังใช้ Deep NNet ขนาดใหญ่เพื่อพยายามสร้างแบบจำลองข้อมูลของเรา แต่ชุดข้อมูลมีขนาดเล็กและสามารถจำลองโดยโมเดลเชิงเส้นได้ แล้วทำไมน้ำหนักของเครือข่ายไม่มาบรรจบกันในลักษณะที่เซลล์ประสาทหนึ่งเลียนแบบการถดถอยเชิงเส้นและส่วนอื่น ๆ ทั้งหมดมารวมกันเป็นศูนย์ เหตุใดการทำให้เป็นมาตรฐานไม่ช่วยด้วยสิ่งนี้

อวนประสาทสามารถได้รับการฝึกฝนเช่นนี้ ถ้าใช้การทำให้เป็นมาตรฐาน L1 อย่างเหมาะสมน้ำหนักส่วนใหญ่จะถูกทำให้เป็นศูนย์และสิ่งนี้จะทำให้อวนประสาททำงานเหมือนกับการต่อกันของ 1 หรือมากกว่านั้นเซลล์ประสาทการถดถอยเชิงเส้นและศูนย์อื่น ๆ อีกมากมาย ดังนั้นใช่ - L1 / L2 normalization หรือเช่นนั้นสามารถใช้เพื่อ จำกัด ขนาดหรือพลังการดำเนินการของเครือข่ายประสาท

จริงๆแล้วขนาดของแบบจำลองนั้นเป็นแบบปกติ - ถ้าคุณสร้างแบบจำลองขนาดใหญ่หมายความว่าคุณอัดฉีดความรู้ก่อนหน้านี้เกี่ยวกับปัญหานั่นคือปัญหามีความซับซ้อนสูงดังนั้นจึงต้องใช้แบบจำลองที่มีพลังการเป็นตัวแทนสูง ถ้าคุณทำแบบจำลองเล็กหมายความว่าคุณอัดฉีดความรู้ว่าปัญหานั้นง่ายดังนั้นโมเดลไม่ต้องการความจุมาก

และนี่หมายความว่าการทำให้เป็นมาตรฐาน L2 จะไม่ทำให้เครือข่าย "กระจัดกระจาย" ตามที่คุณอธิบายเนื่องจากการทำให้เป็นมาตรฐาน L2 เป็นการฉีดความรู้ก่อนหน้าว่าการมีส่วนร่วมของเซลล์ประสาทแต่ละตัว (น้ำหนัก) ควรมีขนาดเล็ก แต่ไม่เป็นศูนย์ ดังนั้นเครือข่ายจะใช้เซลล์ประสาทแต่ละแห่งแทนที่จะใช้เซลล์ประสาทชุดเล็กเท่านั้น


1

L2L1

จุดสำคัญที่นี่คือการทำให้เป็นระเบียบไม่ได้มีประโยชน์เสมอไป แต่การทำให้เป็นประจำในสิ่งที่ควรจะเป็นจริงนั้นมีประโยชน์มาก แต่การทำให้เป็นปกติในทิศทางที่ผิดนั้นไม่ดี

L2

แต่ตอนนี้สมมติว่าข้อมูลของเราเป็นภาพของแมวที่เลี้ยงในเครือข่ายประสาทลึก ถ้าในความจริงแล้ว "หูแหลม" มีประโยชน์มากในการระบุแมวเราอาจต้องการลดโทษเพื่อให้พลังในการทำนายเพิ่มขึ้น แต่เราไม่รู้ว่าจะมีตัวแทนอยู่ที่ไหนในเครือข่ายนี้! เรายังคงสามารถแนะนำบทลงโทษเพื่อให้ส่วนเล็ก ๆ ของระบบไม่ได้ครองเครือข่ายทั้งหมด แต่นอกเหนือจากนั้นมันเป็นการยากที่จะแนะนำการทำให้เป็นระเบียบในแบบที่มีความหมาย

โดยสรุปมันเป็นเรื่องยากมากที่จะรวมข้อมูลก่อนหน้านี้เข้ากับระบบที่เราไม่เข้าใจ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.