Modular Neural Networks มีประสิทธิภาพมากกว่าเครือข่ายเสาหินขนาดใหญ่ในทุกงานหรือไม่?


16

Modular / Multiple Neural Networks (MNNs) หมุนรอบการฝึกอบรมเครือข่ายอิสระขนาดเล็กที่สามารถป้อนเข้าด้วยกันหรืออีกเครือข่ายที่สูงขึ้น

โดยหลักการแล้วองค์กรลำดับขั้นสามารถทำให้เราเข้าใจถึงปัญหาพื้นที่ที่ซับซ้อนมากขึ้นและเข้าถึงการทำงานที่สูงขึ้น แต่ดูเหมือนจะยากที่จะหาตัวอย่างของการวิจัยที่เป็นรูปธรรมที่ทำในอดีตเกี่ยวกับเรื่องนี้ ฉันพบแหล่งข้อมูลไม่กี่แห่ง:

https://en.wikipedia.org/wiki/Modular_neural_network

https://www.teco.edu/~albrecht/neuro/html/node32.html

https://vtechworks.lib.vt.edu/bitstream/handle/10919/27998/etd.pdf?sequence=1&isAllowed=y

ฉันมีคำถามที่เป็นรูปธรรมสองสามข้อ:

  • มีการวิจัยเมื่อเร็ว ๆ นี้เกี่ยวกับการใช้ MNN หรือไม่?

  • มีงานใดบ้างที่ MNNs แสดงประสิทธิภาพที่ดีกว่าอวนเดี่ยวขนาดใหญ่หรือไม่?

  • MNN สามารถใช้สำหรับการจำแนกแบบหลายรูปแบบได้หรือไม่เช่นฝึกอบรมแต่ละเครือข่ายโดยใช้ข้อมูลที่แตกต่างกัน (text vs image) และส่งต่อไปยังตัวกลางระดับสูงกว่าที่ทำงานกับเอาต์พุตทั้งหมดหรือไม่

  • จากมุมมองของวิศวกรรมซอฟต์แวร์เหล่านี้ไม่สามารถทนต่อความผิดพลาดได้อีกและสามารถแยกได้ง่ายในระบบกระจาย

  • มีงานใดบ้างในการปรับโทโพโลยีของเครือข่ายย่อยแบบไดนามิกโดยใช้กระบวนการเช่น Neural Architecture Search

  • โดยทั่วไปแล้ว MNN ใช้งานได้จริงหรือไม่?

ขออภัยหากคำถามเหล่านี้ดูเหมือนไร้เดียงสาฉันเพิ่งเข้ามาใน ML และ CS ในวงกว้างมากขึ้นจากภูมิหลังทางชีววิทยา / ประสาทวิทยาศาสตร์และได้รับความสนใจจากการมีอิทธิพลซึ่งกันและกัน

ฉันซาบซึ้งที่คุณสละเวลาและให้ข้อมูลเชิงลึกของคุณ!


ฉันคิดเกี่ยวกับการนำระบบ modular ไปใช้เพื่อปรับปรุงประสิทธิภาพและกรองออก - แน่นอน - การพึ่งพาที่ไม่จำเป็นในอินพุต คิดว่ามันเป็นช่วงเวลาของยูเรก้า แต่ไม่รู้ว่ามันเป็นโครงสร้างที่มั่นคงแล้ว
Tobi

คำตอบ:


2

มีการสอบสวนความคืบหน้าเกี่ยวกับหัวข้อนี้ สิ่งพิมพ์ครั้งแรกจากเดือนมีนาคมที่ผ่านมาตั้งข้อสังเกตว่า modularity ได้รับการทำแม้ว่าจะไม่ชัดเจนตั้งแต่เวลาที่ผ่านมา แต่อย่างใดการฝึกอบรมยังคงเป็นเสาหิน บทความนี้ประเมินคำถามหลักเกี่ยวกับเรื่องนี้และเปรียบเทียบเวลาการฝึกอบรมและการแสดงในเครือข่ายนิวรอลและแบบแยกชิ้นซ้ำอย่างมาก ดู:

บางคนก็ให้ความสำคัญกับโมดุลมาก แต่อยู่กับการฝึกอบรมแบบเสาหิน (ดูงานวิจัยของ Jacob Andreaโดยเฉพาะการเรียนรู้ที่มีเหตุผลเกี่ยวข้องกับคำถามที่สามของคุณมาก) บางแห่งระหว่างปลายปี 2562 ถึงเดือนมีนาคมปีหน้าน่าจะมีผลลัพธ์มากกว่านี้ (ฉันรู้)

ในความสัมพันธ์กับสองคำถามสุดท้ายของคุณเราเริ่มเห็นแล้วว่าการแยกส่วนนั้นเป็นกุญแจสำคัญในการวางนัยทั่วไป ให้ฉันแนะนำเอกสารให้คุณ (คุณสามารถค้นหาได้ทั้งหมดใน arxiv หรือ Google scholar):

  • สถาปัตยกรรมสโทคาสติกอะแดปทีฟประสาทค้นหาการจำคำหลัก (รูปแบบของสถาปัตยกรรมเพื่อความสมดุลของประสิทธิภาพและการใช้ทรัพยากร)

  • การทำให้สถาปัตยกรรมการเขียนโปรแกรม Neural ทั่วไปผ่านการเรียกซ้ำ (พวกเขาทำภารกิจ submodularity และฉันเชื่อว่านี่เป็นครั้งแรกที่มีการรับรองการวางนัยทั่วไปภายในขอบเขตของเครือข่ายประสาทเทียม)

  • การควบคุมเกม Go ด้วยเครือข่ายประสาทลึกและการค้นหาต้นไม้ (โครงสร้างเครือข่ายเป็นต้นไม้การค้นหาเองคุณสามารถเห็นสิ่งนี้ได้มากกว่านี้หากคุณมองหาเครือข่ายประสาทกราฟ)


1

การเปรียบเทียบเกณฑ์มาตรฐานของระบบประกอบด้วยเครือข่ายที่ได้รับการฝึกอบรมแยกต่างหากซึ่งสัมพันธ์กับเครือข่ายเดียวที่ลึกกว่าจะไม่เปิดเผยตัวเลือกที่ดีที่สุดในระดับสากล 1เราสามารถเห็นได้จากเอกสารการเพิ่มจำนวนของระบบที่มีขนาดใหญ่กว่าซึ่งมีการรวมเครือข่ายประดิษฐ์หลายรายการพร้อมกับส่วนประกอบประเภทอื่น ๆ มันเป็นที่คาดหวัง การทำให้เป็นโมดูลในขณะที่ระบบเติบโตในความซับซ้อนและความต้องการในด้านประสิทธิภาพและความสามารถในการเติบโตนั้นก็เช่นเดียวกับอุตสาหกรรม

ห้องปฏิบัติการของเราทำงานกับการควบคุมหุ่นยนต์เครื่องมือทางอุณหพลศาสตร์และการวิเคราะห์ข้อมูลเครือข่ายประดิษฐ์เป็นส่วนประกอบในบริบทของระบบที่ใหญ่กว่านี้ เราไม่มี MLP หรือ RNN เดียวที่ทำหน้าที่ที่มีประโยชน์ด้วยตัวเอง

ตรงกันข้ามกับการคาดเดาเกี่ยวกับลำดับชั้นทศวรรษที่ผ่านมาวิธีทอพอโลยีที่ดูเหมือนว่าจะทำงานได้ดีในกรณีส่วนใหญ่ตามความสัมพันธ์โมดูลระบบทั่วไปที่เห็นในโรงไฟฟ้าโรงงานอัตโนมัติโรงงานวิชาการสถาปัตยกรรมข้อมูลองค์กรและการสร้างสรรค์วิศวกรรมที่ซับซ้อนอื่น ๆ การเชื่อมต่อนั้นเป็นสิ่งที่ไหลได้และถ้าได้รับการออกแบบมาอย่างดี โฟลเกิดขึ้นระหว่างโมดูลที่เกี่ยวข้องกับโปรโตคอลสำหรับการสื่อสารและแต่ละโมดูลทำงานได้ดีทำให้มีความซับซ้อนและรายละเอียดการทำงานต่ำลง ไม่ใช่เครือข่ายเดียวที่ดูแลเครือข่ายอื่นที่ดูเหมือนว่าจะเกิดประสิทธิภาพสูงสุดในการปฏิบัติจริง แต่มีความสมดุลและ symbiosis บัตรประจำตัวของการออกแบบทาสที่ชัดเจนในสมองของมนุษย์ดูเหมือนว่าจะลื่นเท่ากัน

ความท้าทายไม่ได้ค้นหาเส้นทางข้อมูลที่ประกอบเป็นโทโพโลยีข้อมูลระบบ การไหลของข้อมูลมักจะชัดเจนเมื่อวิเคราะห์ปัญหา ปัญหาคือการค้นหากลยุทธ์ที่ดีที่สุดในการฝึกอบรมเครือข่ายอิสระเหล่านี้ การฝึกอบรมเป็นเรื่องปกติและมักมีความสำคัญในขณะที่สัตว์การฝึกอบรมที่เกิดขึ้นในแหล่งกำเนิดหรือไม่ เรากำลังค้นพบเงื่อนไขภายใต้การเรียนรู้แบบนั้นในระบบของเราและใช้งานได้จริง การวิจัยส่วนใหญ่ของเราในสายการผลิตเหล่านี้มีจุดประสงค์เพื่อค้นหาวิธีการที่จะบรรลุความน่าเชื่อถือที่สูงขึ้นและลดภาระในแง่ของเวลาการวิจัยเพื่อให้ได้มา

ฟังก์ชั่นที่สูงขึ้นไม่ได้ประโยชน์เสมอไป มันมักจะสร้างความน่าเชื่อถือที่ต่ำกว่าและใช้ทรัพยากรการพัฒนาเพิ่มเติมโดยมีผลตอบแทนเพียงเล็กน้อย ค้นหาวิธีที่จะแต่งงานกับระบบอัตโนมัติในระดับที่สูงขึ้นความประหยัดทรัพยากรและความน่าเชื่อถือในกระบวนการพัฒนาหนึ่งเดียวและคุณอาจได้รับรางวัลและการกล่าวถึงอันทรงเกียรติจากเว็บ

ระบบแบบขนานที่มีวัตถุประสงค์เดียวกันนั้นเป็นความคิดที่ดี แต่ไม่ใช่ระบบใหม่ ในระบบการบินหนึ่งระบบเก้าระบบขนานมีวัตถุประสงค์เดียวกันในกลุ่มที่สาม แต่ละกลุ่มใช้วิธีการคำนวณที่แตกต่างกัน หากระบบสองระบบที่ใช้วิธีการเดียวกันให้ผลลัพธ์ที่เหมือนกันและระบบที่สามแตกต่างกันระบบจะใช้เอาต์พุตที่ตรงกันและรายงานความแตกต่างในระบบที่สามเป็นข้อผิดพลาดของระบบ หากสองวิธีที่แตกต่างกันให้ผลลัพธ์ที่คล้ายกันและวิธีที่สามแตกต่างอย่างมีนัยสำคัญจะใช้การผสานของผลลัพธ์ที่คล้ายกันสองรายการและวิธีที่สามถูกรายงานว่าเป็นกรณีการใช้งานเพื่อพัฒนาแนวทางการคัดค้านต่อไป

ความผิดพลาดที่ได้รับการปรับปรุงให้ดีขึ้นนั้นมีค่าใช้จ่ายระบบอีกแปดระบบและทรัพยากรการคำนวณและการเชื่อมต่อที่เกี่ยวข้องรวมถึงตัวเปรียบเทียบที่หาง แต่ในระบบที่เป็นเรื่องของชีวิตและความตายค่าใช้จ่ายเพิ่มเติมและความน่าเชื่อถือสูงสุด

การปรับโทโพโลยีแบบไดนามิกนั้นสัมพันธ์กับระบบซ้ำซ้อนและการยอมรับข้อผิดพลาด แต่ในบางวิธีนั้นค่อนข้างแตกต่างกัน ในส่วนของการพัฒนานั้นเทคโนโลยีที่จะตามมาคือการคำนวณแบบนิวโรมอร์ฟิคซึ่งได้รับแรงบันดาลใจบางส่วนจากการทำ neuroplasticity

ความแตกต่างสุดท้ายที่ต้องพิจารณาคือระหว่างกระบวนการทอพอโลยีทอพอโลยีข้อมูลและทอพอโลยีฮาร์ดแวร์ เฟรมเรขาคณิตทั้งสามนี้สามารถสร้างประสิทธิภาพที่ดียิ่งขึ้นด้วยกันหากจัดเรียงในวิธีเฉพาะที่สร้างการแมปโดยตรงระหว่างความสัมพันธ์ระหว่างการไหลการแสดงและกลไก อย่างไรก็ตามทอพอโลยีที่แตกต่างกัน ความหมายของการจัดแนวอาจไม่ชัดเจนหากไม่ดำดิ่งลึกเข้าไปในแนวคิดเหล่านี้และรายละเอียดที่ปรากฏสำหรับวัตถุประสงค์เฉพาะของผลิตภัณฑ์หรือบริการ

เชิงอรรถ

[1] เครือข่ายลึกที่ได้รับการฝึกฝนให้เป็นยูนิตและฟังก์ชั่นเดียวโดยไม่ต้องเชื่อมต่อกับเครือข่ายเทียมอื่น ๆ นั้นไม่จำเป็นต้องเป็นเสาหิน เครือข่ายที่ใช้งานได้จริงส่วนใหญ่มีลำดับชั้นที่แตกต่างกันในแง่ของฟังก์ชั่นการเปิดใช้งานและมักจะเป็นประเภทเซลล์ของพวกเขา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.