เป็นไปได้ไหมที่จะฝึกโครงข่ายใยประสาทเทียมโดยไม่ต้องทำ backpropagation


94

หนังสือและแบบฝึกหัดเกี่ยวกับโครงข่ายประสาทหลายเล่มใช้เวลากับอัลกอริธึม backpropagation เป็นหลักซึ่งเป็นเครื่องมือในการคำนวณการไล่ระดับสี

สมมติว่าเรากำลังสร้างแบบจำลองที่มีพารามิเตอร์ / น้ำหนักประมาณ ~ 10K เป็นไปได้ไหมที่จะใช้การเพิ่มประสิทธิภาพโดยใช้อัลกอริธึมการเพิ่มประสิทธิภาพไล่ระดับสีฟรี?

ฉันคิดว่าการคำนวณการไล่ระดับตัวเลขจะช้าเกินไป แต่วิธีการอื่น ๆ เช่น Nelder-Mead, Simulated Annealing หรือ Algorithm ทางพันธุกรรม?

อัลกอริธึมทั้งหมดจะได้รับผลกระทบจากมินิมาท้องถิ่นทำไมจึงต้องหมกมุ่นกับการไล่ระดับสี



6
@FranckDernoncourt ฉันตีความคำถามอื่น ๆ ว่า "ทำไมไม่ใช้เทคนิคการเพิ่มประสิทธิภาพทั่วโลกในการฝึกอบรมเครือข่ายประสาทเทียม" ในขณะที่นี่เป็นมากกว่า "ทำไมไม่ใช้เครื่องมือเพิ่มประสิทธิภาพที่ปราศจากอนุพันธ์ ... "
GeoMatt22

6
ด้วย 3 คำตอบที่โหวตแล้วดูเหมือนจะไม่กว้างเกินกว่าที่ฉันจะตอบได้
gung

5
ใช่คุณไม่ต้องกังวลมากนักเกี่ยวกับ Nelder-Mead ที่ติดอยู่ในระดับต่ำสุดในประเทศเพราะคุณจะโชคดีถ้ามันมีประโยชน์ทุกที่
Mark L. Stone

1
BTW อัลตร้า L-BFGS ให้ความสนใจ มันอาจจะดี แต่มันก็คลุมเครือจนอาจไม่มีใครลองใช้มันบนเครือข่ายประสาท ดูสมการที่ 2.9 ในหน้า 12 (คุณต้องอ่านก่อนหน้านี้สองสามหน้าเพื่อทำความเข้าใจสูตร) ​​ของmaths.dundee.ac.uk/nasc/na-reports/NA149_RF.pdf (ไม่ได้เรียกว่า BFGS พิเศษในกระดาษ) ซึ่งจะต้อง เข้าสู่รุ่น "L" (หน่วยความจำ จำกัด ) เป็น ultra L-BFGS แทนที่จะเป็น BFGS พิเศษ มีการวางเวอร์ชันที่ไม่ใช่ L ลงในกระดาษ Ultra BFGS นั้นเป็น BFGS ที่ถูกทำให้ร้อนขึ้น (เร็ว ๆ นี้) BFGS - สามารถเร็วขึ้น แต่อาจจะเป็นตัวสั่นเล็กน้อย
Mark L. Stone

คำตอบ:


80

สองอัลกอริทึมแรกที่คุณพูดถึง (Nelder-Mead และ Simulated Annealing) โดยทั่วไปถือว่าค่อนข้างล้าสมัยในแวดวงการเพิ่มประสิทธิภาพเนื่องจากมีทางเลือกที่ดีกว่ามากซึ่งมีทั้งความน่าเชื่อถือและค่าใช้จ่ายน้อยลง อัลกอริทึมทางพันธุกรรมครอบคลุมช่วงกว้างและบางส่วนของสิ่งเหล่านี้อาจมีเหตุผล

อย่างไรก็ตามในระดับที่กว้างขึ้นของอัลกอริธึมการเพิ่มประสิทธิภาพที่ปราศจากอนุพันธ์ (DFO) มีหลายสิ่งที่ดีกว่า "คลาสสิก" เหล่านี้อย่างมีนัยสำคัญเนื่องจากนี่เป็นพื้นที่การวิจัยที่กระตือรือร้นในทศวรรษที่ผ่านมา ดังนั้นวิธีการใหม่ ๆ เหล่านี้บางอย่างอาจมีเหตุผลสำหรับการเรียนรู้อย่างลึกซึ้ง?

บทความล่าสุดที่เปรียบเทียบสถานะของศิลปะมีดังต่อไปนี้:

Rios, LM, & Sahinidis, NV (2013) การเพิ่มประสิทธิภาพที่ปราศจากอนุพันธ์: การทบทวนขั้นตอนวิธีและการเปรียบเทียบการใช้งานซอฟต์แวร์ วารสารการเพิ่มประสิทธิภาพระดับโลก

นี่เป็นบทความที่ดีซึ่งมีความเข้าใจอย่างลึกซึ้งเกี่ยวกับเทคนิคล่าสุด ตัวอย่างเช่นผลลัพธ์แสดงให้เห็นอย่างชัดเจนว่าเครื่องมือเพิ่มประสิทธิภาพในพื้นที่ที่ดีที่สุดคือ "ตามโมเดล" ทั้งหมดโดยใช้รูปแบบต่าง ๆ ของการเขียนโปรแกรมกำลังสองต่อเนื่อง (SQP)

อย่างไรก็ตามตามที่ระบุไว้ในนามธรรมของพวกเขา "เราพบว่าความสามารถของนักแก้ปัญหาเหล่านี้ทั้งหมดเพื่อให้ได้โซลูชั่นที่ดีจะลดลงเมื่อขนาดของปัญหาเพิ่มขึ้น" เพื่อให้ความคิดเกี่ยวกับตัวเลขสำหรับปัญหาทั้งหมดนักแก้ปัญหาได้รับงบประมาณ 2500 การประเมินฟังก์ชั่นและขนาดของปัญหาเป็นพารามิเตอร์สูงสุดถึง 300 พารามิเตอร์เพื่อปรับให้เหมาะสม นอกเหนือจากพารามิเตอร์ O [10] เครื่องมือเพิ่มประสิทธิภาพเหล่านี้ทำงานได้ดีน้อยมากและแม้แต่ตัวที่ดีที่สุดก็แสดงถึงประสิทธิภาพที่ลดลงเมื่อขนาดของปัญหาเพิ่มขึ้น

ดังนั้นสำหรับปัญหามิติที่สูงมากอัลกอริทึม DFO ก็ไม่สามารถแข่งขันกับสิ่งที่มาจากอนุพันธ์ เพื่อให้ได้มุมมองบางส่วนPDE (สมการเชิงอนุพันธ์บางส่วน) - การเพิ่มประสิทธิภาพฐานเป็นอีกพื้นที่ที่มีปัญหามิติสูงมาก (เช่นพารามิเตอร์หลายตัวสำหรับแต่ละเซลล์ของกริดองค์ประกอบ 3 มิติขนาดใหญ่) ในขอบเขตนี้ " วิธีการ adjoint " เป็นหนึ่งในวิธีที่ใช้มากที่สุด นอกจากนี้ยังเป็นเครื่องมือเพิ่มประสิทธิภาพการไล่ระดับสีแบบไล่ระดับโดยยึดตามความแตกต่างโดยอัตโนมัติของโค้ดรุ่นต่อไป

เครื่องมือเพิ่มประสิทธิภาพ DFO ระดับสูงที่ใกล้เคียงที่สุดอาจเป็นตัวกรอง Ensman Kalmanซึ่งใช้สำหรับการรวมข้อมูลเป็นแบบจำลอง PDE ที่ซับซ้อนเช่นแบบจำลองสภาพอากาศ น่าสนใจนี่คือวิธีการ SQP แต่มีการตีความแบบเบส์ - เกาส์ (แบบจำลองกำลังสองเป็นแบบบวกแน่นอนเช่นไม่มีจุดอาน) แต่ฉันไม่คิดว่าจำนวนพารามิเตอร์หรือการสังเกตในแอปพลิเคชันเหล่านี้เปรียบได้กับสิ่งที่เห็นในการเรียนรู้อย่างลึกซึ้ง

หมายเหตุด้านข้าง (local minima):จากสิ่งที่ฉันได้อ่านเล็กน้อยเกี่ยวกับการเรียนรู้อย่างลึกล้ำฉันคิดว่าฉันทามติคือจุดอานม้าแทนที่จะเป็น minima ท้องถิ่นซึ่งเป็นปัญหาสำหรับช่องว่าง NN-parameter มิติสูง

ตัวอย่างเช่นการตรวจสอบล่าสุดในธรรมชาติกล่าวว่า "ผลลัพธ์ทางทฤษฎีและเชิงประจักษ์ล่าสุดแนะนำอย่างยิ่งว่า minima ท้องถิ่นไม่ได้เป็นปัญหาร้ายแรงโดยทั่วไปแทนภูมิทัศน์จะเต็มไปด้วยจุดอานจำนวนมากที่การไล่ระดับสีเป็นศูนย์และ พื้นผิวโค้งขึ้นในมิติส่วนใหญ่และโค้งลงในส่วนที่เหลือ "

ข้อกังวลที่เกี่ยวข้องเป็นเรื่องเกี่ยวกับการเพิ่มประสิทธิภาพในท้องถิ่นและทั่วโลก (ตัวอย่างเช่นคำถามนี้ชี้ให้เห็นในความคิดเห็น) ในขณะที่ฉันไม่ได้เรียนรู้อย่างลึกซึ้งในประสบการณ์ของฉัน overfitting แน่นอนความกังวลที่ถูกต้อง ในความเห็นของฉันวิธีการปรับให้เหมาะสมทั่วโลกเหมาะสมที่สุดสำหรับปัญหาการออกแบบทางวิศวกรรมที่ไม่ได้ขึ้นอยู่กับข้อมูล "ธรรมชาติ" ปัญหาในการดูดซึมข้อมูลใด ๆ น้อยทั่วโลกในปัจจุบันได้อย่างง่ายดายสามารถเปลี่ยนแปลงได้ตามการเพิ่มขึ้นของข้อมูลใหม่ (ข้อแม้: ประสบการณ์ของฉันเป็นความเข้มข้นในปัญหาธรณีวิทยาซึ่งข้อมูลโดยทั่วไป "เบาบาง" เมื่อเทียบกับกำลังการผลิตรูปแบบ)

บางทีอาจมีมุมมองที่น่าสนใจ

O. Bousquet & L. Bottou (2008) การแลกเปลี่ยนการเรียนรู้ขนาดใหญ่ NIPS

ซึ่งให้ข้อโต้แย้งกึ่งทฤษฎีเกี่ยวกับสาเหตุและเมื่อการเพิ่มประสิทธิภาพโดยประมาณอาจจะดีกว่าในทางปฏิบัติ

หมายเหตุสุดท้าย (meta-optimization):ในขณะที่เทคนิคการไล่ระดับสีมีแนวโน้มที่จะโดดเด่นสำหรับเครือข่ายการฝึกอบรมอาจมีบทบาทสำหรับ DFO ในงาน meta-optimization ที่เกี่ยวข้อง

ตัวอย่างหนึ่งจะเป็นการปรับจูนพารามิเตอร์ (น่าสนใจว่าเครื่องมือเพิ่มประสิทธิภาพ DFO แบบจำลองที่ประสบความสำเร็จจากRios & Sahinidisสามารถมองเห็นได้ว่าเป็นการแก้ปัญหาลำดับการออกแบบของการทดลอง / การตอบสนองต่อปัญหาพื้นผิว )

อีกตัวอย่างหนึ่งคือการออกแบบสถาปัตยกรรมในแง่ของการตั้งค่าของเลเยอร์ (เช่นหมายเลขชนิดลำดับลำดับโหนด / เลเยอร์) ในอัลกอริทึมแบบพันธุกรรมบริบทการเพิ่มประสิทธิภาพไม่ต่อเนื่องนี้อาจมีความเหมาะสมมากขึ้น โปรดทราบว่าที่นี่ฉันกำลังคิดเกี่ยวกับกรณีที่การเชื่อมต่อจะถูกกำหนดโดยปัจจัยเหล่านี้ (เช่นชั้นที่เชื่อมต่ออย่างเต็มรูปแบบ, ชั้น Convolutional, ฯลฯ ) ในคำอื่น ๆการเชื่อมต่อเมตาดาต้าที่ดีที่สุดอย่างชัดเจน (ความแรงของการเชื่อมต่อจะตกอยู่ภายใต้การฝึกอบรมซึ่งสามารถส่งเสริมการ sparsity เช่นและ / หรือการเปิดใช้งาน ReLU ... ตัวเลือกเหล่านี้สามารถปรับให้เหมาะสมกับ meta ได้)O[N2]notL1


1
คำวิจารณ์ที่คุณอ้างอิงมาจากผู้สนับสนุนหลักของอวนประสาท ฉันจะถามการเรียกร้องเกี่ยวกับ minima ท้องถิ่น - คำวิจารณ์เชิงทฤษฎีที่รู้จักกันดีของ NNs นั้นแน่นอนว่าโมเดลที่ซับซ้อนใด ๆ ไม่สามารถปรับให้เหมาะสมโดยการไล่ระดับสีแบบไล่ลงเพราะมันจะติดอยู่ใน minima ท้องถิ่น ไม่ชัดเจนว่าเป็นเพียงความสำเร็จของ nns ที่สามารถแก้ไขได้ด้วยฉากหลังและคุณไม่ได้ยินเกี่ยวกับความล้มเหลว
seanv507

2
@ GeoMatt22 Contrastive divergence เป็นการประมาณระดับความชันของแบบจำลองพิเศษซึ่ง RBMs ตกอยู่ภายใต้ มันควรจะสังเกตว่า RBMs เป็นแบบจำลองความน่าจะเป็นซึ่งเป็นการกระจายตัวแบบหนึ่งซึ่งระดับความน่าจะเป็นของการประมาณค่าความน่าจะเป็นสูงสุดนั้นเป็นไปไม่ได้ โครงข่ายประสาทเทียมเป็นแบบจำลองการคำนวณซึ่งสามารถใช้งานได้โดยไม่มีจุดเริ่มต้นที่น่าจะเป็นเช่นผ่านการปรับการสูญเสียบานพับให้เหมาะสม เรื่องสั้นสั้น ๆ ซีดีไม่ใช่วิธีการทั่วไปในการปรับแต่งโครงข่ายประสาท
bayerj

2
@ seanv507 ในขณะที่เรียกร้องได้รับการทำโดยผู้เสนอรายใหญ่มีบทความทบทวนจากการประชุมด้านบนการเรียนรู้ของเครื่องซึ่งประเมินเรียกร้องเหล่านั้นอย่างจริงจังเช่นarxiv.org/abs/1406.2572 ถึงตอนนี้การอ้างสิทธิ์นั้นได้รับการยอมรับอย่างกว้างขวางในชุมชน ML ที่กว้างขึ้นส่วนใหญ่เกิดจากข้อโต้แย้งเชิงทฤษฎีที่เหนือกว่าและหลักฐานเชิงประจักษ์ ฉันไม่คิดว่าอาร์กิวเมนต์โฆษณา hominem เพียงพอแล้วที่นี่
bayerj

1
ฉันยอมรับว่าทฤษฎี DL ขาดไป คุณยังคงต้องยอมรับว่าบทความเช่นนี้กำลังก้าวหน้าไป หากคุณรู้สึกว่าบทความระบุผลลัพธ์ที่ไม่ถูกต้องและข้อสรุป (เช่น "ท้องถิ่นน้อยที่สุดมีปัญหาน้อยกว่าจุดอานม้า") ไม่ถูกต้องคุณต้องทำดีกว่าระบุการโจมตีโฆษณาอีกครั้งคราวนี้มุ่งไปที่ ชุมชน ML โดยรวม
bayerj

1
งานล่าสุดแสดงให้เห็นว่าด้วยการกำหนดค่าเริ่มต้นแบบสุ่มการไล่ระดับสีมาบรรจบกันเป็นค่าต่ำสุดในท้องถิ่น (แทนที่จะเป็นจุดอาน) กระดาษที่นี่: arxiv.org/abs/1602.04915และบล็อกโพสต์ที่นี่: offconvex.org/2016/03/24/saddles-again ตรงกันข้ามมีสมมติฐานน้อย (ล่าสุด) ที่ในเครือข่ายประสาทขนาดใหญ่, minima ท้องถิ่นเป็น เกี่ยวกับดีเท่ากับโลกพูดคุยที่นี่: stats.stackexchange.com/questions/203288/…
DavidR

12

มีทุกประเภทของขั้นตอนวิธีการค้นหาในท้องถิ่นที่คุณสามารถใช้แพร่กระจายย้อนกลับได้พิสูจน์เพียงเพื่อให้มีประสิทธิภาพมากที่สุดสำหรับการทำงานที่ซับซ้อนมากขึ้นโดยทั่วไป ; มีสถานการณ์ที่การค้นหาในท้องถิ่นอื่น ๆ ดีกว่า

คุณสามารถใช้การปีนเขาแบบสุ่มเริ่มต้นบนเครือข่ายประสาทเทียมเพื่อค้นหาวิธีการแก้ปัญหาที่รวดเร็ว แต่ไม่สามารถหาวิธีการแก้ปัญหาที่ดีที่สุดได้

Wikipedia (ฉันรู้ไม่ใช่แหล่งที่ยิ่งใหญ่ที่สุด แต่ก็ยัง)

สำหรับปัญหาที่การค้นหาความเหมาะสมระดับโลกที่แม่นยำนั้นมีความสำคัญน้อยกว่าการหาค่าที่เหมาะสมในท้องถิ่นที่ยอมรับได้ในระยะเวลาที่แน่นอนการอบแบบจำลองอาจเหมาะสมกว่าทางเลือกอื่นเช่นการไล่ระดับสี

แหล่ง

สำหรับอัลกอริทึมทางพันธุกรรมฉันจะเห็นBackpropagation เทียบกับอัลกอริทึมทางพันธุกรรมสำหรับการฝึกอบรมโครงข่ายประสาทเทียม

กรณีหลักที่ฉันจะทำเพื่อ backprop คือมันใช้กันอย่างแพร่หลายและมีการปรับปรุงมากมาย ภาพเหล่านี้แสดงให้เห็นถึงความก้าวหน้าอย่างไม่น่าเชื่อบางประการต่อการแพร่กระจายของวานิลลา

ฉันไม่คิดว่า backprop เป็นอัลกอริทึมเดียว แต่เป็นคลาสของอัลกอริทึม

ฉันต้องการเพิ่มมันสำหรับเครือข่ายประสาทเทียมพารามิเตอร์ 10k เป็นถั่วขนาดเล็ก การค้นหาอื่นจะใช้งานได้ดี แต่ในเครือข่ายที่มีพารามิเตอร์เป็นล้าน ๆ ตัว


12

ก่อนที่การปฏิวัติ backpropagation ในยุค 70 ถูก "ฝึกฝน" ด้วยมือ :)

ที่ถูกกล่าวว่า:

มี "โรงเรียน" ของการเรียนรู้ของเครื่องที่เรียกว่าเครื่องเรียนรู้ขั้นสูงซึ่งไม่ได้ใช้การขยายเวลาโฆษณากลับ

สิ่งที่พวกเขาทำคือการสร้างโครงข่ายประสาทเทียมด้วยโหนดจำนวนมากหลายโหนด - ด้วยน้ำหนักสุ่ม - และจากนั้นฝึกชั้นสุดท้ายโดยใช้กำลังสองขั้นต่ำ (เช่นการถดถอยเชิงเส้น) จากนั้นพวกเขาก็ตัดโครงข่ายประสาทในภายหลังหรือใช้การทำให้เป็นปกติในขั้นตอนสุดท้าย (เช่นบ่วงบาศ) เพื่อหลีกเลี่ยงการ overfitting ฉันได้เห็นสิ่งนี้นำไปใช้กับเครือข่ายประสาทที่มีเลเยอร์ที่ซ่อนอยู่เพียงชั้นเดียวเท่านั้น ไม่มีการฝึกอบรมดังนั้นมันจึงเร็วมาก ฉันทำการทดสอบบางอย่างและน่าประหลาดใจที่โครงข่ายประสาทเหล่านี้ "ฝึกฝน" ด้วยวิธีนี้ค่อนข้างแม่นยำ

คนส่วนใหญ่อย่างน้อยคนที่ฉันทำงานด้วยให้ปฏิบัติกับการเรียนรู้เครื่อง "โรงเรียน" ด้วยการดูถูกและพวกเขาเป็นกลุ่มที่ถูกขับไล่ด้วยการประชุมของตัวเองเป็นต้น แต่จริงๆแล้วฉันคิดว่ามันช่างฉลาดจริงๆ


อีกจุดหนึ่ง: ภายใน backpropagation มีทางเลือกที่ไม่ค่อยกล่าวถึงเช่นbackproagation ยืดหยุ่นซึ่งถูกนำมาใช้ใน R ในneuralnetแพ็คเกจซึ่งใช้เพียงขนาดของอนุพันธ์ อัลกอริทึมทำจากเงื่อนไข if-else แทนพีชคณิตเชิงเส้น พวกเขามีข้อได้เปรียบบางกว่าแพร่กระจายย้อนกลับแบบดั้งเดิมคือคุณไม่จำเป็นที่จะปรับข้อมูลของคุณเพราะพวกเขาไม่ต้องทนทุกข์ทรมานจากปัญหาการไล่ระดับสีที่หายไป


Cab คุณทำ (ส่วนใหญ่หรือทั้งหมด) สะกดในย่อหน้าที่ 4 ของคุณแล้วใช้ผลลัพธ์เป็นจุดเริ่มต้นสำหรับการปรับให้เหมาะสมตามอนุพันธ์เพื่อ "ปรับแต่ง"
Mark L. Stone

1
@ MarkL.Stone ฉันไม่รู้จักใครก็ตามที่ทำการ backpropagation โดยใช้การถดถอยเชิงเส้นเป็นชั้นแรก มันฟังดูน่าสนใจ
Ricardo Cruz

1
เท่าที่ฉันรู้ข้อพิพาทรอบ ELM นั้นส่วนใหญ่เกิดจากแง่มุมทางจริยธรรมไม่ใช่การนำไปปฏิบัติ Schmidt และคณะได้สัมผัสกับเรื่องนี้ในปี 1992 ด้วยเครือข่าย Feedforward ที่มีน้ำหนักแบบสุ่ม
Firebug

3

คุณสามารถใช้อัลกอริธึมการเพิ่มประสิทธิภาพเชิงตัวเลขใด ๆ ก็ได้เพื่อเพิ่มน้ำหนักของเครือข่ายประสาทเทียม คุณยังสามารถใช้อัลกอริธึมการเพิ่มประสิทธิภาพแบบต่อเนื่องแบบผสมเพื่อเพิ่มน้ำหนักไม่เพียง แต่ปรับโครงสร้างเอง (จำนวนชั้นจำนวนจำนวนเซลล์ประสาทในแต่ละชั้นหรือแม้แต่ประเภทของเซลล์ประสาท) อย่างไรก็ตามไม่มีอัลกอริธึมการเพิ่มประสิทธิภาพที่ไม่ได้รับผลกระทบจาก "คำสาปของมิติ" และการเพิ่มประสิทธิภาพท้องถิ่นในบางลักษณะ


3

คุณยังสามารถใช้เครือข่ายอื่นเพื่อแนะนำวิธีปรับปรุงพารามิเตอร์ได้

มีDecoupled Neural Interfaces (DNI)จาก Google Deepmind แทนที่จะใช้ backpropagation จะใช้ชุดเครือข่ายนิวรัลอีกชุดหนึ่งเพื่อทำนายวิธีการอัปเดตพารามิเตอร์ซึ่งช่วยให้สามารถอัปเดตพารามิเตอร์แบบขนานและแบบอะซิงโครนัสได้

กระดาษแสดงให้เห็นว่า DNI เพิ่มความเร็วในการฝึกอบรมและความจุของรุ่น RNNs และให้ผลลัพธ์ที่เปรียบเทียบได้สำหรับทั้ง RNNs และ FFNNs ในงานต่างๆ


บทความนี้ยังระบุและเปรียบเทียบวิธีการไม่แพร่กระจายอื่น ๆ อีกมากมาย

แบบจำลองการไล่ระดับสีสังเคราะห์ของเรานั้นคล้ายคลึงกับฟังก์ชันค่าซึ่งใช้สำหรับการไล่ระดับสีขึ้น [2] หรือฟังก์ชันค่าที่ใช้สำหรับการบูต งานอื่น ๆ ส่วนใหญ่ที่มีเป้าหมายเพื่อลบการเผยแพร่กลับทำเช่นนั้นโดยมีเป้าหมายในการดำเนินการมอบหมายเครดิตทางชีวภาพที่มีเหตุผล แต่ไม่ได้กำจัดการล็อกการอัปเดตระหว่างเลเยอร์ เช่นการแพร่กระจายเป้าหมาย [3, 15] ลบการพึ่งพาผ่านการไล่ระดับสีระหว่างเลเยอร์โดยสร้างการเปิดใช้งานเป้าหมายซึ่งควรจะพอดี อย่างไรก็ตามเป้าหมายเหล่านี้ต้องยังคงสร้างขึ้นตามลำดับการแพร่กระจายไปข้างหลังผ่านเครือข่ายและเลเยอร์จึงยังคงปรับปรุงและย้อนกลับล็อค อัลกอริธึมอื่น ๆ ลบการล็อกไปข้างหลังโดยอนุญาตให้มีการสูญเสียหรือผลตอบแทนในการถ่ายทอดโดยตรงไปยังแต่ละเลเยอร์ - เช่น REINFORCE [21] (เนื่องจากการเปิดใช้งานทั้งหมดเป็นการกระทำ)1และนโยบายการไล่สี Coagent Networks [20] - แต่ยังคงล็อคการปรับปรุงเนื่องจากพวกเขาต้องการรางวัลที่จะสร้างโดยเอาท์พุท (หรือนักวิจารณ์ทั่วโลก) ในขณะที่การเรียนรู้แบบเรียลไทม์ [22] หรือการประมาณเช่น [17] อาจเป็นวิธีที่มีแนวโน้มในการลบการล็อกการอัพเดทวิธีการเหล่านี้ต้องการการไล่ระดับสีแบบเต็ม (หรือโดยประมาณ) ของสถานะปัจจุบันที่เกี่ยวข้องกับพารามิเตอร์ สิ่งนี้ไม่สามารถปรับขนาดได้โดยเนื้อแท้และยังต้องเพิ่มประสิทธิภาพเพื่อให้มีความรู้ทั่วโลกเกี่ยวกับสถานะเครือข่าย ในทางตรงกันข้ามการกำหนดกรอบปฏิสัมพันธ์ระหว่างเลเยอร์เป็นปัญหาการสื่อสารในท้องถิ่นกับ DNI นั้นทำให้เราไม่จำเป็นต้องมีความรู้ระดับโลกในระบบการเรียนรู้ งานอื่น ๆ เช่น [4, 19] อนุญาตให้มีการฝึกอบรมของเลเยอร์คู่ขนานโดยไม่มีการแพร่กระจายกลับ


2

ตราบใดที่นี่เป็นคำถามชุมชนฉันคิดว่าฉันจะเพิ่มการตอบกลับอีกครั้ง "Back Propagation" เป็นเพียงอัลกอริธึมการไล่ระดับสี มันเกี่ยวข้องกับการใช้อนุพันธ์อันดับแรกของฟังก์ชั่นที่หนึ่งพยายามที่จะหาท้องถิ่นน้อยที่สุดหรือสูงสุด มีอีกวิธีหนึ่งที่เรียกว่าวิธีของนิวตันหรือนิวตัน - ราฟสันซึ่งเกี่ยวข้องกับการคำนวณ Hessian และใช้อนุพันธ์อันดับสอง มันสามารถประสบความสำเร็จในกรณีที่โคตรลาดล้มเหลว ฉันได้รับการบอกเล่าจากคนอื่นที่มีความรู้มากกว่าฉันและใช่นี่คือการอุทธรณ์ของผู้มีอำนาจมือสองว่ามันไม่ได้ใช้ในตาข่ายประสาทเพราะการคำนวณอนุพันธ์อันดับสองทั้งหมดนั้นมีค่าใช้จ่ายสูงเกินไปในแง่ของการคำนวณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.