สองอัลกอริทึมแรกที่คุณพูดถึง (Nelder-Mead และ Simulated Annealing) โดยทั่วไปถือว่าค่อนข้างล้าสมัยในแวดวงการเพิ่มประสิทธิภาพเนื่องจากมีทางเลือกที่ดีกว่ามากซึ่งมีทั้งความน่าเชื่อถือและค่าใช้จ่ายน้อยลง อัลกอริทึมทางพันธุกรรมครอบคลุมช่วงกว้างและบางส่วนของสิ่งเหล่านี้อาจมีเหตุผล
อย่างไรก็ตามในระดับที่กว้างขึ้นของอัลกอริธึมการเพิ่มประสิทธิภาพที่ปราศจากอนุพันธ์ (DFO) มีหลายสิ่งที่ดีกว่า "คลาสสิก" เหล่านี้อย่างมีนัยสำคัญเนื่องจากนี่เป็นพื้นที่การวิจัยที่กระตือรือร้นในทศวรรษที่ผ่านมา ดังนั้นวิธีการใหม่ ๆ เหล่านี้บางอย่างอาจมีเหตุผลสำหรับการเรียนรู้อย่างลึกซึ้ง?
บทความล่าสุดที่เปรียบเทียบสถานะของศิลปะมีดังต่อไปนี้:
Rios, LM, & Sahinidis, NV (2013) การเพิ่มประสิทธิภาพที่ปราศจากอนุพันธ์: การทบทวนขั้นตอนวิธีและการเปรียบเทียบการใช้งานซอฟต์แวร์ วารสารการเพิ่มประสิทธิภาพระดับโลก
นี่เป็นบทความที่ดีซึ่งมีความเข้าใจอย่างลึกซึ้งเกี่ยวกับเทคนิคล่าสุด ตัวอย่างเช่นผลลัพธ์แสดงให้เห็นอย่างชัดเจนว่าเครื่องมือเพิ่มประสิทธิภาพในพื้นที่ที่ดีที่สุดคือ "ตามโมเดล" ทั้งหมดโดยใช้รูปแบบต่าง ๆ ของการเขียนโปรแกรมกำลังสองต่อเนื่อง (SQP)
อย่างไรก็ตามตามที่ระบุไว้ในนามธรรมของพวกเขา "เราพบว่าความสามารถของนักแก้ปัญหาเหล่านี้ทั้งหมดเพื่อให้ได้โซลูชั่นที่ดีจะลดลงเมื่อขนาดของปัญหาเพิ่มขึ้น" เพื่อให้ความคิดเกี่ยวกับตัวเลขสำหรับปัญหาทั้งหมดนักแก้ปัญหาได้รับงบประมาณ 2500 การประเมินฟังก์ชั่นและขนาดของปัญหาเป็นพารามิเตอร์สูงสุดถึง 300 พารามิเตอร์เพื่อปรับให้เหมาะสม นอกเหนือจากพารามิเตอร์ O [10] เครื่องมือเพิ่มประสิทธิภาพเหล่านี้ทำงานได้ดีน้อยมากและแม้แต่ตัวที่ดีที่สุดก็แสดงถึงประสิทธิภาพที่ลดลงเมื่อขนาดของปัญหาเพิ่มขึ้น
ดังนั้นสำหรับปัญหามิติที่สูงมากอัลกอริทึม DFO ก็ไม่สามารถแข่งขันกับสิ่งที่มาจากอนุพันธ์ เพื่อให้ได้มุมมองบางส่วนPDE (สมการเชิงอนุพันธ์บางส่วน) - การเพิ่มประสิทธิภาพฐานเป็นอีกพื้นที่ที่มีปัญหามิติสูงมาก (เช่นพารามิเตอร์หลายตัวสำหรับแต่ละเซลล์ของกริดองค์ประกอบ 3 มิติขนาดใหญ่) ในขอบเขตนี้ " วิธีการ adjoint " เป็นหนึ่งในวิธีที่ใช้มากที่สุด นอกจากนี้ยังเป็นเครื่องมือเพิ่มประสิทธิภาพการไล่ระดับสีแบบไล่ระดับโดยยึดตามความแตกต่างโดยอัตโนมัติของโค้ดรุ่นต่อไป
เครื่องมือเพิ่มประสิทธิภาพ DFO ระดับสูงที่ใกล้เคียงที่สุดอาจเป็นตัวกรอง Ensman Kalmanซึ่งใช้สำหรับการรวมข้อมูลเป็นแบบจำลอง PDE ที่ซับซ้อนเช่นแบบจำลองสภาพอากาศ น่าสนใจนี่คือวิธีการ SQP แต่มีการตีความแบบเบส์ - เกาส์ (แบบจำลองกำลังสองเป็นแบบบวกแน่นอนเช่นไม่มีจุดอาน) แต่ฉันไม่คิดว่าจำนวนพารามิเตอร์หรือการสังเกตในแอปพลิเคชันเหล่านี้เปรียบได้กับสิ่งที่เห็นในการเรียนรู้อย่างลึกซึ้ง
หมายเหตุด้านข้าง (local minima):จากสิ่งที่ฉันได้อ่านเล็กน้อยเกี่ยวกับการเรียนรู้อย่างลึกล้ำฉันคิดว่าฉันทามติคือจุดอานม้าแทนที่จะเป็น minima ท้องถิ่นซึ่งเป็นปัญหาสำหรับช่องว่าง NN-parameter มิติสูง
ตัวอย่างเช่นการตรวจสอบล่าสุดในธรรมชาติกล่าวว่า "ผลลัพธ์ทางทฤษฎีและเชิงประจักษ์ล่าสุดแนะนำอย่างยิ่งว่า minima ท้องถิ่นไม่ได้เป็นปัญหาร้ายแรงโดยทั่วไปแทนภูมิทัศน์จะเต็มไปด้วยจุดอานจำนวนมากที่การไล่ระดับสีเป็นศูนย์และ พื้นผิวโค้งขึ้นในมิติส่วนใหญ่และโค้งลงในส่วนที่เหลือ "
ข้อกังวลที่เกี่ยวข้องเป็นเรื่องเกี่ยวกับการเพิ่มประสิทธิภาพในท้องถิ่นและทั่วโลก (ตัวอย่างเช่นคำถามนี้ชี้ให้เห็นในความคิดเห็น) ในขณะที่ฉันไม่ได้เรียนรู้อย่างลึกซึ้งในประสบการณ์ของฉัน overfitting แน่นอนความกังวลที่ถูกต้อง ในความเห็นของฉันวิธีการปรับให้เหมาะสมทั่วโลกเหมาะสมที่สุดสำหรับปัญหาการออกแบบทางวิศวกรรมที่ไม่ได้ขึ้นอยู่กับข้อมูล "ธรรมชาติ" ปัญหาในการดูดซึมข้อมูลใด ๆ น้อยทั่วโลกในปัจจุบันได้อย่างง่ายดายสามารถเปลี่ยนแปลงได้ตามการเพิ่มขึ้นของข้อมูลใหม่ (ข้อแม้: ประสบการณ์ของฉันเป็นความเข้มข้นในปัญหาธรณีวิทยาซึ่งข้อมูลโดยทั่วไป "เบาบาง" เมื่อเทียบกับกำลังการผลิตรูปแบบ)
บางทีอาจมีมุมมองที่น่าสนใจ
O. Bousquet & L. Bottou (2008) การแลกเปลี่ยนการเรียนรู้ขนาดใหญ่ NIPS
ซึ่งให้ข้อโต้แย้งกึ่งทฤษฎีเกี่ยวกับสาเหตุและเมื่อการเพิ่มประสิทธิภาพโดยประมาณอาจจะดีกว่าในทางปฏิบัติ
หมายเหตุสุดท้าย (meta-optimization):ในขณะที่เทคนิคการไล่ระดับสีมีแนวโน้มที่จะโดดเด่นสำหรับเครือข่ายการฝึกอบรมอาจมีบทบาทสำหรับ DFO ในงาน meta-optimization ที่เกี่ยวข้อง
ตัวอย่างหนึ่งจะเป็นการปรับจูนพารามิเตอร์ (น่าสนใจว่าเครื่องมือเพิ่มประสิทธิภาพ DFO แบบจำลองที่ประสบความสำเร็จจากRios & Sahinidisสามารถมองเห็นได้ว่าเป็นการแก้ปัญหาลำดับการออกแบบของการทดลอง / การตอบสนองต่อปัญหาพื้นผิว )
อีกตัวอย่างหนึ่งคือการออกแบบสถาปัตยกรรมในแง่ของการตั้งค่าของเลเยอร์ (เช่นหมายเลขชนิดลำดับลำดับโหนด / เลเยอร์) ในอัลกอริทึมแบบพันธุกรรมบริบทการเพิ่มประสิทธิภาพไม่ต่อเนื่องนี้อาจมีความเหมาะสมมากขึ้น โปรดทราบว่าที่นี่ฉันกำลังคิดเกี่ยวกับกรณีที่การเชื่อมต่อจะถูกกำหนดโดยปัจจัยเหล่านี้ (เช่นชั้นที่เชื่อมต่ออย่างเต็มรูปแบบ, ชั้น Convolutional, ฯลฯ ) ในคำอื่น ๆการเชื่อมต่อเมตาดาต้าที่ดีที่สุดอย่างชัดเจน (ความแรงของการเชื่อมต่อจะตกอยู่ภายใต้การฝึกอบรมซึ่งสามารถส่งเสริมการ sparsity เช่นและ / หรือการเปิดใช้งาน ReLU ... ตัวเลือกเหล่านี้สามารถปรับให้เหมาะสมกับ meta ได้)O[N2]notL1