อะไรคือสาเหตุที่เครื่องมือเพิ่มประสิทธิภาพของ Adam ได้รับการพิจารณาว่ามีความแข็งแกร่งต่อมูลค่าของพารามิเตอร์ที่มากเกินไป

ฉันกำลังอ่านเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพของอดัมสำหรับการเรียนรู้ลึกและได้พบประโยคต่อไปนี้ในหนังสือเรียนใหม่เรื่องการเรียนรู้ลึกโดย Bengio, Goodfellow และ Courville:

โดยทั่วไปอาดัมได้รับการยกย่องว่าค่อนข้างแข็งแกร่งต่อการเลือกพารามิเตอร์มากเกินไปแม้ว่าบางครั้งอัตราการเรียนรู้จะต้องเปลี่ยนจากค่าเริ่มต้นที่แนะนำ

ถ้านี่เป็นเรื่องจริงมันเป็นเรื่องใหญ่เพราะการค้นหาพารามิเตอร์แบบไฮเปอร์สามารถมีความสำคัญจริงๆ (ในประสบการณ์ของฉันอย่างน้อย) ในประสิทธิภาพทางสถิติของระบบการเรียนรู้ลึก ดังนั้นคำถามของฉันคือทำไม Adam Robust ถึงพารามิเตอร์ที่สำคัญเช่นนั้น? พิเศษและหรือไม่ $\beta_1$ $\beta_2$

ฉันอ่านกระดาษของอดัมแล้วและมันก็ไม่ได้ให้คำอธิบายใด ๆ ว่าทำไมมันถึงใช้ได้กับพารามิเตอร์เหล่านั้นหรือทำไมมันถึงมีประสิทธิภาพ พวกเขาแสดงให้เห็นถึงเหตุผลอื่นหรือไม่?

นอกจากนี้เมื่อฉันอ่านกระดาษดูเหมือนว่าจำนวนของพารามิเตอร์ไฮเปอร์ที่พวกเขาพยายามทำที่เล็กมากสำหรับเพียง 2 และสำหรับเท่านั้น 3. นี่เป็นการศึกษาเชิงประจักษ์ได้อย่างไรถ้ามันทำงานกับ 2x3 พารามิเตอร์มากเกินไป ? $\beta_1$ $\beta_2$

— ชาร์ลีปาร์คเกอร์
แหล่งที่มา

ส่งอีเมลไปยังผู้แต่งหนังสือที่อ้างสิทธิ์ ถามพวกเขาเกี่ยวกับข้อเรียกร้องที่มีพื้นฐานมาจาก

— Mark L. Stone

@ MarkL. หินเขาบอกว่าเขาพูดเพราะนามธรรมพูด แทบไม่น่าเชื่อเลย บางทีครั้งต่อไปฉันจะส่งอีเมลถึงผู้เขียนบทความจริง

— Charlie Parker

ดังนั้นการส่งเสริมตนเองจึงกลายเป็นความจริง

— Mark L. Stone

@ MarkL. หินในการป้องกันของเขาเขาอาจจะไม่ว่างที่จะตอบอย่างถูกต้องและฉันเพียงแค่ติดต่อ 1 ใน 3 ผู้เขียน บางทีฉันสามารถติดต่อผู้อื่นได้ แต่ฉันไม่แน่ใจว่าพวกเขาจะได้รับคำตอบหรือไม่ (อย่างน้อย) หนึ่งคือศาสตราจารย์ ด้วยโฆษณาใน DL ฉันคิดว่าเขาได้รับ 300 อีเมลทุกวัน

— Charlie Parker

ตอนนี้หนังสือเล่มนี้หมดแล้วผู้เขียนอดัมก็ยืนยันว่าอัลกอริทึมของพวกเขานั้นยอดเยี่ยมแค่ไหน เตือนฉันถึงการเกิดแผ่นดินไหวบริเวณอ่าว '89 สถานีวิทยุข่าวรายงานว่ามีผู้เสียชีวิตจำนวน # คนจากการล่มสลายของทางหลวง - ยืนยันว่าพวกเขาต้องการการยืนยันจากสำนักงานผู้ว่าการ จากนั้นพวกเขาได้ผู้ว่าราชการทางโทรศัพท์และถามว่าเขาสามารถยืนยันจำนวนผู้เสียชีวิตได้หรือไม่ เขาพูดว่านั่นคือสิ่งที่เขาได้ยิน สถานีวิทยุรายงานว่าตอนนี้พวกเขาได้รับการยืนยันจากผู้ว่าราชการจังหวัดแล้ว ปรากฎว่าผู้ว่าราชการหมายความว่าเขาได้ยินมันตามที่ปรากฏในสถานีวิทยุที่ ดังนั้นการยืนยันแบบวงกลม

— Mark L. Stone

คำตอบ:

ในเรื่องที่เกี่ยวกับหลักฐานในเรื่องที่เกี่ยวกับการเรียกร้องผมเชื่อว่าเพียงหลักฐานที่สนับสนุนข้อเรียกร้องที่สามารถพบได้ในรูปที่ 4 ในกระดาษของพวกเขา พวกเขาแสดงผลสุดท้ายภายใต้ช่วงของค่าที่แตกต่างกันสำหรับ ,และ\ $\beta_1$ $\beta_2$ $\alpha$

โดยส่วนตัวฉันไม่พบข้อโต้แย้งของพวกเขาโดยเฉพาะอย่างยิ่งเพราะพวกเขาไม่ได้แสดงผลลัพธ์ในปัญหาที่หลากหลาย กับที่กล่าวว่าผมจะทราบว่าผมมี ADAM สินค้าสำหรับความหลากหลายของปัญหาและการค้นพบส่วนบุคคลของฉันคือการที่ค่าเริ่มต้นของและทำดูเหมือนน่าเชื่อถือน่าแปลกใจที่แม้จะมีการจัดการที่ดีของการเล่นซอกับเป็นสิ่งจำเป็น $\beta_1$ $\beta_2$ $\alpha$

— Cliff AB
แหล่งที่มา

$\beta_1$ $\beta_2$

นี่คือความแตกต่างอย่างมากกับ Vanilla Stochastic Gradient Descent ที่:

อัตราการเรียนรู้ไม่ได้ต่อพารามิเตอร์ แต่มีอัตราการเรียนรู้ทั่วโลกเดียวที่นำมาใช้อย่างตรงข้ามกับพารามิเตอร์ทั้งหมด
- (โดยวิธีนี้เป็นเหตุผลหนึ่งว่าทำไมข้อมูลมักจะถูกทำให้เป็นสีขาวถูกทำให้เป็นมาตรฐานก่อนที่จะถูกส่งไปยังอวนเพื่อพยายามรักษาน้ำหนักต่อพารามิเตอร์ในอุดมคติที่คล้ายกัน - ish)
อัตราการเรียนรู้ที่ให้ไว้คืออัตราการเรียนรู้ที่แน่นอนที่ใช้และจะไม่ปรับตัวตลอดเวลา

อดัมไม่ได้เป็นเครื่องมือเพิ่มประสิทธิภาพเพียงอย่างเดียวที่มีอัตราการเรียนรู้ที่ปรับได้ ในขณะที่กระดาษอดัมระบุตัวเองมันเกี่ยวข้องอย่างมากกับ Adagrad และ Rmsprop ซึ่งมีความรู้สึกไวต่อพารามิเตอร์แบบหลายมิติ โดยเฉพาะอย่างยิ่ง Rmsprop ทำงานค่อนข้างดี

แต่โดยทั่วไปแล้วอาดามนั้นดีที่สุด ด้วยข้อยกเว้นน้อยมากอดัมจะทำสิ่งที่คุณต้องการ :)

มีบางกรณีทางพยาธิวิทยาที่ค่อนข้างเป็นธรรมที่อาดัมจะไม่ทำงานโดยเฉพาะอย่างยิ่งสำหรับการแจกแจงที่ไม่หยุดนิ่ง ในกรณีเหล่านี้ Rmsprop เป็นตัวเลือกสแตนด์บายที่ยอดเยี่ยม แต่โดยทั่วไปแล้วการพูดสำหรับกรณีที่ไม่ใช่พยาธิวิทยาส่วนใหญ่อดัมทำงานได้ดีมาก

— Hugh Perkins
แหล่งที่มา

β_{1}, β_{2}

$\beta_1,\beta_2$

ใช่ถ้าคุณหมายถึง 'มีโอกาสที่จะค้นคว้าลึกลงไปว่าทำไม?' อาจจะ ...

— Hugh Perkins

นี่ไม่ใช่ "คำถามที่ลึกกว่า" นี่เป็นหนึ่งในประเด็นที่สำคัญที่สุดของกระดาษใช่ไหม? ประเด็นทั้งหมดก็คือมันทำสิ่งต่างๆด้วยตัวของมันเอง แต่ก็มีไฮเปอร์พารามิเตอร์อื่น ๆ ที่ดูเหมือนจะแข็งแกร่งอย่างน่าอัศจรรย์ นั่นคือปัญหาที่ฉันมี ดูเหมือนว่าฉันจะเกี่ยวข้องกับแกนกลางของกระดาษเว้นแต่ว่าฉันเข้าใจผิดจุดของอดัม

— Charlie Parker

“ มีบางกรณีที่มีพยาธิสภาพที่ค่อนข้างเป็นธรรมที่อาดัมจะไม่ทำงานโดยเฉพาะอย่างยิ่งสำหรับการแจกแจงที่ไม่หยุดนิ่ง <- การอ้างอิงใด ๆ ที่นี่?

— mimoralea

มองไปที่สูตรของ ADAM ดูเหมือนว่าจะทำให้สับสนเล็กน้อยหลังจากที่มีการวนซ้ำของแบตช์ (พูด ~ 400k) ขนาดของข้อผิดพลาดดั้งเดิมที่มีพื้นฐานมาจากการไล่ระดับสีตัวเองเล่นไม่มีความจริงในขั้นตอนที่ทำ พารามิเตอร์การกำหนดค่าอัตราการเรียนรู้ในเครื่องหมายที่เกี่ยวข้อง
บางที ADAM อาจควบคุมการปรับน้ำหนักได้ง่ายกว่า SGD ในช่วงการทำซ้ำ / epocs ครั้งแรก แต่การปรับปรุงต่อไปดูเหมือนว่าจะลดลงไปเป็นสิ่งที่ไร้เดียงสา (?) ทุกคนสามารถให้สัญชาตญาณว่าทำไมจึงเป็นที่ต้องการและ / หรือทำงานได้ดี

— แดนนี่โรเซ็น
แหล่งที่มา

ที่จริงแล้วดูเหมือนว่าข้อผิดพลาดในการไล่ระดับสีที่ผิดพลาดนั้นไม่ได้มีบทบาทที่แท้จริงแม้แต่ในช่วงเริ่มต้น คำถามคือทำไมการฟื้นฟูแบบปกติจึงทำงานได้ดีและอะไรที่บ่งบอกถึงสัญชาตญาณของ GD ที่แนะนำ DL และโมเดลการเรียนรู้ทั่วไปอื่น ๆ

— Danny Rosen