โคตรลาดลงมาบรรจบกันเป็นค่าที่เหมาะสมหรือไม่?

21

ฉันสงสัยว่ามีสถานการณ์ใดบ้างที่มีการไล่ระดับสีแบบเกรเดียนต์ไม่รวมกันเป็นอย่างต่ำ

ฉันทราบดีว่าการไล่ระดับสีไม่ได้รับประกันว่าจะมาบรรจบกันในระดับที่เหมาะสมที่สุดในโลก ฉันก็ทราบด้วยว่ามันอาจจะแตกต่างจากที่เหมาะสมถ้าพูดขนาดก้าวใหญ่เกินไป อย่างไรก็ตามดูเหมือนว่าสำหรับฉันถ้ามันเบี่ยงเบนจากค่าที่เหมาะสมบางส่วนมันก็จะไปสู่ค่าที่เหมาะสมที่สุด

ดังนั้นการไล่ระดับสีจะรับประกันได้ว่าจะมาบรรจบกันในระดับท้องถิ่นหรือระดับโลก นั่นถูกต้องใช่ไหม? ถ้าไม่คุณช่วยกรุณาอธิบายตัวอย่างคร่าวๆได้ไหม

— wit221
แหล่งที่มา

1

หวังว่าลิงค์นี้จะช่วยในอนาคต .. datascience.stackexchange.com/a/28417/35644

— Aditya

1

ดูคำตอบนี้สำหรับตัวอย่างที่เป็นรูปธรรมและตัวอย่างง่าย ๆ 3 ข้อรวมถึงบทพิสูจน์รูปภาพและรหัสที่สร้างภาพเคลื่อนไหวของการไล่ระดับสี

— Oren Milman

28

Gradient Descent เป็นอัลกอริทึมที่ออกแบบมาเพื่อค้นหาจุดที่ดีที่สุด แต่จุดที่ดีที่สุดเหล่านี้ไม่จำเป็นต้องเป็นระดับโลก และใช่ถ้ามันเกิดขึ้นที่มันเบี่ยงเบนจากตำแหน่งในพื้นที่มันอาจรวมตัวกันเป็นจุดที่ดีที่สุด แต่ความน่าจะเป็นไม่มากเกินไป เหตุผลก็คือขนาดของขั้นตอนอาจใหญ่เกินไปที่จะแจ้งให้มันถอยห่างจุดที่ดีที่สุดหนึ่งจุดและความน่าจะเป็นที่ออสซิลเลตนั้นมากกว่าการลู่เข้า

เกี่ยวกับการไล่ระดับสีมีสองมุมมองหลักยุคการเรียนรู้ของเครื่องและยุคการเรียนรู้ลึก ในช่วงยุคการเรียนรู้ของเครื่องมันถูกพิจารณาว่าการไล่ระดับสีจะได้พบกับท้องถิ่น / โลกที่ดีที่สุด แต่ในยุคการเรียนรู้ลึกที่มิติของคุณสมบัติการป้อนข้อมูลมากเกินไปก็แสดงให้เห็นในทางปฏิบัติแล้วว่าความน่าจะเป็นที่คุณสมบัติทั้งหมด ที่จุดเดียวนั้นไม่มากเกินไปและค่อนข้างจะเห็นว่ามีตำแหน่งที่ดีที่สุดในฟังก์ชั่นด้านราคา นี่คือหนึ่งในเหตุผลที่การฝึกอบรมที่มีข้อมูลจำนวนมากและยุคการฝึกอบรมทำให้รูปแบบการเรียนรู้ลึกมีประสิทธิภาพสูงกว่าอัลกอริทึมอื่น ๆ ดังนั้นถ้าคุณฝึกแบบจำลองของคุณมันจะพบทางอ้อมหรือหาทางลงเขาและไม่ติดอยู่ในจุดอาน แต่คุณต้องมีขนาดขั้นตอนที่เหมาะสม

สำหรับสัญชาติญาณมากขึ้นผมขอแนะนำให้คุณหมายถึงที่นี่และที่นี่

— สื่อ
แหล่งที่มา

3

เผง ปัญหาเหล่านี้มักปรากฏในทางทฤษฎีเสมอ แต่ไม่ค่อยเกิดขึ้นจริง ด้วยมิติมากมายนี่ไม่ใช่ปัญหา คุณจะมีค่าท้องถิ่นน้อยที่สุดในตัวแปรเดียว แต่ไม่มีตัวแปรอื่น นอกจากนี้มินิแบทช์หรือการไล่ระดับสีแบบสุ่มทำให้แน่ใจได้ว่าจะช่วยหลีกเลี่ยงมินิมาท้องถิ่น

— Ricardo Cruz

3

@RicardoCruz ใช่ฉันเห็นด้วยครับ

— สื่อ

12

นอกเหนือจากจุดที่คุณกล่าวถึง (การบรรจบกันไปสู่ค่าต่ำสุดที่ไม่รวมกันทั่วโลกและขนาดขั้นตอนขนาดใหญ่อาจนำไปสู่อัลกอริธึมที่ไม่แปรเปลี่ยนได้) "ช่วงการผันผัน" อาจเป็นปัญหาเช่นกัน

พิจารณาฟังก์ชั่นประเภท "เก้าอี้ผู้เอนกาย" ต่อไปนี้

เห็นได้ชัดว่าสิ่งนี้สามารถสร้างขึ้นเพื่อให้มีช่วงตรงกลางที่มีการไล่ระดับสีเป็น 0 เวกเตอร์ ในช่วงนี้อัลกอริทึมสามารถติดอยู่เรื่อย ๆ จุดโรคติดเชื้อมักจะไม่ถือว่าเป็น extrema ท้องถิ่น

— Ami Tavory
แหล่งที่มา

4

Conjugate gradient ไม่รับประกันว่าจะถึงจุดสูงสุดทั่วโลกหรือในระดับท้องถิ่น! มีจุดที่การไล่ระดับสีมีขนาดเล็กมากซึ่งไม่ใช่จุดที่เหมาะที่สุด (จุดเบี่ยงเบน, จุดอาน) ไล่โทนสีโคตรอาจบรรจบกับจุดสำหรับฟังก์ชัน 3 $x = 0$ $f(x) = x^3$

— Herbert Knieriem
แหล่งที่มา

3

[หมายเหตุ 5 เมษายน 2019: เอกสารฉบับใหม่ได้รับการอัปเดตใน arXiv พร้อมผลลัพธ์ใหม่มากมาย เราแนะนำเวอร์ชั่นย้อนกลับของโมเมนตัมและ NAG และพิสูจน์การบรรจบกันภายใต้สมมติฐานเดียวกันกับ Backtracking Gradient Descent

รหัสที่มามีอยู่ใน GitHub ที่ลิงค์: https://github.com/hank-nguyen/MBT-optimizer

เราปรับปรุงอัลกอริทึมสำหรับการใช้กับ DNN และรับประสิทธิภาพที่ดีกว่าอัลกอริทึมที่ล้ำสมัยเช่น MMT, NAG, Adam, Adamax, Adagrad, ...

คุณสมบัติพิเศษที่สุดของอัลกอริทึมของเราคือพวกเขาเป็นไปโดยอัตโนมัติคุณไม่จำเป็นต้องทำการปรับอัตราการเรียนรู้ด้วยตนเองเหมือนการปฏิบัติทั่วไป การปรับจูนอัตโนมัติของเรานั้นแตกต่างจากในธรรมชาติจาก Adam, Adamax, Adagrad, ... และอื่น ๆ รายละเอียดเพิ่มเติมอยู่ในกระดาษ

]

ขึ้นอยู่กับผลล่าสุด: ในการทำงานร่วมกันของฉันในบทความนี้https://arxiv.org/abs/1808.05160

เราแสดงให้เห็นว่าการไล่ระดับสีย้อนรอยย้อนกลับเมื่อนำไปใช้กับฟังก์ชัน C ^ 1 ตามอำเภอใจ ซึ่งมีจำนวนจุดวิกฤตินับได้เท่านั้นจะรวมเข้าด้วยกันเป็นจุดวิกฤติ เงื่อนไขนี้เป็นที่พอใจสำหรับฟังก์ชั่นทั่วไปเช่นสำหรับฟังก์ชั่นมอร์สทั้งหมด นอกจากนี้เรายังแสดงให้เห็นว่าในแง่หนึ่งมันเป็นเรื่องยากมากสำหรับจุด จำกัด ที่จะเป็นจุดอาน ดังนั้นหากจุดวิกฤตทั้งหมดของคุณไม่เสื่อมถอยดังนั้นในแง่หนึ่งคะแนน จำกัด นั้นต่ำสุดทั้งหมด [โปรดดูเอกสารอ้างอิงในเอกสารอ้างอิงสำหรับผลลัพธ์ที่ทราบในกรณีของการไล่ระดับสีมาตรฐาน] $f$

จากที่กล่าวมาข้างต้นเราเสนอวิธีการใหม่ในการเรียนรู้อย่างลึกล้ำซึ่งเป็นวิธีการที่ล้ำสมัยและไม่จำเป็นต้องปรับอัตราการเรียนรู้ด้วยตนเอง (โดยสรุปความคิดก็คือคุณใช้การไล่ระดับสีไล่ระดับย้อนรอยตามระยะเวลาจนกว่าคุณจะเห็นว่าอัตราการเรียนรู้ซึ่งเปลี่ยนไปตามการทำซ้ำแต่ละครั้งจะมีเสถียรภาพเราคาดหวังว่าการรักษาเสถียรภาพนี้โดยเฉพาะในจุดวิกฤติที่ C ^ 2 และไม่เสื่อมถอยเนื่องจากผลลัพธ์การบรรจบกันที่ฉันกล่าวถึงข้างต้น ณ จุดนั้นคุณเปลี่ยนไปใช้วิธีการไล่ระดับสีแบบไล่ระดับมาตรฐานโปรดดูกระดาษที่อ้างถึงเพื่อดูรายละเอียดเพิ่มเติมวิธีนี้ยังสามารถนำไปใช้กับอัลกอริทึมที่เหมาะสมอื่น ๆ .)

ป.ล. เกี่ยวกับคำถามดั้งเดิมของคุณเกี่ยวกับวิธีการไล่ระดับสีมาตรฐานเพื่อความรู้ของฉันเฉพาะในกรณีที่อนุพันธ์ของแผนที่เป็น Lipschitz ทั่วโลกและอัตราการเรียนรู้มีขนาดเล็กพอที่วิธีการไล่ระดับสีไล่ระดับมาตรฐานได้รับการพิสูจน์ว่ามาบรรจบกัน [หากเงื่อนไขเหล่านี้ไม่เป็นที่พอใจมีตัวอย่างเคาน์เตอร์ธรรมดาที่แสดงว่าไม่มีผลลัพธ์การบรรจบกันเป็นไปได้ดูกระดาษที่อ้างถึงสำหรับบางคน] ในกระดาษที่อ้างถึงข้างต้นเราแย้งว่าในระยะยาววิธีการไล่ระดับสีย้อนรอยจะกลายเป็น วิธีการไล่ระดับสีแบบมาตรฐานซึ่งให้คำอธิบายว่าทำไมวิธีการไล่ระดับสีแบบไล่ระดับมาตรฐานมักใช้งานได้ดีในทางปฏิบัติ

— Tuyen
แหล่งที่มา