L-BFGS ทำงานอย่างไร


15

วัตถุประสงค์ของกระดาษคือการปรับพารามิเตอร์บางอย่างโดยการเพิ่มโอกาสในการบันทึกปกติ จากนั้นพวกเขาคำนวณอนุพันธ์ย่อยบางส่วน จากนั้นผู้เขียนบอกว่าพวกเขาปรับสมการให้เหมาะสมโดยใช้ L-BFGS ซึ่งเป็นขั้นตอนมาตรฐานกึ่งนิวตันเพื่อปรับฟังก์ชั่นที่ราบรื่นของตัวแปรจำนวนมาก (ไม่มีรายละเอียดเพิ่มเติม)

มันทำงานยังไง?


3
กระดาษอะไร ใส่ลิงค์ไปยังกระดาษต้องการบริบท ใส่ลิงก์ไปยังตัวย่อเช่นL-BFGSและสะกดพวกมันออกมา: L-BFGS = หน่วยความจำ จำกัด Broyden – Fletcher – Goldfarb – Shanno (BFGS) อัลกอริทึม
Carl

1
en.wikipedia.org/wiki/Limited-memory_BFGSมีหลายรูปแบบซึ่งสามารถแตกต่างกันอย่างมากในความสามารถและประสิทธิภาพ
Mark L. Stone

สวัสดีขอบคุณ mr Mark :) ฉันจะดู บทความนี้คือcs.stanford.edu/people/jure/pubs/circles-tkdd14.pdf (สมการการหาค่าเหมาะที่สุด 6)
Abir

โดยพื้นฐานแล้วคิดว่า L-BFGS เป็นวิธีการหาฟังก์ชั่นวัตถุประสงค์ในระดับต่ำสุด (ในท้องถิ่น) โดยใช้ค่าฟังก์ชันวัตถุประสงค์และการไล่ระดับสีของฟังก์ชันวัตถุประสงค์ คำอธิบายในระดับนั้นครอบคลุมวิธีการปรับให้เหมาะสมมากมายนอกเหนือจาก L-BFGS คุณสามารถอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้ในส่วนของ 7.2 springer.com/us/book/9780387303031
Mark L. Stone

1
BFGS เป็นวิธีที่จะพยายามหาวิธีการสั่งซื้อครั้งแรกเพื่อเลียนแบบวิธีการสั่งซื้อครั้งที่สอง (นิวตัน) ผ่านวิธีการตัดต่อ
795305

คำตอบ:


28

โดยพื้นฐานแล้วคิดว่า L-BFGS เป็นวิธีการหาฟังก์ชั่นวัตถุประสงค์ในระดับต่ำสุด (ในท้องถิ่น) โดยใช้ค่าฟังก์ชันวัตถุประสงค์และการไล่ระดับสีของฟังก์ชันวัตถุประสงค์ คำอธิบายในระดับนั้นครอบคลุมวิธีการปรับให้เหมาะสมมากมายนอกเหนือจาก L-BFGS คุณสามารถอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้ในส่วนของ 7.2 Nocedal และไรท์ "ตัวเลขการเพิ่มประสิทธิภาพการพิมพ์ครั้งที่ 2" http://www.springer.com/us/book/9780387303031 การอภิปรายคร่าวๆมากของ L-BFGS มีให้ที่https://en.wikipedia.org/wiki/Limited-memory_BFGS

วิธีการสั่งซื้อครั้งแรกหมายถึงการไล่ระดับสี (อนุพันธ์อันดับแรก) (และอาจจะใช้ค่าฟังก์ชันวัตถุประสงค์) แต่ไม่ใช่ Hessian (อนุพันธ์อันดับสอง) ตัวอย่างเช่นลองนึกถึงการไล่ระดับสีและการลาดชันที่ลาดชันที่สุดในหมู่คนอื่น ๆ

วิธีการสั่งซื้อลำดับที่สองหมายถึงการไล่ระดับสีและ Hessian ถูกนำมาใช้ (และอาจมีค่าฟังก์ชันตามวัตถุประสงค์) วิธีการสั่งซื้อลำดับที่สองสามารถเป็นไปตาม

  1. "แน่นอน" เมทริกซ์ Hessian (หรือความแตกต่างที่แน่นอนของการไล่ระดับสี) ซึ่งในกรณีนี้พวกเขาเป็นที่รู้จักกันเป็นวิธีการของนิวตันหรือ

  2. วิธีการเสมือนนิวตัน - ซึ่งประมาณ Hessian ขึ้นอยู่กับความแตกต่างของการไล่ระดับสีมากกว่าการทำซ้ำหลายโดยการจัดเก็บภาษี "secant" (Quasi-Newton) มีวิธี Quasi-Newton ที่แตกต่างกันมากมายซึ่งประเมิน Hessian ในรูปแบบที่แตกต่างกัน หนึ่งในความนิยมมากที่สุดคือ BFGS การประมาณของ BFGS Hessian นั้นสามารถขึ้นอยู่กับประวัติความเป็นมาของการไล่ระดับสีอย่างเต็มรูปแบบซึ่งในกรณีนี้มันถูกเรียกว่า BFGS หรืออาจเป็นไปตามการไล่ระดับสี m ล่าสุดเท่านั้นซึ่งในกรณีนี้เป็นที่รู้จักกันในชื่อ ในฐานะ L-BFGS ข้อได้เปรียบของ L-BFGS คือต้องเก็บเฉพาะการไล่ระดับสี m ล่าสุดซึ่ง m มักจะอยู่ที่ประมาณ 10 ถึง 20 ซึ่งเป็นความต้องการหน่วยเก็บข้อมูลที่มีขนาดเล็กกว่าองค์ประกอบ n * (n + 1) / 2 ที่ต้องการเก็บเต็ม (สามเหลี่ยม) ของการประเมินแบบ Hessian ตามที่ต้องการกับ BFGS โดยที่ n คือมิติของปัญหา ต่างจาก (เต็ม) BFGS การประเมินของรัฐนั้นไม่เคยเกิดขึ้นอย่างชัดเจนหรือเก็บไว้ใน L-BFGS (แม้ว่าบางการใช้งานของ BFGS เพียงรูปแบบและการปรับปรุงปัจจัย Choelsky ของรัฐประมาณ Hessian มากกว่าการประเมินของรัฐเอง); ค่อนข้างการคำนวณที่จะต้องใช้กับการประเมินของรัฐจะสำเร็จได้โดยไม่ต้องสร้างมันชัดเจน L-BFGS ใช้แทน BFGS สำหรับปัญหาที่มีขนาดใหญ่มาก (เมื่อ n มีขนาดใหญ่มาก) แต่อาจทำงานได้ไม่ดีเท่ากับ BFGS ดังนั้นจึงเป็นที่ต้องการของ BFGS มากกว่า L-BFGS เมื่อตรงกับความต้องการของหน่วยความจำของ BFGS ในทางกลับกันประสิทธิภาพของ L-BFGS อาจไม่แย่ไปกว่า BFGS การประเมินของ Hessian นั้นไม่เคยเกิดขึ้นอย่างชัดเจนหรือเก็บไว้ใน L-BFGS (แม้ว่าบางการใช้งานของ BFGS เพียงรูปแบบและอัปเดตปัจจัย Choelsky ของ Hessian ประมาณประมาณมากกว่า Hessian ประมาณตัวเอง); ค่อนข้างการคำนวณที่จะต้องใช้กับการประเมินของรัฐจะสำเร็จได้โดยไม่ต้องสร้างมันชัดเจน L-BFGS ใช้แทน BFGS สำหรับปัญหาที่มีขนาดใหญ่มาก (เมื่อ n มีขนาดใหญ่มาก) แต่อาจทำงานได้ไม่ดีเท่ากับ BFGS ดังนั้นจึงเป็นที่ต้องการของ BFGS มากกว่า L-BFGS เมื่อตรงกับความต้องการของหน่วยความจำของ BFGS ในทางกลับกันประสิทธิภาพของ L-BFGS อาจไม่แย่ไปกว่า BFGS การประเมินของ Hessian นั้นไม่เคยเกิดขึ้นอย่างชัดเจนหรือเก็บไว้ใน L-BFGS (แม้ว่าบางการใช้งานของ BFGS เพียงรูปแบบและอัปเดตปัจจัย Choelsky ของ Hessian ประมาณประมาณมากกว่า Hessian ประมาณตัวเอง); ค่อนข้างการคำนวณที่จะต้องใช้กับการประเมินของรัฐจะสำเร็จได้โดยไม่ต้องสร้างมันชัดเจน L-BFGS ใช้แทน BFGS สำหรับปัญหาที่มีขนาดใหญ่มาก (เมื่อ n มีขนาดใหญ่มาก) แต่อาจทำงานได้ไม่ดีเท่ากับ BFGS ดังนั้นจึงเป็นที่ต้องการของ BFGS มากกว่า L-BFGS เมื่อตรงกับความต้องการของหน่วยความจำของ BFGS ในทางกลับกันประสิทธิภาพของ L-BFGS อาจไม่แย่ไปกว่า BFGS การคำนวณที่จะต้องใช้กับการประเมินของรัฐนั้นเสร็จสมบูรณ์โดยไม่ต้องสร้างมันอย่างชัดเจน L-BFGS ใช้แทน BFGS สำหรับปัญหาที่มีขนาดใหญ่มาก (เมื่อ n มีขนาดใหญ่มาก) แต่อาจทำงานได้ไม่ดีเท่ากับ BFGS ดังนั้นจึงเป็นที่ต้องการของ BFGS มากกว่า L-BFGS เมื่อตรงกับความต้องการของหน่วยความจำของ BFGS ในทางกลับกันประสิทธิภาพของ L-BFGS อาจไม่แย่ไปกว่า BFGS การคำนวณที่จะต้องใช้กับการประเมินของรัฐนั้นเสร็จสมบูรณ์โดยไม่ต้องสร้างมันอย่างชัดเจน L-BFGS ใช้แทน BFGS สำหรับปัญหาที่มีขนาดใหญ่มาก (เมื่อ n มีขนาดใหญ่มาก) แต่อาจทำงานได้ไม่ดีเท่ากับ BFGS ดังนั้นจึงเป็นที่ต้องการของ BFGS มากกว่า L-BFGS เมื่อตรงกับความต้องการของหน่วยความจำของ BFGS ในทางกลับกันประสิทธิภาพของ L-BFGS อาจไม่แย่ไปกว่า BFGS

แม้ในระดับคำอธิบายนี้มีหลายสายพันธุ์ ตัวอย่างเช่นวิธีการอาจไม่ได้รับการป้องกันอย่างสมบูรณ์ในกรณีที่มีสิ่งใดเกิดขึ้นและพวกเขาอาจไม่รวมตัวกันเพื่ออะไรแม้แต่ปัญหาที่นูน หรือพวกเขาสามารถป้องกัน วิธีการปกป้องมักจะขึ้นอยู่กับภูมิภาคที่เชื่อถือได้หรือการค้นหาบรรทัดและมีวัตถุประสงค์เพื่อให้แน่ใจว่าการบรรจบกันกับบางสิ่ง สำคัญมากเพียงรู้ว่าวิธีการคือ L-BFGS ไม่ได้บอกตัวคุณเองว่ามีวิธีป้องกันแบบใดถ้ามี มันเหมือนกับบอกว่ารถเป็นซีดาน 4 ประตู แต่แน่นอนว่าไม่ใช่ซีดาน 4 ประตูทุกคันมีประสิทธิภาพหรือความน่าเชื่อถือเหมือนกัน มันเป็นเพียงคุณสมบัติหนึ่งของอัลกอริทึมการเพิ่มประสิทธิภาพ


1
สวัสดีมาร์คฉันต้องการความช่วยเหลือของคุณอีกครั้งคุณช่วยบอกฉันสั้น ๆ ถึงความแตกต่างระหว่างวิธีการนิวตันและ quazi นิวตันได้หรือไม่? ขอบคุณ
Abir

3
วิธีการของนิวตันคำนวณเมทริกซ์ของ Hessian "โดยเริ่มต้น" ในการวนซ้ำของอัลกอริทึมอย่างแน่นอนหรือโดยความแตกต่างอัน จำกัด ของการไล่ระดับสีในการทำซ้ำนั้นวิธี Quasi-Newton สร้างการประมาณของเมทริกซ์ ความแตกต่างของการไล่ระดับสีในการวนซ้ำ มีหลายวิธีในการทำเช่นนี้ซึ่งก่อให้เกิดวิธีการ Quasi-Newton ที่แตกต่างหลากหลายเช่น BFGS, DFP, SR1 และอื่น ๆ โดยทั่วไปแล้ววิธีการของนิวตันจำเป็นต้องใช้การคำนวณจำนวนมากในแต่ละการคำนวณซ้ำเพื่อคำนวณ Hessian การคำนวณต่อการทำซ้ำมากกว่าวิธี Quasi-Newton
Mark L. Stone
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.