ความแตกต่างในการใช้การไล่ระดับสีปกติและการไล่ระดับสี


15

ในการตั้งค่าทั่วไปของอัลกอริทึมเชื้อสายลาดเรามีที่x nเป็นจุดปัจจุบันηคือขนาดขั้นตอนและกรัมR d ฉันอีn T x nมีการไล่ระดับสีที่ประเมินx n xn+1=xnηgradientxnxnηgradientxnxn

ฉันได้เห็นในขั้นตอนวิธีการบางคนใช้การไล่ระดับสีปกติแทนการไล่ระดับสี ฉันต้องการที่จะรู้ว่าอะไรคือความแตกต่างในการใช้การไล่ระดับสีปกติและการไล่ระดับสีอย่างง่าย


1
ฉันสามารถถามคำถามได้ไหม ฉันจะคำนวณการไล่ระดับสีปกติได้อย่างไรถ้าฉันได้รับเวกเตอร์ไล่ระดับสีแล้ว? หากเวกเตอร์ไล่ระดับสีเป็นตัวเลขใหญ่ฉันต้องทำไล่ระดับสีให้เป็นมาตรฐาน คุณสามารถยกตัวอย่างที่เป็นธรรมชาติเกี่ยวกับการไล่ระดับสีปกติ ขอบคุณ!

คำตอบ:


12

ηบอกให้เราทราบว่าเราต้องการเคลื่อนที่ไปในทิศทางที่คำนวณได้มากแค่ไหน อย่างไรก็ตามถ้าคุณใช้การไล่ระดับสีที่ผิดปกติจากนั้นไม่ว่า ณ จุดใดระยะทางที่คุณเคลื่อนที่ไปในทิศทางที่ดีที่สุดจะถูกกำหนดด้วยขนาดของการไล่ระดับสี (ในสาระสำคัญที่กำหนดโดยพื้นผิวของฟังก์ชันวัตถุประสงค์ ขนาดสูงในขณะที่จุดบนพื้นผิวที่ค่อนข้างเรียบจะมีขนาดต่ำ)


η
η
3] ถ้าคุณต้องการให้ขนาดของการไล่ระดับสีกำหนดขนาดของขั้นตอนคุณจะใช้การไล่ระดับสีที่ไม่ปกติ มีอีกหลายสายพันธุ์เช่นคุณสามารถให้ขนาดของการไล่ระดับสีเป็นตัวตัดสินขนาดขั้นตอนได้ แต่คุณต้องใส่ที่ครอบลงไปเรื่อย ๆ

ตอนนี้ขนาดขั้นตอนอย่างชัดเจนมีอิทธิพลต่อความเร็วของการบรรจบกันและความมั่นคง ขนาดขั้นตอนข้างต้นใดที่ทำงานได้ดีที่สุดขึ้นอยู่กับแอปพลิเคชันของคุณอย่างแท้จริง (เช่นฟังก์ชันวัตถุประสงค์) ในบางกรณีสามารถวิเคราะห์ความสัมพันธ์ระหว่างความเร็วของคอนเวอร์เจนซ์เสถียรภาพและขนาดขั้นตอนได้ ความสัมพันธ์นี้อาจให้คำใบ้ว่าคุณต้องการไปกับการไล่ระดับสีแบบ Normalized หรือ Normalized Descent หรือไม่

เพื่อสรุปไม่มีความแตกต่างระหว่างการไล่ระดับสีปกติและการไล่ระดับสีผิดปกติ (เท่าที่ทฤษฎีที่อยู่เบื้องหลังอัลกอริทึมไป) อย่างไรก็ตามมันมีผลกระทบในทางปฏิบัติกับความเร็วของการบรรจบกันและความมั่นคง ตัวเลือกของอีกตัวเลือกหนึ่งขึ้นอยู่กับการประยุกต์ใช้ / วัตถุประสงค์ในมือ


คุณสามารถใช้วิธีการระดับกลางที่คุณทำให้เป็นมาตรฐานโดยใช้การไล่ระดับสีแรกเช่น สิ่งนี้จะทำให้ขนาดการไล่ระดับสีสัมพัทธ์สำคัญในแง่ของขนาดขั้นตอน
dashnick


2

f(x)=xTxy(t)=x0/||x0||et. ดังนั้นบรรทัดฐานของการไล่ระดับสีจะลดลงอย่างรวดเร็วแบบทวีคูณเมื่อคุณเข้าใกล้จุดวิกฤติ ในกรณีเช่นนี้มักจะดีกว่าที่จะเด้งกลับไปกลับมาในไม่กี่ครั้งกว่าจะเข้าใกล้มันช้ามาก โดยทั่วไปแล้ววิธีการสั่งซื้อครั้งแรกเป็นที่ทราบกันว่ามีจุดบรรจบกันที่ช้ามากรอบจุดวิกฤติดังนั้นคุณไม่ควรใช้วิธีนี้หากคุณสนใจเรื่องความถูกต้องจริงๆ หากคุณไม่สามารถคำนวณ Hessian ของวัตถุประสงค์การวิเคราะห์ของคุณคุณยังสามารถประมาณได้ (BFGS)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.