การส่งเสริม: เหตุใดอัตราการเรียนรู้จึงเรียกว่าพารามิเตอร์การทำให้เป็นมาตรฐาน

อัตราการเรียนรู้พารามิเตอร์ ( ) ในการไล่โทนสีการส่งเสริมการมีส่วนร่วมของ shrinks รุ่นแต่ละฐานใหม่ -typically tree- ตื้นที่จะถูกเพิ่มในซีรีส์ มันแสดงให้เห็นถึงการเพิ่มความแม่นยำของชุดการทดสอบอย่างมากซึ่งเป็นที่เข้าใจได้เช่นเดียวกับขั้นตอนที่เล็กกว่าขั้นต่ำของฟังก์ชั่นการสูญเสียสามารถบรรลุได้อย่างแม่นยำมากขึ้น $\nu \in [0,1]$

ฉันไม่เข้าใจว่าทำไมอัตราการเรียนรู้จึงถือเป็นพารามิเตอร์ในการทำให้เป็นมาตรฐาน? อ้างถึงองค์ประกอบของการเรียนรู้สถิติส่วนที่ 10.12.1, p.364:

การควบคุมจำนวนต้นไม้ไม่ได้เป็นเพียงกลยุทธ์การทำให้เป็นมาตรฐานเท่านั้น เช่นเดียวกับการถดถอยของสันเขาและโครงข่ายประสาทเทียมสามารถใช้เทคนิคการหดตัวได้เช่นกัน ค่าที่น้อยกว่าของ (หดตัวมากกว่า) ผลความเสี่ยงในการฝึกอบรมที่มีขนาดใหญ่สำหรับหมายเลขเดียวกันซ้ำMดังนั้นทั้งและควบคุมความเสี่ยงในการทำนายข้อมูลการฝึกอบรม $\nu$ $M$ $\nu$ $M$

การทำให้เป็นมาตรฐานหมายถึง "วิธีหลีกเลี่ยงการทำให้อ้วนมากเกินไป" ดังนั้นจึงเป็นที่ชัดเจนว่าจำนวนการวนซ้ำเป็นสิ่งสำคัญในการเคารพนั้น ( ที่สูงเกินไปที่จะนำไปสู่การล้น) แต่: $M$ $M$

ค่าที่น้อยกว่าของ (หดตัวมากกว่า) ผลความเสี่ยงในการฝึกอบรมที่มีขนาดใหญ่สำหรับหมายเลขเดียวกันซ้ำM $\nu$ $M$

เพียงหมายความว่าด้วยอัตราการเรียนรู้ต่ำจำเป็นต้องมีการทำซ้ำมากขึ้นเพื่อให้ได้ความถูกต้องเหมือนกันในชุดฝึกอบรม แล้วมันเกี่ยวข้องอย่างไรกับการบรรจุมากเกินไป?

— romuald_84
แหล่งที่มา

คำตอบ:

สมมติว่าคุณกำลังพยายามลดฟังก์ชันวัตถุประสงค์ให้น้อยที่สุดผ่านจำนวนการวนซ้ำ และความคุ้มค่าในปัจจุบันคือ100.0ในชุดข้อมูลที่กำหนดไม่มี "ข้อผิดพลาดลดลง" และคุณสามารถลดการสูญเสียให้เหลือสำหรับข้อมูลการฝึกอบรมของคุณ ตอนนี้คุณมีสองวิธีที่จะทำ $100.0$ $0.0$

วิธีแรกคือ "อัตราการเรียนรู้ที่ยิ่งใหญ่" และการทำซ้ำสองสามครั้ง สมมติว่าคุณสามารถลดการสูญเสียจากในแต่ละซ้ำแล้วในซ้ำคุณสามารถลดการสูญเสีย0.0 $10.0$ $10$ $0.0$
วิธีที่สองจะเป็น "อัตราการเรียนรู้ช้า" แต่ทำซ้ำได้มากกว่า สมมติว่าคุณสามารถลดการสูญเสียได้ในแต่ละการทำซ้ำและคุณต้องการการทำซ้ำเพื่อให้มีการสูญเสียข้อมูลการฝึกอบรมของคุณ 0.0 $1.0$ $100$

ลองคิดดูสิ: สองวิธีนี้เท่ากันหรือไม่? และถ้าไม่ใช่จะดีกว่าในบริบทการปรับให้เหมาะสมและบริบทการเรียนรู้ของเครื่อง ?

ในวรรณคดีการหาค่าเหมาะที่สุดทั้งสองวิธีจะเหมือนกัน ขณะที่พวกเขาทั้งสองมาบรรจบกันเพื่อทางออกที่ดีที่สุด ในทางตรงกันข้ามในการเรียนรู้ของเครื่องพวกเขาจะไม่เท่ากัน เพราะในกรณีส่วนใหญ่เราจะไม่ทำให้การสูญเสียในการฝึกอบรมเป็นซึ่งจะทำให้เกิดความกระชับมากเกินไป $0$

เราสามารถคิดเกี่ยวกับวิธีแรกเป็น "การค้นหากริดระดับหยาบ" และวิธีที่สองเป็น "การค้นหากริดระดับดี" วิธีที่สองมักจะทำงานได้ดีขึ้น แต่ต้องการพลังการคำนวณที่มากขึ้นสำหรับการทำซ้ำมากขึ้น

เพื่อป้องกันการปรับตัวเกินเราสามารถทำสิ่งต่าง ๆ วิธีแรกจะ จำกัด จำนวนการวนซ้ำสมมติว่าเรากำลังใช้วิธีแรกเรา จำกัด จำนวนการวนซ้ำเป็น 5 ในตอนท้ายการสูญเสียข้อมูลการฝึกอบรมคือ . (BTW นี้จะแปลกมากจากการเพิ่มประสิทธิภาพของมุมมองซึ่งหมายความว่าเราสามารถอนาคตปรับปรุงแก้ปัญหาของเรา / มันไม่ได้ถูกแปรสภาพ แต่เราเลือกที่จะไม่. ในการเพิ่มประสิทธิภาพของเรามักจะชัดเจนเพิ่มข้อ จำกัด หรือข้อตกลงการปรับไหมกับการทำงานวัตถุประสงค์ แต่โดยทั่วไปจะไม่ จำกัด จำนวนการวนซ้ำ) $50$

บนมืออื่น ๆ ที่เรายังสามารถใช้แนวทางที่สอง: ถ้าเรากำหนดอัตราเรียนรู้ที่จะพูดขนาดเล็กลดการสูญเสียซ้ำกันถึงแม้ว่าเรามีจำนวนมากของการทำซ้ำพูดซ้ำเรายังไม่ได้ลดการสูญเสีย0.0 $0.1$ $500$ $0.0$

นี่คือเหตุผลที่อัตราการเรียนรู้ขนาดเล็กเท่ากับ "การทำให้เป็นระเบียบมากขึ้น"

xgboostนี่คือตัวอย่างของการใช้อัตราการเรียนรู้ที่แตกต่างกันเกี่ยวกับข้อมูลการทดลองใช้ โปรดตรวจสอบการเชื่อมโยงสองลิงก์ต่อไปนี้เพื่อดูว่าอะไรetaหรือn_iterationsหมายถึงอะไร

พารามิเตอร์สำหรับ Tree Booster

XGBoost ควบคุมการบรรจุมากเกินไป

$50$

PS หลักฐานของข้อด้อยคือทั้งชุดการฝึกอบรมและการทดสอบมีข้อผิดพลาดขนาดใหญ่และเส้นโค้งข้อผิดพลาดสำหรับการฝึกอบรมและการทดสอบอยู่ใกล้กัน สัญญาณของการสวมใส่กระชับเกินไปคือข้อผิดพลาดของชุดการฝึกอบรมอยู่ในระดับต่ำมากและชุดทดสอบนั้นสูงมากสองเส้นโค้งอยู่ห่างจากกัน

— ไห่เทาดู
แหล่งที่มา

คุณหมายถึงว่าด้วยอัตราการเรียนรู้ที่ต่ำคุณได้รับอนุญาตให้ทำซ้ำได้มากกว่า (ปรับแต่งการค้นหาของคุณมากขึ้น) กว่าด้วยอัตราการเรียนรู้ที่สูงสำหรับการสูญเสียแบบเดียวกัน ฉันคิดว่าฉันได้รับสัญชาตญาณที่คุณพยายามส่งผ่าน แต่คำอธิบายที่เข้มงวดยิ่งขึ้นและ / หรือตัวอย่างที่เป็นตัวอย่างจะไม่เจ็บ

— แอนทอน

ขอขอบคุณ. คุณสามารถปรับปรุงลิงค์ของคุณได้ไหม พวกเขาไม่ทำงานสำหรับฉัน

— แอนทอน

การใช้อัตราการเรียนรู้ที่มากขึ้นจะดีกว่าเสมอหากคุณไม่เพิ่มข้อผิดพลาดในการฝึกซ้ำในภายหลัง การทำให้เป็นมาตรฐานที่คุณอ้างถึง (อคติกับความแปรปรวน) เกี่ยวข้องกับข้อผิดพลาดในการฝึกอบรม / การตรวจสอบความถูกต้องไม่ใช่อัตราการเรียนรู้ ไม่ว่าคุณจะใช้อัตราการเรียนรู้ขนาดใหญ่หรือขนาดเล็กหากคุณมีข้อผิดพลาดการฝึกอบรมถึง 0.0 ข้อคุณก็มีกำลังมากเกินไป หากคุณใช้อัตราการเรียนรู้ที่สูงขึ้นคุณต้องหยุดการปรับให้เหมาะสมก่อนหน้านี้เพื่อป้องกันการ overfitting คุณสามารถใช้ชุดการตรวจสอบเพื่อดูว่าข้อผิดพลาดการตรวจสอบของคุณเพิ่มขึ้น ณ จุดที่คุณหยุดการฝึกอบรมหรือไม่

— อยากรู้อยากเห็น

หรือผมอาจจะมีบางสิ่งบางอย่างที่ขาดหายไป :)

— อยากรู้อยากเห็น

This is why small learning rate is sort of equal to "more regularizations". จากบทความนี้ยิ่งอัตราการเรียนรู้มีขนาดใหญ่ขึ้นการทำให้เป็นระเบียบมากขึ้น: การบรรจบกันอย่างมาก: การฝึกอบรมอย่างรวดเร็วของเครือข่ายประสาทโดยใช้อัตราการเรียนรู้ขนาดใหญ่

— แอนทอน

ด้วยวิธีการของนิวตันคุณสามารถอัปเดตพารามิเตอร์ของคุณโดยการลบความชันของการสูญเสียหารด้วยความโค้งของการสูญเสีย ในการเพิ่มประสิทธิภาพการไล่ระดับสีแบบไล่ระดับคุณอัปเดตพารามิเตอร์โดยการลบการไล่ระดับสีของการสูญเสียคูณด้วยอัตราการเรียนรู้ กล่าวอีกนัยหนึ่งอัตราการเรียนรู้จะถูกใช้แทนอัตราการสูญเสียที่แท้จริง

ลองกำหนดการสูญเสียปัญหาให้เป็นการสูญเสียที่กำหนดแบบจำลองที่ดีกับแบบจำลองที่ไม่ดี มันคือการสูญเสียที่แท้จริง ลองกำหนดการสูญเสียที่ได้รับการปรับปรุงเพื่อให้เป็นสิ่งที่ถูกย่อเล็กสุดโดยกฎการอัปเดตของคุณ

ตามนิยามพารามิเตอร์การทำให้เป็นมาตรฐานคือคำใด ๆ ที่อยู่ในการสูญเสียที่ปรับให้เหมาะสม แต่ไม่ใช่การสูญเสียปัญหา เนื่องจากอัตราการเรียนรู้ทำหน้าที่เป็นคำกำลังสองพิเศษในการสูญเสียที่เพิ่มประสิทธิภาพ แต่ไม่มีอะไรเกี่ยวข้องกับการสูญเสียปัญหาจึงเป็นพารามิเตอร์การทำให้เป็นมาตรฐาน

ตัวอย่างอื่น ๆ ของการทำให้เป็นมาตรฐานที่ปรับมุมมองนี้คือ:

การสลายตัวของน้ำหนักซึ่งเปรียบเสมือนเทอมพิเศษในการสูญเสียที่ได้รับการปรับปรุงให้ดีที่สุดซึ่งลงโทษน้ำหนักที่มาก
คำศัพท์ที่ลงโทษโมเดลที่ซับซ้อนและ
คำศัพท์ที่ลงโทษความสัมพันธ์ระหว่างคุณสมบัติ

— นีลจี
แหล่งที่มา

- In other words, the reciprocal of the learning rate is used in place of the real loss curvatureฉันไม่ได้รับ - a regularization parameter is any term that is in the optimized loss, but not the problem lossฉันไม่ได้เป็นผู้เชี่ยวชาญโดเมนและมันเป็นครั้งแรกที่ผมเห็นคำนิยาม: ฉันก็ไม่เข้าใจเหมือนกัน คุณช่วยอ้างอิงที่เกี่ยวข้องได้ไหม ขอบคุณล่วงหน้า

— แอนทอน

@ ถึงฉันไม่สามารถให้การอ้างอิงได้ มันเป็นเพียงประสบการณ์ของฉันที่ฉันพยายามพิสูจน์โดยใช้อีกสามตัวอย่าง สำหรับอัตราการเรียนรู้ที่อยู่ในตำแหน่งของความโค้งการสูญเสียผกผันคุณจะเห็นว่าถ้าคุณเขียนวิธีการของนิวตันและกฎการไล่ระดับการไล่ระดับสีลงแบบเคียงข้างกัน

— Neil G