การส่งเสริม: เหตุใดอัตราการเรียนรู้จึงเรียกว่าพารามิเตอร์การทำให้เป็นมาตรฐาน


19

อัตราการเรียนรู้พารามิเตอร์ ( ) ในการไล่โทนสีการส่งเสริมการมีส่วนร่วมของ shrinks รุ่นแต่ละฐานใหม่ -typically tree- ตื้นที่จะถูกเพิ่มในซีรีส์ มันแสดงให้เห็นถึงการเพิ่มความแม่นยำของชุดการทดสอบอย่างมากซึ่งเป็นที่เข้าใจได้เช่นเดียวกับขั้นตอนที่เล็กกว่าขั้นต่ำของฟังก์ชั่นการสูญเสียสามารถบรรลุได้อย่างแม่นยำมากขึ้น ν[0,1]

ฉันไม่เข้าใจว่าทำไมอัตราการเรียนรู้จึงถือเป็นพารามิเตอร์ในการทำให้เป็นมาตรฐาน? อ้างถึงองค์ประกอบของการเรียนรู้สถิติส่วนที่ 10.12.1, p.364:

การควบคุมจำนวนต้นไม้ไม่ได้เป็นเพียงกลยุทธ์การทำให้เป็นมาตรฐานเท่านั้น เช่นเดียวกับการถดถอยของสันเขาและโครงข่ายประสาทเทียมสามารถใช้เทคนิคการหดตัวได้เช่นกัน ค่าที่น้อยกว่าของ (หดตัวมากกว่า) ผลความเสี่ยงในการฝึกอบรมที่มีขนาดใหญ่สำหรับหมายเลขเดียวกันซ้ำM ดังนั้นทั้งνและM จึงควบคุมความเสี่ยงในการทำนายข้อมูลการฝึกอบรมνMνM

การทำให้เป็นมาตรฐานหมายถึง "วิธีหลีกเลี่ยงการทำให้อ้วนมากเกินไป" ดังนั้นจึงเป็นที่ชัดเจนว่าจำนวนการวนซ้ำเป็นสิ่งสำคัญในการเคารพนั้น ( Mที่สูงเกินไปที่จะนำไปสู่การล้น) แต่:MM

ค่าที่น้อยกว่าของ (หดตัวมากกว่า) ผลความเสี่ยงในการฝึกอบรมที่มีขนาดใหญ่สำหรับหมายเลขเดียวกันซ้ำMνM

เพียงหมายความว่าด้วยอัตราการเรียนรู้ต่ำจำเป็นต้องมีการทำซ้ำมากขึ้นเพื่อให้ได้ความถูกต้องเหมือนกันในชุดฝึกอบรม แล้วมันเกี่ยวข้องอย่างไรกับการบรรจุมากเกินไป?

คำตอบ:


23

สมมติว่าคุณกำลังพยายามลดฟังก์ชันวัตถุประสงค์ให้น้อยที่สุดผ่านจำนวนการวนซ้ำ และความคุ้มค่าในปัจจุบันคือ100.0ในชุดข้อมูลที่กำหนดไม่มี "ข้อผิดพลาดลดลง" และคุณสามารถลดการสูญเสียให้เหลือ0.0สำหรับข้อมูลการฝึกอบรมของคุณ ตอนนี้คุณมีสองวิธีที่จะทำ100.00.0

  • วิธีแรกคือ "อัตราการเรียนรู้ที่ยิ่งใหญ่" และการทำซ้ำสองสามครั้ง สมมติว่าคุณสามารถลดการสูญเสียจากในแต่ละซ้ำแล้วใน10ซ้ำคุณสามารถลดการสูญเสีย0.010.0100.0

  • วิธีที่สองจะเป็น "อัตราการเรียนรู้ช้า" แต่ทำซ้ำได้มากกว่า สมมติว่าคุณสามารถลดการสูญเสียได้ในแต่ละการทำซ้ำและคุณต้องการ100การทำซ้ำเพื่อให้มีการสูญเสียข้อมูลการฝึกอบรมของคุณ 0.01.0100

ลองคิดดูสิ: สองวิธีนี้เท่ากันหรือไม่? และถ้าไม่ใช่จะดีกว่าในบริบทการปรับให้เหมาะสมและบริบทการเรียนรู้ของเครื่อง ?

ในวรรณคดีการหาค่าเหมาะที่สุดทั้งสองวิธีจะเหมือนกัน ขณะที่พวกเขาทั้งสองมาบรรจบกันเพื่อทางออกที่ดีที่สุด ในทางตรงกันข้ามในการเรียนรู้ของเครื่องพวกเขาจะไม่เท่ากัน เพราะในกรณีส่วนใหญ่เราจะไม่ทำให้การสูญเสียในการฝึกอบรมเป็นซึ่งจะทำให้เกิดความกระชับมากเกินไป0

เราสามารถคิดเกี่ยวกับวิธีแรกเป็น "การค้นหากริดระดับหยาบ" และวิธีที่สองเป็น "การค้นหากริดระดับดี" วิธีที่สองมักจะทำงานได้ดีขึ้น แต่ต้องการพลังการคำนวณที่มากขึ้นสำหรับการทำซ้ำมากขึ้น

เพื่อป้องกันการปรับตัวเกินเราสามารถทำสิ่งต่าง ๆ วิธีแรกจะ จำกัด จำนวนการวนซ้ำสมมติว่าเรากำลังใช้วิธีแรกเรา จำกัด จำนวนการวนซ้ำเป็น 5 ในตอนท้ายการสูญเสียข้อมูลการฝึกอบรมคือ . (BTW นี้จะแปลกมากจากการเพิ่มประสิทธิภาพของมุมมองซึ่งหมายความว่าเราสามารถอนาคตปรับปรุงแก้ปัญหาของเรา / มันไม่ได้ถูกแปรสภาพ แต่เราเลือกที่จะไม่. ในการเพิ่มประสิทธิภาพของเรามักจะชัดเจนเพิ่มข้อ จำกัด หรือข้อตกลงการปรับไหมกับการทำงานวัตถุประสงค์ แต่โดยทั่วไปจะไม่ จำกัด จำนวนการวนซ้ำ)50

บนมืออื่น ๆ ที่เรายังสามารถใช้แนวทางที่สอง: ถ้าเรากำหนดอัตราเรียนรู้ที่จะพูดขนาดเล็กลดการสูญเสียซ้ำกันถึงแม้ว่าเรามีจำนวนมากของการทำซ้ำพูด500ซ้ำเรายังไม่ได้ลดการสูญเสีย0.00.15000.0

นี่คือเหตุผลที่อัตราการเรียนรู้ขนาดเล็กเท่ากับ "การทำให้เป็นระเบียบมากขึ้น"

xgboostนี่คือตัวอย่างของการใช้อัตราการเรียนรู้ที่แตกต่างกันเกี่ยวกับข้อมูลการทดลองใช้ โปรดตรวจสอบการเชื่อมโยงสองลิงก์ต่อไปนี้เพื่อดูว่าอะไรetaหรือn_iterationsหมายถึงอะไร

พารามิเตอร์สำหรับ Tree Booster

XGBoost ควบคุมการบรรจุมากเกินไป

50

ตัวอย่างการเปลี่ยนแปลงอัตราการเรียนรู้ ETA ในรูปแบบ XGBoost

PS หลักฐานของข้อด้อยคือทั้งชุดการฝึกอบรมและการทดสอบมีข้อผิดพลาดขนาดใหญ่และเส้นโค้งข้อผิดพลาดสำหรับการฝึกอบรมและการทดสอบอยู่ใกล้กัน สัญญาณของการสวมใส่กระชับเกินไปคือข้อผิดพลาดของชุดการฝึกอบรมอยู่ในระดับต่ำมากและชุดทดสอบนั้นสูงมากสองเส้นโค้งอยู่ห่างจากกัน


คุณหมายถึงว่าด้วยอัตราการเรียนรู้ที่ต่ำคุณได้รับอนุญาตให้ทำซ้ำได้มากกว่า (ปรับแต่งการค้นหาของคุณมากขึ้น) กว่าด้วยอัตราการเรียนรู้ที่สูงสำหรับการสูญเสียแบบเดียวกัน ฉันคิดว่าฉันได้รับสัญชาตญาณที่คุณพยายามส่งผ่าน แต่คำอธิบายที่เข้มงวดยิ่งขึ้นและ / หรือตัวอย่างที่เป็นตัวอย่างจะไม่เจ็บ
แอนทอน

ขอขอบคุณ. คุณสามารถปรับปรุงลิงค์ของคุณได้ไหม พวกเขาไม่ทำงานสำหรับฉัน
แอนทอน

การใช้อัตราการเรียนรู้ที่มากขึ้นจะดีกว่าเสมอหากคุณไม่เพิ่มข้อผิดพลาดในการฝึกซ้ำในภายหลัง การทำให้เป็นมาตรฐานที่คุณอ้างถึง (อคติกับความแปรปรวน) เกี่ยวข้องกับข้อผิดพลาดในการฝึกอบรม / การตรวจสอบความถูกต้องไม่ใช่อัตราการเรียนรู้ ไม่ว่าคุณจะใช้อัตราการเรียนรู้ขนาดใหญ่หรือขนาดเล็กหากคุณมีข้อผิดพลาดการฝึกอบรมถึง 0.0 ข้อคุณก็มีกำลังมากเกินไป หากคุณใช้อัตราการเรียนรู้ที่สูงขึ้นคุณต้องหยุดการปรับให้เหมาะสมก่อนหน้านี้เพื่อป้องกันการ overfitting คุณสามารถใช้ชุดการตรวจสอบเพื่อดูว่าข้อผิดพลาดการตรวจสอบของคุณเพิ่มขึ้น ณ จุดที่คุณหยุดการฝึกอบรมหรือไม่
อยากรู้อยากเห็น

หรือผมอาจจะมีบางสิ่งบางอย่างที่ขาดหายไป :)
อยากรู้อยากเห็น

This is why small learning rate is sort of equal to "more regularizations". จากบทความนี้ยิ่งอัตราการเรียนรู้มีขนาดใหญ่ขึ้นการทำให้เป็นระเบียบมากขึ้น: การบรรจบกันอย่างมาก: การฝึกอบรมอย่างรวดเร็วของเครือข่ายประสาทโดยใช้อัตราการเรียนรู้ขนาดใหญ่
แอนทอน

2

ด้วยวิธีการของนิวตันคุณสามารถอัปเดตพารามิเตอร์ของคุณโดยการลบความชันของการสูญเสียหารด้วยความโค้งของการสูญเสีย ในการเพิ่มประสิทธิภาพการไล่ระดับสีแบบไล่ระดับคุณอัปเดตพารามิเตอร์โดยการลบการไล่ระดับสีของการสูญเสียคูณด้วยอัตราการเรียนรู้ กล่าวอีกนัยหนึ่งอัตราการเรียนรู้จะถูกใช้แทนอัตราการสูญเสียที่แท้จริง

ลองกำหนดการสูญเสียปัญหาให้เป็นการสูญเสียที่กำหนดแบบจำลองที่ดีกับแบบจำลองที่ไม่ดี มันคือการสูญเสียที่แท้จริง ลองกำหนดการสูญเสียที่ได้รับการปรับปรุงเพื่อให้เป็นสิ่งที่ถูกย่อเล็กสุดโดยกฎการอัปเดตของคุณ

ตามนิยามพารามิเตอร์การทำให้เป็นมาตรฐานคือคำใด ๆ ที่อยู่ในการสูญเสียที่ปรับให้เหมาะสม แต่ไม่ใช่การสูญเสียปัญหา เนื่องจากอัตราการเรียนรู้ทำหน้าที่เป็นคำกำลังสองพิเศษในการสูญเสียที่เพิ่มประสิทธิภาพ แต่ไม่มีอะไรเกี่ยวข้องกับการสูญเสียปัญหาจึงเป็นพารามิเตอร์การทำให้เป็นมาตรฐาน

ตัวอย่างอื่น ๆ ของการทำให้เป็นมาตรฐานที่ปรับมุมมองนี้คือ:

  • การสลายตัวของน้ำหนักซึ่งเปรียบเสมือนเทอมพิเศษในการสูญเสียที่ได้รับการปรับปรุงให้ดีที่สุดซึ่งลงโทษน้ำหนักที่มาก
  • คำศัพท์ที่ลงโทษโมเดลที่ซับซ้อนและ
  • คำศัพท์ที่ลงโทษความสัมพันธ์ระหว่างคุณสมบัติ

- In other words, the reciprocal of the learning rate is used in place of the real loss curvatureฉันไม่ได้รับ - a regularization parameter is any term that is in the optimized loss, but not the problem lossฉันไม่ได้เป็นผู้เชี่ยวชาญโดเมนและมันเป็นครั้งแรกที่ผมเห็นคำนิยาม: ฉันก็ไม่เข้าใจเหมือนกัน คุณช่วยอ้างอิงที่เกี่ยวข้องได้ไหม ขอบคุณล่วงหน้า
แอนทอน

@ ถึงฉันไม่สามารถให้การอ้างอิงได้ มันเป็นเพียงประสบการณ์ของฉันที่ฉันพยายามพิสูจน์โดยใช้อีกสามตัวอย่าง สำหรับอัตราการเรียนรู้ที่อยู่ในตำแหน่งของความโค้งการสูญเสียผกผันคุณจะเห็นว่าถ้าคุณเขียนวิธีการของนิวตันและกฎการไล่ระดับการไล่ระดับสีลงแบบเคียงข้างกัน
Neil G
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.