ทำไมเราไม่ใช้อัตราการเรียนรู้ที่ไม่คงที่เพื่อไล่ระดับสีที่เหมาะสมสำหรับสิ่งอื่น ๆ จากนั้นจึงใช้โครงข่ายประสาทเทียม


14

วรรณกรรมการเรียนรู้ลึกนั้นเต็มไปด้วยเทคนิคที่ชาญฉลาดโดยใช้อัตราการเรียนรู้ที่ไม่คงที่ในการไล่ระดับสี สิ่งต่าง ๆ เช่นการสลายตัวแบบเอ็กซ์โพเนนเชียล, RMSprop, Adagrad ฯลฯ นั้นง่ายต่อการติดตั้งและมีอยู่ในชุดการเรียนรู้ลึก ๆ มีเหตุผลสำหรับสิ่งนี้หรือไม่? ถ้าเป็นที่คนไม่สนใจมีเหตุผลทำไมเราไม่ต้องดูแลนอกเครือข่ายประสาท?


2
ฉันคิดว่าวิธีการค้นหาบรรทัดหรือภูมิภาคที่เชื่อถือได้นั้นเป็นอัตราการเรียนรู้แบบ "ไม่คงที่"
Haitao Du

2
มีวิธีการไล่ระดับสีที่ไม่คงที่มากมายที่พัฒนาขึ้นโดยอิสระจาก NNs Barzilai-Borwein GD และ Nesterov GD เป็นสองตัวอย่างที่เด่นชัด
Sycorax พูดว่า Reinstate Monica

@Sycorax แต่พวกเขาใช้จริงทุกวันนอก NNs?
ทิม

2
@ ฉันไม่สามารถพูดได้ เมื่อฉันต้องการทำการค้นหาในพื้นที่นอก NNs ฉันมีวิธีใช้อันดับสองที่หรูหรา แต่ฉันรู้สึกตื่นเต้นที่ได้เรียนรู้วิธีการ GD ที่เร็วขึ้นสำหรับโอกาสที่ฉันอาจมีเคล็ดลับน่ารักในกระเป๋าหลังของฉัน
Sycorax พูดว่า Reinstate Monica

1
เป็นที่น่าสังเกตว่า (ฉันประหลาดใจ) ฉันได้เจอกรณีที่ GBM ไม่ได้ใช้อัตราการเรียนรู้คงที่ค่อนข้างแปลกใจของผู้คน ตัวอย่างที่เฉพาะเจาะจงคือการนำ DART มาใช้บน LightGBM ในขณะที่เอกสารต้นฉบับไม่ได้ใช้ LR ที่เล็กลง แต่การใช้งานจริงจะเริ่มต้นตามค่าเริ่มต้น
usεr11852พูดว่า Reinstate Monic

คำตอบ:


16

คำเตือน: ฉันไม่ได้มีประสบการณ์มากกับการเพิ่มประสิทธิภาพนอกเครือข่ายประสาทดังนั้นคำตอบของฉันจะลำเอียงชัดเจน แต่มีหลายสิ่งที่มีบทบาท:

  • (ลึก) เครือข่ายประสาทมีมากของพารามิเตอร์ สิ่งนี้มีความหมายหลายประการ:

    ประการแรกมันเป็นกฎชนิดของวิธีการสั่งซื้อที่สูงขึ้นเพียงเพราะการคำนวณ Hessian และอนุพันธ์ที่สูงขึ้นกลายเป็นไปไม่ได้ ในโดเมนอื่น ๆ นี่อาจเป็นวิธีที่ถูกต้องดีกว่าการปรับแต่งใด ๆ ถึง SGD

    ประการที่สองแม้ว่าSGD จะยอดเยี่ยมแต่ก็มีแนวโน้มชะลอตัว เหล่านี้ SGD ที่ดีขึ้นส่วนใหญ่เป็นสายพันธุ์เปิดใช้งานได้เร็วขึ้นการฝึกอบรมในขณะที่อาจสูญเสียบางส่วนของคุณสมบัติที่ดีของสิงคโปร์ ในโดเมนอื่น ๆ เวลาการฝึกอบรมของ SGD อาจไม่ใช่คอขวดดังนั้นการปรับปรุงที่ได้รับจากการเร่งความเร็วอาจไม่สำคัญ

  • เครือข่ายนิวรัลการฝึกอบรม (เชิงลึก) เป็นการเพิ่มประสิทธิภาพแบบไม่นูนและฉันไม่ได้ตระหนักถึงผลการผ่อนคลายที่สำคัญในพื้นที่ ซึ่งแตกต่างจากสาขาอื่น ๆ เครือข่ายประสาทไม่ได้มุ่งเน้นไปที่การแก้ปัญหาที่ดีที่สุดทั่วโลกซึ่งนำไปสู่การลงทุนความพยายามมากขึ้นในการปรับปรุงคุณสมบัติของพื้นผิวการสูญเสียและการสำรวจเส้นทางในระหว่างการเพิ่มประสิทธิภาพ

    ในสาขาอื่น ๆ การใช้การผ่อนนูนและการหาคำตอบที่ดีที่สุดทั่วโลกอาจอยู่ในจุดสนใจแทนอัลกอริธึมการปรับให้เหมาะสมเพราะเมื่อปัญหาถูกกำหนดเป็นปัญหานูนการเลือกอัลกอริธึมการเพิ่มประสิทธิภาพไม่สามารถปรับปรุงคุณภาพของการแก้ปัญหา .

ฉันคิดว่าคำตอบนี้ไม่ครอบคลุมทุกด้านที่เป็นไปได้และฉันเองก็อยากรู้อยากเห็นเกี่ยวกับความคิดเห็นอื่น ๆ


ดังนั้นโดยทั่วไปคุณกำลังพูดว่าปัญหาอื่น ๆ นั้นง่ายกว่าดังนั้นคุณไม่จำเป็นต้องใช้เทคนิคและวานิลลา SGD ก็เพียงพอแล้วสำหรับพวกเขา?
ทิม

3
นั่นคือข้อความของฉันที่กว้างขวางเกินจริง 1) ปัญหาบางอย่างสามารถใช้วิธีการสั่งซื้อที่สูงขึ้นไม่จำเป็นต้องปรับตัว SGD 2) ปัญหาบางอย่างไม่สามารถปรับปรุงจาก SGD ได้เนื่องจากกฎหมายของ Amdahl 3) ปัญหาบางอย่างอาจเสนอวิธีแก้ปัญหานูนและปัญหาหลักคือการวางพวกเขาเป็นนูน สิ่งเหล่านี้ไม่ได้บอกว่าปัญหาอื่น ๆ นั้นง่ายกว่าการเรียนรู้อย่างลึกล้ำแทนที่จะอธิบายว่าทำไมการปรับปรุง SGD ไม่ได้อยู่ในความสนใจของพวกเขา
Jan Kukacka

จุดที่เป็นไปได้ที่ 4: ถ้าคุณใช้วิธีอื่นและทำให้มันซับซ้อนพอ (มิติที่สูง, ไม่เชิงเส้น, nonconvex) เพื่อรับประโยชน์จากวิธีการไล่ระดับสีที่ซับซ้อนมันอาจจะเรียกว่าเครือข่ายประสาท
นาธาเนียล

1
@JanKukacka ฉันรู้ว่าฉันกำลังมองหาชี้แจงตั้งแต่คำตอบของคุณอ้อม
ทิม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.