คำถามติดแท็ก adam

5
เครื่องมือเพิ่มประสิทธิภาพของอดัมพร้อมการสลายตัวแบบทวีคูณ
ในรหัส Tensorflow ส่วนใหญ่ฉันเห็น Adam Optimizer ใช้กับอัตราการเรียนรู้คงที่1e-4(เช่น 0.0001) รหัสมักจะมีลักษณะดังต่อไปนี้: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = tf.initialize_all_variables() # launch the graph in a session sess = tf.Session() # Actually …

1
วิธีการอาดัมของโคตรลาดลงแบบสุ่มทำงานอย่างไร
ฉันคุ้นเคยกับอัลกอริธึมการไล่ระดับสีพื้นฐานสำหรับการฝึกอบรมโครงข่ายประสาท ฉันได้อ่านกระดาษเสนออดัม: ADAM: เป็นวิธีการในการเพิ่มประสิทธิภาพ ในขณะที่ฉันมีความเข้าใจอย่างแน่นอน(อย่างน้อย) กระดาษดูเหมือนจะอยู่ในระดับสูงเกินไปสำหรับฉันโดยรวม ตัวอย่างเช่นฟังก์ชั่นต้นทุนมักจะเป็นผลรวมของฟังก์ชั่นที่แตกต่างกันจำนวนมากดังนั้นจึงต้องทำการคำนวณจำนวนมากเพื่อปรับค่าให้เหมาะสม การไล่ระดับสีแบบสุ่มสุ่ม - เท่าที่ฉันเข้าใจหัวข้อ - คำนวณการเพิ่มประสิทธิภาพสำหรับเซตย่อยของฟังก์ชันเหล่านี้เท่านั้น สำหรับผมแล้วมันก็ไม่มีความชัดเจนว่าอดัมไม่นี้และทำไมผลในลดลงข้อผิดพลาดการฝึกอบรมสำหรับทั้งของJ ( θ )J( θ )J(θ)J(\theta)J(θ)J(θ)J(\theta) ฉันคิดว่าอดัมอัปเดตการไล่ระดับสีโดยคำนึงถึงการไล่ระดับสีก่อนหน้า พวกเขาเรียกมันว่าการใช้โมเมนตัม โมเมนตัมนี้คืออะไร? ตามอัลกอริทึมในหน้าสองในกระดาษมันเป็นค่าเฉลี่ยเคลื่อนที่บางอย่างเช่นค่าประมาณของช่วงเวลาที่หนึ่งและสองของการไล่ระดับสี "ปกติ" หรือไม่? ในทางปฏิบัติฉันจะสงสัยว่าอดัมสามารถใช้ขนาดขั้นตอนที่มีประสิทธิภาพมากขึ้นในการลดการไล่ระดับสีดังนั้นข้อผิดพลาดในการฝึกอบรมเมื่อใช้ร่วมกับการประมาณแบบสุ่ม ดังนั้นเวกเตอร์การอัพเดทที่ได้ผลลัพธ์ควร "กระโดด" รอบ ๆ ในมิติเชิงพื้นที่มากกว่าที่จะอธิบายถึงเส้นโค้งบางอย่างเช่นอัลกอริธึมการไล่ระดับสีปกติ บางคนสามารถแยกแยะว่าอดัมทำงานอย่างไร? โดยเฉพาะอย่างยิ่งวิธีการที่มันมาบรรจบกันโดยเฉพาะว่าทำไมวิธีการของอดัมทำงานและสิ่งที่เป็นประโยชน์คืออะไร?

3
อะไรคือสาเหตุที่เครื่องมือเพิ่มประสิทธิภาพของ Adam ได้รับการพิจารณาว่ามีความแข็งแกร่งต่อมูลค่าของพารามิเตอร์ที่มากเกินไป
ฉันกำลังอ่านเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพของอดัมสำหรับการเรียนรู้ลึกและได้พบประโยคต่อไปนี้ในหนังสือเรียนใหม่เรื่องการเรียนรู้ลึกโดย Bengio, Goodfellow และ Courville: โดยทั่วไปอาดัมได้รับการยกย่องว่าค่อนข้างแข็งแกร่งต่อการเลือกพารามิเตอร์มากเกินไปแม้ว่าบางครั้งอัตราการเรียนรู้จะต้องเปลี่ยนจากค่าเริ่มต้นที่แนะนำ ถ้านี่เป็นเรื่องจริงมันเป็นเรื่องใหญ่เพราะการค้นหาพารามิเตอร์แบบไฮเปอร์สามารถมีความสำคัญจริงๆ (ในประสบการณ์ของฉันอย่างน้อย) ในประสิทธิภาพทางสถิติของระบบการเรียนรู้ลึก ดังนั้นคำถามของฉันคือทำไม Adam Robust ถึงพารามิเตอร์ที่สำคัญเช่นนั้น? พิเศษและหรือไม่β1β1\beta_1β2β2\beta_2 ฉันอ่านกระดาษของอดัมแล้วและมันก็ไม่ได้ให้คำอธิบายใด ๆ ว่าทำไมมันถึงใช้ได้กับพารามิเตอร์เหล่านั้นหรือทำไมมันถึงมีประสิทธิภาพ พวกเขาแสดงให้เห็นถึงเหตุผลอื่นหรือไม่? นอกจากนี้เมื่อฉันอ่านกระดาษดูเหมือนว่าจำนวนของพารามิเตอร์ไฮเปอร์ที่พวกเขาพยายามทำที่เล็กมากสำหรับเพียง 2 และสำหรับเท่านั้น 3. นี่เป็นการศึกษาเชิงประจักษ์ได้อย่างไรถ้ามันทำงานกับ 2x3 พารามิเตอร์มากเกินไป ?β1β1\beta_1β2β2\beta_2

2
คำอธิบายของ Spikes ในการสูญเสียการฝึกอบรมเทียบกับการทำซ้ำกับ Adam Optimizer
ฉันกำลังฝึกอบรมโครงข่ายประสาทเทียมโดยใช้ i) SGD และ ii) เครื่องมือเพิ่มประสิทธิภาพอดัม เมื่อใช้งานปกติ SGD ฉันจะได้รับการสูญเสียการฝึกอบรมที่ราบรื่นเมื่อเทียบกับเส้นโค้งการวนซ้ำตามที่เห็นด้านล่าง อย่างไรก็ตามเมื่อฉันใช้ Adam Optimizer กราฟการสูญเสียการฝึกอบรมมีหนามแหลมบางอย่าง อะไรคือคำอธิบายของเดือยแหลมเหล่านี้? รายละเอียดรูปแบบ: 14 input nodes -> 2 layer ที่ซ่อนอยู่ (100 -> 40 units) -> 4 output units ฉันกำลังใช้พารามิเตอร์เริ่มต้นสำหรับอดัมbeta_1 = 0.9, beta_2 = 0.999, และepsilon = 1e-8batch_size = 32 i) กับ SGD ii) กับอดัม

1
ทำไมจึงเป็นสิ่งสำคัญที่จะรวมคำแก้ไขอคติสำหรับเครื่องมือเพิ่มประสิทธิภาพของอดัมสำหรับการเรียนรู้ลึก
ฉันกำลังอ่านเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพของอดัมเพื่อการเรียนรู้ที่ลึกและได้พบประโยคต่อไปนี้ในหนังสือเรียนใหม่Deep Learningโดย Begnio, Goodfellow และ Courtville: อดัมรวมการแก้ไขอคติกับการประมาณการช่วงเวลาที่สั่งซื้อครั้งแรก (คำว่าโมเมนตัม) และช่วงเวลาอันดับที่สอง (ไม่ระบุตัวตน) เพื่ออธิบายการเริ่มต้นที่จุดเริ่มต้น ดูเหมือนว่าเหตุผลหลักที่จะรวมถึงข้อตกลงการแก้ไขอคติเหล่านี้คือที่ใดก็เอาอคติของการเริ่มต้นของและ0mt=0mt=0m_t = 0vt=0vt=0v_t = 0 ฉันไม่แน่ใจ 100% ว่านั่นหมายถึงอะไร แต่ดูเหมือนว่าสำหรับฉันว่ามันอาจหมายความว่าช่วงเวลาที่ 1 และ 2 เริ่มต้นที่ศูนย์และเริ่มต้นที่ศูนย์อย่างใดอย่างหนึ่งแทนค่าที่ใกล้เคียงกับศูนย์ในทางที่ไม่ยุติธรรม ? แม้ว่าฉันจะชอบที่จะรู้ว่าสิ่งที่หมายถึงบิตที่แม่นยำมากขึ้นและวิธีการที่ทำลายการเรียนรู้ โดยเฉพาะอย่างยิ่งข้อดีของการเพิ่มประสิทธิภาพให้เกิดประโยชน์ในแง่ของการเพิ่มประสิทธิภาพ un-biasing คืออะไร? สิ่งนี้จะช่วยฝึกอบรมรูปแบบการเรียนรู้ลึกได้อย่างไร นอกจากนี้มันหมายความว่าอย่างไรเมื่อไม่มีอคติ ฉันคุ้นเคยกับความเบี่ยงเบนมาตรฐานที่เป็นกลาง แต่มันไม่ชัดเจนสำหรับฉันในความหมายนี้ในบริบทนี้ การแก้ไขอคตินั้นเป็นเรื่องใหญ่จริง ๆ หรือว่ามีบางสิ่งที่ overhyped ในกระดาษเพิ่มประสิทธิภาพของอดัม? แค่มีคนรู้ว่าฉันพยายามอย่างหนักที่จะเข้าใจกระดาษต้นฉบับ แต่ฉันได้อ่านและอ่านกระดาษต้นฉบับน้อยมาก ฉันคิดว่าคำถามเหล่านี้บางคำถามอาจตอบได้ แต่ฉันไม่สามารถแยกคำตอบได้

1
RMSProp และ Adam เทียบกับ SGD
ฉันกำลังทำการทดลองกับชุดตรวจสอบความถูกต้องของ EMNIST โดยใช้เครือข่ายที่มี RMSProp, อดัมและ SGD ฉันได้รับความแม่นยำ 87% กับ SGD (อัตราการเรียนรู้ 0.1) และ dropout (0.1 dropout prob) รวมถึงการทำให้เป็นมาตรฐาน L2 (การลงโทษ 1e-05) เมื่อทดสอบการกำหนดค่าที่แน่นอนเดียวกันกับ RMSProp และ Adam รวมถึงอัตราการเรียนรู้เริ่มต้น 0.001 ฉันได้รับความแม่นยำ 85% และเส้นโค้งการฝึกอบรมที่ราบรื่นน้อยลงอย่างเห็นได้ชัด ฉันไม่ทราบวิธีอธิบายพฤติกรรมนี้ อะไรเป็นสาเหตุของการขาดความเรียบในช่วงการฝึกอบรมและความแม่นยำที่ลดลงและอัตราความผิดพลาดที่สูงขึ้น
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.