ฉันกำลังอ่านเอกสารการทำให้เป็นมาตรฐานของแบทช์ [1] และมันมีส่วนหนึ่งที่ต้องผ่านตัวอย่างพยายามที่จะแสดงว่าทำไมการทำให้เป็นมาตรฐานต้องทำอย่างระมัดระวัง ฉันอย่างจริงใจไม่เข้าใจวิธีการทำงานของตัวอย่างและฉันอยากรู้อยากเห็นจริง ๆ เข้าใจพวกเขากระดาษมากที่สุดเท่าที่จะทำได้ ก่อนอื่นให้ฉันพูดที่นี่:
ตัวอย่างเช่นพิจารณาชั้นด้วยการป้อนข้อมูลที่ยูที่เพิ่มเรียนรู้อคติ B และ normalizes ที่ x = U + B , x = { x 1 . . N }คือชุดของค่าของxในชุดฝึกอบรมและE [ x ] = ∑ N i = 1 x i. หากขั้นตอนการไล่ระดับสีแบบไม่สนใจการพึ่งพาบนbดังนั้นมันจะอัปเดตb ← b + Δ > bโดยที่Δ b ∝ - ∂ l x แล้วU+(B+Δข)-E[U+(B+Δข)]=U+B-E[U+B] ดังนั้นการรวมกันของการปรับปรุงเพื่อbและการเปลี่ยนแปลงที่ตามมาในการทำให้เป็นมาตรฐานทำให้ไม่มีการเปลี่ยนแปลงในเอาต์พุตของเลเยอร์หรือดังนั้นการสูญเสีย
ฉันคิดว่าฉันเข้าใจข้อความว่าหากไม่ทำบรรทัดฐานอย่างถูกต้องก็อาจไม่ดี ฉันไม่ได้เป็นตัวอย่างที่พวกเขาใช้ portrays นี้
ฉันรู้ว่ามันยากที่จะช่วยใครสักคนหากพวกเขาไม่เจาะจงมากขึ้นในสิ่งที่ทำให้พวกเขาสับสนดังนั้นฉันจะให้ในหัวข้อถัดไปสิ่งที่ทำให้ฉันสับสนเกี่ยวกับคำอธิบายของพวกเขา
ฉันคิดว่าความสับสนส่วนใหญ่ของฉันอาจเป็นเรื่องแปลกดังนั้นฉันจะชี้แจง
ครั้งแรกฉันคิดว่าสิ่งหนึ่งที่ทำให้ฉันสับสนมากคือความหมายสำหรับผู้เขียนที่มีหน่วยในเครือข่ายและการเปิดใช้งานคืออะไร โดยปกติฉันคิดว่าการเปิดใช้งานเป็น:
โดยที่เป็นเวกเตอร์คุณลักษณะ raw จากเลเยอร์อินพุตแรก
นอกจากนี้ฉันคิดว่าสิ่งแรกที่ทำให้ฉันสับสน (เนื่องจากเหตุผลก่อนหน้า) คือสิ่งที่พวกเขาพยายามอธิบายจริงๆ มันบอกว่า:
normalizes ที่x = U + ข
ฉันคิดว่าสิ่งที่พวกเขากำลังพยายามจะพูดก็คือแทนที่จะใช้การเปิดใช้งานตามที่คำนวณโดยผ่านไปข้างหน้าอย่างใดอย่างหนึ่งดำเนินการ "normalization" โดยการลบการเปิดใช้งานเฉลี่ย:
แล้วส่งต่อไปยังอัลกอริทึมการกระจายกลับ หรืออย่างน้อยนั่นก็เป็นสิ่งที่สมเหตุสมผลสำหรับฉัน
เกี่ยวกับสิ่งนี้ฉันเดาว่าพวกเขาเรียกว่าอาจจะเป็นx ( l ) ? นั่นคือสิ่งที่ฉันจะเดาเพราะพวกเขาเรียกมันว่า "อินพุต" และมีสมการx = u + b (ฉันเดาว่าพวกเขากำลังใช้หน่วยกระตุ้นเชิงเส้น / เชิงเส้นสำหรับเครือข่ายประสาทของพวกเขา?)
เพื่อสร้างความสับสนต่อไปฉันพวกเขากำหนดเป็นสิ่งที่สัดส่วนกับอนุพันธ์บางส่วน แต่บางส่วนอนุพันธ์คำนวณด้วยความเคารพxซึ่งดูเหมือนว่าแปลกประหลาดจริงๆกับผม โดยปกติอนุพันธ์ย่อยบางส่วนเมื่อใช้การไล่ระดับสีจะขึ้นอยู่กับพารามิเตอร์ของเครือข่าย ในกรณีของการชดเชยฉันจะคิดว่า:
ทำให้รู้สึกมากกว่าการใช้อนุพันธ์ของด้วยความเคารพต่อการเปิดใช้งานปกติ ผมพยายามที่จะเข้าใจว่าทำไมพวกเขาต้องการใช้อนุพันธ์ที่เกี่ยวกับxและฉันคิดว่าบางทีพวกเขากำลังหมายถึงสันดอนเมื่อพวกเขาเขียน∂ ลิตรตั้งแต่มักจะว่าเป็นเพียงส่วนหนึ่งของขั้นตอนวิธีกลับ prop ที่มีอนุพันธ์ด้วยความเคารพก่อนการเปิดใช้งานตั้งแต่สมการของเดลต้าเป็น:
อีกสิ่งที่ทำให้ฉันสับสนคือ:
แล้ว ]
พวกเขาไม่ได้พูดในสิ่งที่พวกเขากำลังพยายามคำนวณในสมการข้างต้น แต่ฉันคิดว่าพวกเขากำลังพยายามคำนวณการเปิดใช้งานปกติที่ปรับปรุงแล้ว (สำหรับเลเยอร์แรก?) หลังจากถูกอัพเดตเป็นb + Δ b ? ไม่แน่ใจว่าฉันซื้อคะแนนของพวกเขาหรือไม่เพราะฉันคิดว่าสมการที่ถูกต้องควรเป็น:
ซึ่งไม่ได้ยกเลิกเปลี่ยนแปลงในพารามิเตอร์ข อย่างไรก็ตามฉันไม่รู้จริง ๆ ว่าพวกเขากำลังทำอะไรฉันจึงคาดเดา สมการที่พวกเขาเขียนนั้นคืออะไรกันแน่?
ฉันไม่แน่ใจว่านี่เป็นความเข้าใจที่ถูกต้องหรือไม่ แต่ฉันได้ให้ความคิดกับตัวอย่างของพวกเขา ดูเหมือนว่าตัวอย่างของพวกเขาไม่มีหน่วยเปิดใช้งานที่ไม่ใช่เชิงเส้น (ใช้ข้อมูลประจำตัว) และพวกเขากำลังพูดถึงเลเยอร์แรกเท่านั้น? เนื่องจากพวกเขาไม่ได้ลงรายละเอียดมากมายและสัญกรณ์ไม่ชัดเจนฉันจึงไม่สามารถอนุมานได้อย่างชัดเจนถึงสิ่งที่พวกเขากำลังพูดถึง มีใครรู้วิธีแสดงตัวอย่างนี้ด้วยสัญกรณ์ที่แสดงว่าเกิดอะไรขึ้นในแต่ละเลเยอร์ มีใครเข้าใจบ้างว่าเกิดอะไรขึ้นกับแบบอย่างนั้นและต้องการแบ่งปันภูมิปัญญาของพวกเขากับฉัน
[1]: Ioffe เอสและ Szegedy C. (2015),
"แบทช์ Normalization: เร่งการฝึกอบรมเครือข่ายลึกโดยการลดภายในตัวแปรร่วมกดปุ่ม Shift"
การดำเนินการของ 32 ประชุมนานาชาติเกี่ยวกับการเรียนรู้เครื่อง , ลีลล์, ฝรั่งเศส, 2015
วารสารเครื่องการเรียนรู้ การวิจัย: ปริมาณ W&CP 37