อคติควรเริ่มต้นและทำให้เป็นมาตรฐานได้อย่างไร?

ฉันได้อ่านเอกสารสองสามฉบับเกี่ยวกับการเริ่มต้นเคอร์เนลและเอกสารจำนวนมากพูดถึงว่าพวกเขาใช้เคอร์เนล L2 ปกติ (มักจะมี ) $\lambda = 0.0001$

มีใครทำสิ่งที่แตกต่างจากการเริ่มต้นอคติด้วยศูนย์คงที่และไม่ทำให้เป็นปกติ?

เอกสารการกำหนดค่าเริ่มต้นเคอร์เนล

Mishkin และ Matas: สิ่งที่คุณต้องการคือการเริ่มต้นที่ดี
Xavier Glorot และ Yoshua Bengio: ทำความเข้าใจกับความยากลำบากในการฝึกอบรมเครือข่ายประสาทที่มีการป้อนลึก
เขาและอื่น ๆ : การเจาะลึกลงไปในวงจรเรียงกระแส: ประสิทธิภาพที่เหนือกว่าระดับมนุษย์ในการจำแนกประเภท ImageNet

neural-network

— มาร์ตินโทมา
แหล่งที่มา

จากหมายเหตุของ Stanford CS231N ( http://cs231n.github.io/neural-networks-2/ ):

เริ่มต้นอคติ เป็นไปได้และเป็นเรื่องธรรมดาที่จะเริ่มต้นอคติให้เป็นศูนย์เนื่องจากการแตกหักแบบอสมมาตรนั้นได้มาจากการสุ่มตัวเลขเล็ก ๆ ในตุ้มน้ำหนัก สำหรับผู้ที่ไม่ใช่เชิงเส้นของ ReLU บางคนชอบใช้ค่าคงที่ขนาดเล็กเช่น 0.01 สำหรับอคติทั้งหมดเพราะนี่จะทำให้แน่ใจว่าหน่วย ReLU ทั้งหมดยิงในจุดเริ่มต้นดังนั้นจึงได้รับและเผยแพร่การไล่ระดับสี อย่างไรก็ตามยังไม่ชัดเจนว่าจะให้การปรับปรุงที่สอดคล้องกัน (ในความเป็นจริงผลลัพธ์บางอย่างดูเหมือนจะบ่งบอกว่าสิ่งนี้ทำงานได้แย่ลง) และเป็นเรื่องธรรมดาที่จะใช้การกำหนดค่าเริ่มต้น 0 ไบอัส

ใน LSTMs เป็นปกติที่จะเริ่มต้นที่จะทำให้เกิดอคติ 1 - ดูตัวอย่างhttp://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf

— Lukas Biewald
แหล่งที่มา