ฉันขอแนะนำให้คุณเข้าใจเป็นอย่างดีว่าแบบจำลองความน่าจะเป็นพื้นฐานในเครือข่ายประสาทแบบเบย์แบบดั้งเดิมคืออะไร ในต่อไปนี้ข้อตกลงบางส่วนจะถูกเขียนด้วยตัวหนา โปรดลองใช้ Google เพื่อค้นหาข้อมูลที่มีรายละเอียดเพิ่มเติม นี่เป็นเพียงภาพรวมพื้นฐาน ฉันหวังว่ามันจะช่วย
ลองพิจารณากรณีของการถดถอยในโครงข่ายประสาทเทียมไปข้างหน้าและสร้างสัญกรณ์
ให้แทนค่าของตัวทำนายที่เลเยอร์อินพุต . ค่าของหน่วยในเลเยอร์ด้านในจะแสดงโดยสำหรับL-1 สุดท้ายเรามีชั้นเอาท์พุทขวา)(x1,…,xp)=:(z(0)1,…,z(0)N0)(z(ℓ)1,…,z(ℓ)Nℓ)ℓ=1,…,L−1 (y1,…,yk)=:(z(L)1,…,z(L)NL)
น้ำหนักและอคติของหน่วยที่ชั้นจะถูกระบุด้วยและตามลำดับสำหรับ ,และell-1}iℓw(ℓ)ijb(ℓ)iℓ=1,…,Li=1…,Nℓj=1,…,Nℓ−1
ให้เป็นฟังก์ชันการเปิดใช้งานสำหรับหน่วยที่เลเยอร์สำหรับและig(ℓ)i:RNℓ−1→Riℓℓ=1,…,Li=1…,Nℓ
ฟังก์ชั่นการเปิดใช้งานที่นิยมใช้เป็นโลจิสติก , Relu (aka ส่วนหนึ่งในเชิงบวก ) และtanh
ตอนนี้สำหรับ , กำหนดฟังก์ชันการเปลี่ยนเลเยอร์
ซึ่ง
สำหรับell}ℓ=1,…,L
G(ℓ):RNℓ−1→RNℓ:(z(ℓ−1)1,…,z(ℓ−1)Nℓ−1)↦(z(ℓ)1,…,z(ℓ)Nℓ),
z(ℓ)i=g(ℓ)i(∑j=1Nℓ−1w(ℓ)ijz(ℓ−1)j+b(ℓ)i),
i=1,…,Nℓ
แสดงถึงชุดน้ำหนักและอคติของทุกหน่วยในชั้นทั้งหมดโดยนั่นคือ
เครือข่ายประสาทของเราคือ ครอบครัวของฟังก์ชั่นได้จากองค์ประกอบของฟังก์ชั่นการเปลี่ยนชั้น:
θ
θ={w(ℓ)ij,b(ℓ)i:ℓ=1,…,L;i=1…,Nℓ;j=1,…,Nℓ−1},
Gθ:Rp→RkGθ=G(L)∘G(L−1)∘⋯∘G(1).
ไม่มีความน่าจะเป็นที่เกี่ยวข้องในคำอธิบายข้างต้น วัตถุประสงค์ของธุรกิจเครือข่ายเดิมประสาทคือฟังก์ชั่นที่เหมาะสม
"deep" ในDeep Learningหมายถึงการมีอยู่ของเลเยอร์ชั้นในจำนวนมากในโครงข่ายประสาทเทียมที่อยู่ระหว่างการพิจารณา
รับชุดฝึกอบรม เราพยายามที่จะลดวัตถุประสงค์ฟังก์ชั่น
มากกว่า\สำหรับเวกเตอร์ของผู้ทำนายในชุดทดสอบการตอบสนองที่คาดการณ์นั้นเป็นเพียงซึ่งเป็นวิธีแก้ปัญหา พบปัญหาการย่อเล็กสุด มาตรฐานทองคำสำหรับการย่อขนาดนี้คือการแพร่ขยายย้อนกลับที่นำมาใช้โดยห้องสมุดTensorFlowโดยใช้สิ่งอำนวยความสะดวกในการขนานที่มีอยู่ในGPUสมัยใหม่{(xi,yi)∈Rp×Rk:i=1,…,n}
∑i=1n∥yi−Gθ(xi)∥2,
θx∗Gθ^(x∗)θ^ของ (สำหรับโครงการของคุณลองดูที่อินเตอร์เฟส
Keras ) นอกจากนี้ยังมีฮาร์ดแวร์ที่พร้อมใช้งานสำหรับห่อหุ้มงานเหล่านี้ (
TPU ) เนื่องจากเครือข่ายนิวรัลโดยทั่วไปมีการกำหนดพารามิเตอร์เพื่อหลีกเลี่ยงการ overfitting รูปแบบของการทำให้เป็นปกติบางอย่างจะถูกเพิ่มลงในสูตรตัวอย่างเช่นการสรุป
สันเขาเหมือนการลงโทษต่อหน้าที่วัตถุประสงค์หรือการใช้งาน
กลางคันระหว่างการฝึกอบรม
เจฟฟรีย์ฮินตัน (หรือที่รู้จักกันในนาม Deep Learning Godfather) และผู้ทำงานร่วมกันคิดค้นสิ่งต่าง ๆ เหล่านี้ เรื่องราวความสำเร็จของ Deep Learning มีอยู่ทุกที่
ความน่าจะเป็นที่ได้รับการแนะนำในภาพในช่วงปลายยุค 80 และต้นยุค 90 ด้วยข้อเสนอของความเป็นไปได้ของเกาส์
และแบบง่าย ๆ (อาจจะง่าย) เสียนก่อนสันนิษฐานว่าเป็นเอกราชของน้ำหนักและอคติในเครือข่ายเบื้องต้น :
Lx,y(θ,σ2)∝σ−nexp(−12σ2∑i=1n∥yi−Gθ(xi)∥2),
π(θ,σ2)∝exp(−12σ20∑ℓ=1L∑i=1Nℓ((b(ℓ)i)2+∑j=1Nℓ−1(w(ℓ)ij)2))×π(σ2).
ดังนั้นไพรเออร์ร่อแร่สำหรับน้ำหนักและอคติที่มีการแจกแจงปกติกับศูนย์ค่าเฉลี่ยและความแปรปรวนร่วมกัน 2 โมเดลข้อต่อดั้งเดิมนี้สามารถทำให้มีส่วนร่วมมากขึ้นด้วยการแลกเปลี่ยนการอนุมานได้ยากขึ้นσ20
การเรียนรู้แบบลึกแบบเบย์เผชิญกับงานที่ยากในการสุ่มตัวอย่างจากการแจกแจงหลัง หลังจากทำสิ่งนี้สำเร็จการทำนายจะทำขึ้นตามธรรมชาติด้วยการแจกแจงการคาดการณ์หลังและความไม่แน่นอนที่เกี่ยวข้องกับการทำนายเหล่านี้จะถูกวัดปริมาณอย่างเต็มที่ จอกศักดิ์สิทธิ์ในการเรียนรู้ลึกแบบเบย์คือการสร้างโซลูชันที่มีประสิทธิภาพและปรับขนาดได้ วิธีการคำนวณจำนวนมากได้ถูกนำมาใช้ในการแสวงหานี้: Metropolis-เฮสติ้งส์และการสุ่มตัวอย่างกิ๊บส์ , มิล Monte Carloและเมื่อเร็ว ๆ นี้แปรผันอนุมาน
ลองชมวิดีโอการประชุมของ NIPS เพื่อดูเรื่องราวความสำเร็จ: http://bayesiandeeplearning.org/