Bayesian Deep Learning คืออะไร


13

การเรียนรู้แบบเบย์ลึกคืออะไรและเกี่ยวข้องกับสถิติแบบเบย์แบบดั้งเดิมและการเรียนรู้แบบลึกแบบดั้งเดิมอย่างไร

อะไรคือแนวคิดหลักและคณิตศาสตร์ที่เกี่ยวข้อง? ฉันจะบอกว่ามันไม่ใช่แค่สถิติแบบเบย์ น้ำเชื้อทำงานอย่างไรรวมถึงการพัฒนาและแอพพลิเคชั่นหลักในปัจจุบัน

PS: การเรียนรู้ลึกแบบเบย์ได้รับความสนใจเป็นอย่างมากให้ดูที่ NIPS workshop

คำตอบ:


10

เมื่อออกจากลิงก์การประชุมเชิงปฏิบัติการ NIPS ของคุณ Yee Whye Teh ได้กล่าวปราศรัยที่ NIPS ในการเรียนรู้ลึกแบบเบย์ (วิดีโอ: https://www.youtube.com/watch?v=LVBvJsTr3rgสไลด์: http: //csml.stats ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/) ฉันคิดว่าในบางครั้งการพูดคุย Teh สรุปการเรียนรู้แบบเบส์เป็นการประยุกต์ใช้กรอบแนวคิดแบบเบย์กับความคิดจากการเรียนรู้เชิงลึก (เช่นการเรียนรู้ด้านหลังของน้ำหนักของโครงข่ายประสาทเทียม) และการเรียนรู้แบบเบส์ลึก กรอบ Bayesian (เช่นกระบวนการแบบเกาส์ลึกหรือตระกูลเอ็กซ์โปแนนเชียลลึก) มีแนวคิดที่แน่นอนที่คร่อมเส้นแบ่งระหว่างแนวคิดทั้งสองเช่นระบบถอดรหัสอัตโนมัติ เมื่อคนส่วนใหญ่พูดว่าการเรียนรู้แบบเบย์พวกเขามักจะหมายถึงหนึ่งในสองและนั่นก็สะท้อนให้เห็นในเอกสารที่เป็นที่ยอมรับในการประชุมเชิงปฏิบัติการที่คุณเชื่อมโยง (รวมถึงการฝึกอบรมเชิงปฏิบัติการเมื่อปีที่แล้ว) ในขณะที่ความคิดกลับไปทำงานของโอนีลในการเรียนรู้แบบเบส์เกี่ยวกับโครงข่ายประสาทในยุค 90 (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ) และมีการทำงานกันมาหลายปีแล้วนับจากนั้นอาจเป็นหนึ่งในเอกสารล่าสุดที่สำคัญกว่านั้นคือ กระดาษ autoencoder แบบผันแปรเดิม ( https://arxiv.org/pdf/1312.6114.pdf )


10

ฉันขอแนะนำให้คุณเข้าใจเป็นอย่างดีว่าแบบจำลองความน่าจะเป็นพื้นฐานในเครือข่ายประสาทแบบเบย์แบบดั้งเดิมคืออะไร ในต่อไปนี้ข้อตกลงบางส่วนจะถูกเขียนด้วยตัวหนา โปรดลองใช้ Google เพื่อค้นหาข้อมูลที่มีรายละเอียดเพิ่มเติม นี่เป็นเพียงภาพรวมพื้นฐาน ฉันหวังว่ามันจะช่วย

ลองพิจารณากรณีของการถดถอยในโครงข่ายประสาทเทียมไปข้างหน้าและสร้างสัญกรณ์

ให้แทนค่าของตัวทำนายที่เลเยอร์อินพุต . ค่าของหน่วยในเลเยอร์ด้านในจะแสดงโดยสำหรับL-1 สุดท้ายเรามีชั้นเอาท์พุทขวา)(x1,,xp)=:(z1(0),,zN0(0))(z1(),,zN())=1,,L1 (y1,,yk)=:(z1(L),,zNL(L))

น้ำหนักและอคติของหน่วยที่ชั้นจะถูกระบุด้วยและตามลำดับสำหรับ ,และell-1}iwij()bi()=1,,Li=1,Nj=1,,N1

ให้เป็นฟังก์ชันการเปิดใช้งานสำหรับหน่วยที่เลเยอร์สำหรับและigi():RN1Ri=1,,Li=1,N

ฟังก์ชั่นการเปิดใช้งานที่นิยมใช้เป็นโลจิสติก , Relu (aka ส่วนหนึ่งในเชิงบวก ) และtanh

ตอนนี้สำหรับ , กำหนดฟังก์ชันการเปลี่ยนเลเยอร์ ซึ่ง สำหรับell}=1,,L

G():RN1RN:(z1(1),,zN1(1))(z1(),,zN()),
zi()=gi()(j=1N1wij()zj(1)+bi()),
i=1,,N

แสดงถึงชุดน้ำหนักและอคติของทุกหน่วยในชั้นทั้งหมดโดยนั่นคือ เครือข่ายประสาทของเราคือ ครอบครัวของฟังก์ชั่นได้จากองค์ประกอบของฟังก์ชั่นการเปลี่ยนชั้น: θ

θ={wij(),bi():=1,,L;i=1,N;j=1,,N1},
Gθ:RpRk
Gθ=G(L)G(L1)G(1).

ไม่มีความน่าจะเป็นที่เกี่ยวข้องในคำอธิบายข้างต้น วัตถุประสงค์ของธุรกิจเครือข่ายเดิมประสาทคือฟังก์ชั่นที่เหมาะสม

"deep" ในDeep Learningหมายถึงการมีอยู่ของเลเยอร์ชั้นในจำนวนมากในโครงข่ายประสาทเทียมที่อยู่ระหว่างการพิจารณา

รับชุดฝึกอบรม เราพยายามที่จะลดวัตถุประสงค์ฟังก์ชั่น มากกว่า\สำหรับเวกเตอร์ของผู้ทำนายในชุดทดสอบการตอบสนองที่คาดการณ์นั้นเป็นเพียงซึ่งเป็นวิธีแก้ปัญหา พบปัญหาการย่อเล็กสุด มาตรฐานทองคำสำหรับการย่อขนาดนี้คือการแพร่ขยายย้อนกลับที่นำมาใช้โดยห้องสมุดTensorFlowโดยใช้สิ่งอำนวยความสะดวกในการขนานที่มีอยู่ในGPUสมัยใหม่{(xi,yi)Rp×Rk:i=1,,n}

i=1nyiGθ(xi)2,
θxGθ^(x)θ^ของ (สำหรับโครงการของคุณลองดูที่อินเตอร์เฟสKeras ) นอกจากนี้ยังมีฮาร์ดแวร์ที่พร้อมใช้งานสำหรับห่อหุ้มงานเหล่านี้ ( TPU ) เนื่องจากเครือข่ายนิวรัลโดยทั่วไปมีการกำหนดพารามิเตอร์เพื่อหลีกเลี่ยงการ overfitting รูปแบบของการทำให้เป็นปกติบางอย่างจะถูกเพิ่มลงในสูตรตัวอย่างเช่นการสรุปสันเขาเหมือนการลงโทษต่อหน้าที่วัตถุประสงค์หรือการใช้งานกลางคันระหว่างการฝึกอบรม เจฟฟรีย์ฮินตัน (หรือที่รู้จักกันในนาม Deep Learning Godfather) และผู้ทำงานร่วมกันคิดค้นสิ่งต่าง ๆ เหล่านี้ เรื่องราวความสำเร็จของ Deep Learning มีอยู่ทุกที่

ความน่าจะเป็นที่ได้รับการแนะนำในภาพในช่วงปลายยุค 80 และต้นยุค 90 ด้วยข้อเสนอของความเป็นไปได้ของเกาส์ และแบบง่าย ๆ (อาจจะง่าย) เสียนก่อนสันนิษฐานว่าเป็นเอกราชของน้ำหนักและอคติในเครือข่ายเบื้องต้น :

Lx,y(θ,σ2)σnexp(12σ2i=1nyiGθ(xi)2),
π(θ,σ2)exp(12σ02=1Li=1N((bi())2+j=1N1(wij())2))×π(σ2).

ดังนั้นไพรเออร์ร่อแร่สำหรับน้ำหนักและอคติที่มีการแจกแจงปกติกับศูนย์ค่าเฉลี่ยและความแปรปรวนร่วมกัน 2 โมเดลข้อต่อดั้งเดิมนี้สามารถทำให้มีส่วนร่วมมากขึ้นด้วยการแลกเปลี่ยนการอนุมานได้ยากขึ้นσ02

การเรียนรู้แบบลึกแบบเบย์เผชิญกับงานที่ยากในการสุ่มตัวอย่างจากการแจกแจงหลัง หลังจากทำสิ่งนี้สำเร็จการทำนายจะทำขึ้นตามธรรมชาติด้วยการแจกแจงการคาดการณ์หลังและความไม่แน่นอนที่เกี่ยวข้องกับการทำนายเหล่านี้จะถูกวัดปริมาณอย่างเต็มที่ จอกศักดิ์สิทธิ์ในการเรียนรู้ลึกแบบเบย์คือการสร้างโซลูชันที่มีประสิทธิภาพและปรับขนาดได้ วิธีการคำนวณจำนวนมากได้ถูกนำมาใช้ในการแสวงหานี้: Metropolis-เฮสติ้งส์และการสุ่มตัวอย่างกิ๊บส์ , มิล Monte Carloและเมื่อเร็ว ๆ นี้แปรผันอนุมาน

ลองชมวิดีโอการประชุมของ NIPS เพื่อดูเรื่องราวความสำเร็จ: http://bayesiandeeplearning.org/

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.