การสร้างแบบจำลองทางคณิตศาสตร์แบบเครือข่ายประสาทเทียมเป็นแบบกราฟิก


12

ฉันกำลังดิ้นรนเพื่อให้การเชื่อมต่อทางคณิตศาสตร์ระหว่างเครือข่ายประสาทและแบบจำลองกราฟิก

ในแบบกราฟิกความคิดนั้นง่ายมาก: การแจกแจงความน่าจะเป็นเป็นตัวประกอบตามกลุ่มในกราฟโดยทั่วไปแล้วศักยภาพนั้นเป็นของตระกูลเอ็กซ์โพเนนเชียล

มีเหตุผลที่เท่าเทียมกันสำหรับโครงข่ายประสาทเทียมหรือไม่? เราสามารถแสดงการแจกแจงความน่าจะเป็นเหนือหน่วย (ตัวแปร) ในเครื่อง จำกัด Boltzmann หรือซีเอ็นเอ็นเป็นฟังก์ชันของพลังงานหรือผลิตภัณฑ์พลังงานระหว่างหน่วยหรือไม่

นอกจากนี้การแจกแจงความน่าจะเป็นแบบจำลองโดย RBM หรือเครือข่ายความเชื่อลึก (เช่นกับ CNNs) ของตระกูลเอ็กซ์โปเนนเชียลหรือไม่?

ผมหวังที่จะพบข้อความที่ formalizes การเชื่อมต่อระหว่างชนิดปัจจุบันนี้เครือข่ายประสาทและสถิติในลักษณะเดียวกับที่จอร์แดนและเวนไรท์ได้สำหรับรุ่นกราฟิกกับพวกเขารุ่นกราฟิกครอบครัวเอกและแปรผันอนุมาน ตัวชี้ใด ๆ จะดีมาก


1
IM (ผู้เกลียดชัง) O ปัญหาหลักที่นี่คือเครือข่ายประสาทไม่ใช่เครือข่ายจริงๆ พวกเขามีโครงสร้างที่แน่นอนและมีโอกาสเล็กน้อยในการจัดเก็บข้อมูลใด ๆ ที่อยู่ภายใน

คุณเห็นโพสต์ล่าสุดนี้หรือไม่
jerad

@ Jerad ขอบคุณฉันไม่ได้อ่านโพสต์นั้น คำถามของฉันไม่มากนักเกี่ยวกับวิธีการรวมโมเดลเหล่านี้ (เช่นเมื่อ Yann พูดว่า"using deep nets as factors in an MRF") แต่เพิ่มเติมเกี่ยวกับวิธีดูสุทธิลึก ๆ เป็นกราฟปัจจัยความน่าจะเป็น เมื่อ Yann LeCun พูดว่า"of course deep Boltzmann Machines are a form of probabilistic factor graph themselves"ฉันสนใจที่จะเห็นการเชื่อมต่อทางคณิตศาสตร์
Amelio Vazquez-Reina

@mbq เราเห็นรูปแบบของการจัดเก็บข้อมูลเลเยอร์คอมโพเนนต์ที่ซ่อนอยู่เช่นhttps://distill.pub/2017/feature-visualization/( เครือข่ายประสาทสร้างความเข้าใจในรูปของพวกเขาอย่างไร ) ในรูปที่ซับซ้อนมีออบเจ็กต์ส่วนประกอบที่แสดงโดยโหนดเลเยอร์ที่ซ่อนอยู่ ตุ้มน้ำหนักสามารถ 'ปรับเปลี่ยน' โทโพโลยี 'ในแบบที่ไม่ต่อเนื่อง แม้ว่าฉันจะไม่เห็นมัน แต่วิธีการบางอย่างอาจรวมถึงปัจจัยการหดตัวเพื่อลบขอบและดังนั้นจึงเปลี่ยนโทโพโลยีดั้งเดิม
Vass

คำตอบ:


6

การแนะนำที่ดีเกี่ยวกับเรื่องนี้คือหลักสูตรCSC321ที่มหาวิทยาลัยโตรอนโตและหลักสูตรนิวรอลเน็ตต์ -2012-001 ในหลักสูตรที่ Coursera ซึ่งทั้งคู่สอนโดย Geoffrey Hinton

จากวิดีโอเกี่ยวกับ Belief Nets:

แบบจำลองกราฟิก

โมเดลกราฟิกในช่วงต้นใช้ผู้เชี่ยวชาญเพื่อกำหนดโครงสร้างกราฟและความน่าจะเป็นตามเงื่อนไข กราฟนั้นเชื่อมโยงกันอย่างกระจัดกระจายและการมุ่งเน้นไปที่การอนุมานที่ถูกต้องไม่ใช่การเรียนรู้ (ความรู้มาจากผู้เชี่ยวชาญ)

โครงข่ายประสาท

สำหรับตาข่ายประสาทการเรียนรู้เป็นศูนย์กลาง การเดินสายยากความรู้นั้นไม่เจ๋ง (โอเคอาจจะนิดหน่อย) การเรียนรู้มาจากการเรียนรู้ข้อมูลการฝึกอบรมไม่ใช่จากผู้เชี่ยวชาญ โครงข่ายประสาทเทียมไม่ได้มีจุดมุ่งหมายเพื่อการตีความการเชื่อมต่อแบบเบาบางเพื่อให้อนุมานได้ง่าย อย่างไรก็ตามมีโครงข่ายความเชื่อเกี่ยวกับโครงข่ายประสาทเทียม


ความเข้าใจของฉันคือความเชื่อตาข่ายมักจะเชื่อมโยงอย่างหนาแน่นเกินไปและกลุ่มของพวกเขามีขนาดใหญ่เกินไปที่จะตีความได้ ความเชื่ออวนใช้ฟังก์ชัน sigmoid เพื่อรวมอินพุตในขณะที่โมเดลกราฟิกต่อเนื่องมักใช้ฟังก์ชันเกาส์เซียน sigmoid ทำให้เครือข่ายง่ายขึ้นในการฝึกอบรม แต่มันยากที่จะตีความในแง่ของความน่าจะเป็น ฉันเชื่อว่าทั้งสองอยู่ในตระกูลชี้แจง

ฉันยังห่างไกลจากผู้เชี่ยวชาญในเรื่องนี้ แต่บันทึกการบรรยายและวิดีโอเป็นทรัพยากรที่ยอดเยี่ยม


1
ยินดีต้อนรับสู่เว็บไซต์ เราพยายามสร้างที่เก็บถาวรของข้อมูลสถิติคุณภาพสูงในรูปแบบของคำถาม & คำตอบ ดังนั้นเราจึงต้องระวังคำตอบเฉพาะลิงก์เนื่องจาก linkrot คุณสามารถโพสต์การอ้างอิงแบบเต็ม & สรุปข้อมูลที่ลิงค์ในกรณีที่มันจะตาย?
gung - Reinstate Monica

นี่เป็นสิ่งที่ดีจริงๆ ขอบคุณสำหรับการเพิ่มข้อมูลนี้และยินดีต้อนรับสู่ CV
gung - Reinstate Monica

ฉันต้องชี้ให้เห็นว่าข้อมูลในช่วงครึ่งแรกของคำตอบของคุณไม่ถูกต้องซึ่งฉันเดาว่าโดยนัยแล้วคือการใช้ "โมเดลกราฟิกต้น" (ควรเป็น "เร็วมาก") เป็นเวลานานมากที่โมเดลกราฟิกถูกใช้เพื่อเรียนรู้ทุกแง่มุมของสถาปัตยกรรมในแบบเดียวกับเครือข่ายประสาท แต่ข้อเสนอแนะในภายหลังของคุณเกี่ยวกับ sigmoids ที่เกิดขึ้นของ gaussians ในกราฟปัจจัยน่าสนใจ!
GuSuku

4

Radford Neal ทำงานได้ดีในเรื่องนี้ซึ่งคุณอาจจะสนใจรวมถึงงานโดยตรงในการสร้างแบบจำลองกราฟิก Bayesian กับเครือข่ายประสาท (วิทยานิพนธ์ของเขาเห็นได้ชัดในหัวข้อเฉพาะนี้.)

ฉันไม่คุ้นเคยกับงานนี้เพื่อให้สรุปอัจฉริยะ แต่ฉันต้องการให้ตัวชี้แก่คุณในกรณีที่คุณเห็นว่ามีประโยชน์


จากสิ่งที่ฉันเข้าใจจากงานของ Neal, Mackay และอื่น ๆ พวกเขากำลังใช้การปรับให้เหมาะสมแบบเบส์ซึ่งพารามิเตอร์ในการปรับให้เหมาะสมที่สุดคือน้ำหนักและความลำเอียงของระบบประสาทแม้จะแสดงให้เห็นว่า น้ำหนัก โปรแกรมดังกล่าวได้รวมจำนวนเลเยอร์ที่ซ่อนอยู่อย่างต่อเนื่องเซลล์ประสาทภายในแต่ละเลเยอร์และอื่น ๆ ไว้ในตัวแปรการปรับให้เหมาะสม
GuSuku

แต่สิ่งนี้แตกต่างจากสิ่งที่ OP ถามเพราะการออกแบบสถาปัตยกรรมของโครงข่ายประสาทเทียมเพื่อการทดลองครั้งต่อไปเป็นเพียงกรณีพิเศษหนึ่งของการออกแบบการทดลองโดยใช้แบบจำลอง Bayesian เป็นเครื่องมือออกแบบไฮเปอร์ ฉันคิดว่าสิ่งที่ OP ขอคือการทำแผนที่ระหว่างโครงข่ายประสาทและการสร้างแบบจำลองแบบเบย์ในระดับ "เดียวกัน"
GuSuku

4

นี่อาจเป็นกระทู้เก่า แต่ก็ยังเป็นคำถามที่เกี่ยวข้อง

ตัวอย่างที่โดดเด่นที่สุดของการเชื่อมต่อระหว่าง Neural Networks (NN) และ Probabilistic Graphical Models (PGM) คือหนึ่งระหว่าง Boltzmann Machines (และรูปแบบที่ จำกัด เช่น BM, Deep BM ฯลฯ ) และ PGMs แบบไม่ระบุทิศทางของ Markov Random Field

ในทำนองเดียวกัน Belief Networks (และรูปแบบที่แตกต่างกันเช่น Deep BN ฯลฯ ) เป็นประเภทของ PGM ที่กำกับของกราฟ Bayesian

สำหรับข้อมูลเพิ่มเติมโปรดดู:

  1. Yann Lecun " การสอนเกี่ยวกับการเรียนรู้ด้วยพลังงาน " (2549)
  2. Yoshua Bengio, Ian Goodfellow และ Aaron Courville, "การเรียนรู้ลึก", Ch 16 & 20 (เตรียมหนังสือ, ในขณะที่เขียนนี้)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.