โมเดลกราฟิกและเครื่องจักร Boltzmann เกี่ยวข้องกับคณิตศาสตร์หรือไม่?


10

ในขณะที่ฉันได้ทำการเขียนโปรแกรมด้วยเครื่องจักร Boltzmann ในระดับฟิสิกส์จริง ๆ แล้วฉันไม่คุ้นเคยกับลักษณะทางทฤษฎีของพวกเขา ในทางตรงกันข้ามฉันรู้ว่าเป็นจำนวนเงินที่เจียมเนื้อเจียมตัวเกี่ยวกับทฤษฎีของแบบจำลองกราฟิก (ประมาณสองสามบทแรกของหนังสือเล่ม Lauritzen ของกราฟิกรุ่น )

คำถาม:มีความสัมพันธ์ที่มีความหมายระหว่างโมเดลกราฟิกและเครื่องจักร Boltzmann หรือไม่? เครื่อง Boltzmann เป็นรูปแบบกราฟิกหรือไม่?

เห็นได้ชัดว่าเครื่อง Boltzmann เป็นโครงข่ายประสาทประเภทหนึ่ง ฉันเคยได้ยินว่าเครือข่ายประสาทบางส่วนเกี่ยวข้องกับคณิตศาสตร์ในรูปแบบกราฟิกและบางเครือข่ายนั้นไม่ใช่

คำถามที่เกี่ยวข้องกับ CrossValidated ที่ไม่ตอบคำถามของฉัน:
คล้ายกับคำถามก่อนหน้านี้ที่ถูกถามมาก่อน: อะไรคือความสัมพันธ์ระหว่างโมเดลลำดับชั้นเครือข่ายประสาทเทียมโมเดลกราฟิกเครือข่ายแบบเบย์? แต่มีความเฉพาะเจาะจงมากขึ้น

ยิ่งกว่านั้นคำตอบที่ได้รับการยอมรับสำหรับคำถามนั้นไม่ได้ทำให้ฉันสับสน - แม้ว่าโหนดในการแสดงกราฟิกมาตรฐานของโครงข่ายประสาทเทียมไม่ได้เป็นตัวแทนของตัวแปรแบบสุ่มซึ่งไม่ได้หมายความว่าไม่มีตัวแทนดังกล่าวอยู่จริง โดยเฉพาะฉันคิดว่าโหนดในการแสดงกราฟิกทั่วไปของห่วงโซ่มาร์คอฟเป็นตัวแทนของชุดของสถานะที่เป็นไปได้มากกว่าตัวแปรสุ่มแต่ก็สามารถสร้างกราฟที่แสดงความสัมพันธ์แบบพึ่งพาเงื่อนไขระหว่างXiXiซึ่งแสดงให้เห็นว่าห่วงโซ่มาร์คอฟทุกอันที่จริงแล้วเป็นสนามสุ่มของมาร์คอฟ คำตอบยังบอกอีกว่าเครือข่ายประสาท (สันนิษฐานรวมถึงเครื่อง Boltzmann) เป็น "พินิจพิเคราะห์" แต่ไม่ได้เข้าไปดูรายละเอียดเพิ่มเติมเพื่ออธิบายสิ่งที่อ้างว่าหมายถึงและคำถามที่ตามมาอย่างชัดเจน จ่าหน้า ในทำนองเดียวกันคำตอบที่ได้รับการยอมรับเชื่อมโยงไปยังเว็บไซต์ของ Kevin Murphy (ฉันอ่านวิทยานิพนธ์ปริญญาเอกของเขาเมื่อเรียนรู้เกี่ยวกับเครือข่าย Bayesian) แต่เว็บไซต์นี้พูดถึงเครือข่าย Bayesian เท่านั้นและไม่ได้กล่าวถึงเครือข่ายประสาทเลย - แตกต่าง.

คำถามอื่น ๆ นี้อาจคล้ายกับของฉันมากที่สุด: การสร้างแบบจำลองทางคณิตศาสตร์แบบโครงข่ายประสาทเทียมเป็นแบบกราฟิกอย่างไรก็ตามไม่มีคำตอบใด ๆ ที่ได้รับการยอมรับและในทำนองเดียวกันก็ให้การอ้างอิง แต่ไม่ได้อธิบายการอ้างอิง (เช่นคำตอบนี้ ) ในขณะที่วันหนึ่งฉันหวังว่าฉันจะสามารถเข้าใจการอ้างอิงได้ตอนนี้ฉันอยู่ในระดับพื้นฐานของความรู้และจะขอบคุณคำตอบที่ง่ายที่สุดเท่าที่จะทำได้ นอกจากนี้หลักสูตรโตรอนโตที่เชื่อมโยงกับคำตอบยอดนิยม ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ) ได้กล่าวถึงเรื่องนี้ แต่ไม่มีรายละเอียดมากนัก นอกจากนี้บันทึกย่อสำหรับการบรรยายครั้งเดียวซึ่งอาจตอบคำถามของฉันไม่ได้เผยแพร่ต่อสาธารณชน

25 มีนาคมการบรรยาย 13b: ความเชื่อมุ้ง 7:43 สำหรับสไลด์นี้โปรดจำไว้ว่า Boltzmann Machines ที่นั่นเช่นกันเรามีหน่วยที่ซ่อนอยู่และหน่วยที่มองเห็นได้และก็น่าจะเป็นทั้งหมด BMs และ SBN มีความเหมือนกันมากกว่าพวกเขามีความแตกต่าง 09:16 ทุกวันนี้ "แบบจำลองกราฟิก" บางครั้งถือเป็นประเภทพิเศษของเครือข่ายประสาท แต่ในประวัติศาสตร์ที่อธิบายไว้ที่นี่พวกเขาถูกพิจารณาว่าเป็นระบบที่แตกต่างกันมาก

คำตอบ:


7

เครื่อง Boltzmann เทียบกับเครื่อง Boltzmann ที่ถูก จำกัด

AFAIK เครื่อง Boltzmann เป็นรูปแบบกราฟิกและโมเดลที่เกี่ยวข้องกับเครือข่ายประสาทเทียมเป็นเครื่อง Boltzmann ที่ จำกัด (RBM)

ความแตกต่างระหว่างเครื่อง Boltzmann และเครื่อง Boltzmann ที่ จำกัด จากหนังสือMachine Learning A Probabilistic Perspective ป้อนคำอธิบายรูปภาพที่นี่

RBMs กับเน็ตเวิร์กประสาท

สำหรับ RBMs (อ้างอิง: คู่มือปฏิบัติเพื่อการฝึกอบรมเครื่อง Boltzmann ที่ถูก จำกัด โดย Geoffrey Hinton ) โดยที่และสอดคล้องกับหน่วยที่มองเห็นและซ่อนอยู่ในรูปด้านบนและเป็นฟังก์ชัน Sigmoid

p(v,h)=1Zexp(aivi+bjhj+vihjwij)
p(hj=1|v)=σ(bj+viwij)
p(vi=1|h)=σ(ai+hjwij)
vhσ()

ความน่าจะเป็นแบบมีเงื่อนไขจะถูกคำนวณในรูปแบบของเลเยอร์เครือข่ายเดียวกันดังนั้นน้ำหนักของ RBMs ที่ผ่านการฝึกอบรมสามารถนำมาใช้โดยตรงเป็นน้ำหนักของเครือข่ายประสาทหรือเป็นจุดเริ่มต้นของการฝึกอบรม

ฉันคิดว่า RBM นั้นเป็นแบบกราฟิกมากกว่าประเภทของโครงข่ายประสาทเนื่องจากมันไม่ได้บอกทิศทางมันมีความเป็นอิสระตามเงื่อนไขที่กำหนดไว้และใช้อัลกอริธึมการฝึกอบรมของตัวเอง (เช่น contrastive divergence)


2
Nice นี่เป็นคำตอบที่ดีมากพร้อมการอ้างอิงที่ดี นอกจากนี้ยังทำให้ฉันอยากที่จะอ่านหนังสือของศาสตราจารย์เมอร์ฟีด้วยเร็วกว่านี้ ฉันขอขอบคุณเวลาที่คุณตอบคำถามนี้อย่างละเอียด
Chill2Macht

2
@William ดีใจที่จะได้รับการช่วยเหลือ :)
dontloo

2
คำตอบที่ดี. คุณช่วยจัดทำเอกสารเกี่ยวกับสัญกรณ์อีกเล็กน้อยได้ไหม? (ฉันเพิ่งอ่านบางสิ่งที่เกี่ยวข้องฉันเดาดังนั้นฉันจึงรู้จักโหนดที่มองเห็น,โหนดที่ซ่อนอยู่,ฟังก์ชั่นการขนส่ง แต่คนอื่นอาจไม่ได้) นอกจากนี้อาจเป็นการดีที่จะรวมการอ้างอิงแบบเต็มเพื่อป้องกันลิงก์ -เน่า. v=h=σ()=
GeoMatt22

2
@ GeoMatt22 ขอบคุณฉันได้อัปเดตคำตอบแล้ว
dontloo

3

นี่เป็นเพียงการยืนยัน / ตรวจสอบคำตอบที่ยอมรับว่าเครื่องจักร Boltzmann เป็นกรณีพิเศษของแบบจำลองกราฟิก โดยเฉพาะคำถามนี้จะถูกกล่าวถึงในหน้า 127-127 ของ Koller, Friedman, โมเดลกราฟิกที่น่าจะเป็น: หลักการและเทคนิคในกล่อง 4. ค

หนึ่งในรูปแบบเครือข่ายมาร์คอฟประเภทแรกคือโมเดลไอซิ่งซึ่งเกิดขึ้นครั้งแรกในฟิสิกส์เชิงสถิติเป็นแบบจำลองสำหรับพลังงานของระบบกายภาพที่เกี่ยวข้องกับระบบของอะตอมที่มีปฏิสัมพันธ์ ... ที่เกี่ยวข้องกับโมเดลไอซิ่งคือการกระจายเครื่องจักร Boltzmann .. . พลังงานที่เกิดขึ้นสามารถถูกปรับรูปแบบใหม่ในแบบจำลองไอซิ่ง (แบบฝึกหัด 4.12)

แบบจำลองไอซิ่งซึ่งเดิมเป็นแนวคิดจากวรรณคดีกลศาสตร์สถิติสามารถกำหนดเป็นแบบจำลองแบบกราฟิกที่ให้รายละเอียดมากในตัวอย่างที่ 3.1., ส่วน 3.3., บนหน้า 41-43 ของ Wainwright, Jordan, Graphical Models, Exponential ครอบครัวและการอนุมานที่หลากหลาย

เห็นได้ชัดว่า Ising แบบเป็นเครื่องมือในการวางรากฐานของด้านของรูปแบบกราฟิกในช่วงปลายปี 1970 และต้นปี 1980 อย่างน้อยขึ้นอยู่กับสิ่ง Steffen Lauritzen กล่าวทั้งในบทและแนะนำให้รู้จักกับหนังสือของเขารุ่นกราฟิก ดูเหมือนว่าการตีความนี้จะได้รับการสนับสนุนโดยมาตรา 4.8 ในหนังสือที่อ้างถึงข้างต้น Koller และ Friedman

การพัฒนาเครื่องจักร Boltzmann จากแบบจำลอง Ising อาจเป็นเหตุการณ์อิสระตามส่วนเดียวกันของ Koller และ Friedman เช่นกันซึ่งอ้างว่า "เครื่องจักร Boltzmann ถูกเสนอครั้งแรกโดย Hinton และ Sejnowski (1983)" ซึ่งดูเหมือนว่าจะมี เกิดขึ้นหลังจากงานเริ่มต้นในการพัฒนาเขตข้อมูลสุ่มของมาร์คอฟเป็นภาพรวมของโมเดลไอซิ่งแม้ว่างานด้านหลังกระดาษนั้นจะเริ่มเร็วกว่าปี 1983 มาก


ความสับสนของฉันเกี่ยวกับความสัมพันธ์นี้เมื่อฉันเขียนคำถามนี้มานานกว่าหนึ่งปีที่ผ่านมาเกิดจากความจริงที่ว่าฉันได้พบทั้งแบบจำลองไอซิงและโมเดลเครื่องจักร Boltzmann สำหรับเซลล์ประสาทในวรรณคดีฟิสิกส์ครั้งแรก ดังที่ Koller และ Friedman พูดถึงวรรณคดีในชุมชนฟิสิกส์เชิงสถิติเกี่ยวกับรูปแบบไอซิงและแนวคิดที่เกี่ยวข้องนั้นกว้างใหญ่อย่างแท้จริง

จากประสบการณ์ของฉันมันก็ค่อนข้างโดดเดี่ยวในแง่ที่ว่าในขณะที่นักสถิติและนักวิทยาศาสตร์คอมพิวเตอร์ที่ศึกษาแบบจำลองกราฟิกจะพูดถึงว่าสนามเกี่ยวข้องกับกลศาสตร์ทางสถิติหรือไม่ฉันไม่เคยพบการอ้างอิงจากวรรณคดีเชิงสถิติทางฟิสิกส์ พยายามใช้ประโยชน์จากมัน (ด้วยเหตุนี้ทำให้ฉันสงสัยและสับสนโดยความคิดที่ว่าอาจมีการเชื่อมต่อไปยังสาขาอื่น ๆ )

สำหรับตัวอย่างของมุมมองของนักฟิสิกส์ทั้งในรูปแบบของ Ising และเครื่อง Boltzmann ให้ดูหนังสือเรียนจากหลักสูตรที่ฉันเรียนรู้มันเป็นครั้งแรก นอกจากนี้ยังกล่าวถึงวิธีการภาคสนามถ้าฉันจำได้อย่างถูกต้องมีการพูดถึงบางอย่างเช่นกันในบทความจอร์แดนและเวนไรท์ที่อ้างถึงข้างต้น


2
การเชื่อมต่ออาจจะบางมากและส่วนใหญ่ขึ้นอยู่กับการใช้ฟังก์ชั่นพาร์ทิชันซึ่งเป็นที่ฐานของกลศาสตร์สถิติและการชี้แจงของผลรวมของผลิตภัณฑ์ภายใน ฟังก์ชั่น softmax ยังใช้แบบฟอร์มนี้ด้วยเหตุนี้ nomenaclature จึงรักษามรดกของข้อตกลงและนักฟิสิกส์หลายคนทำงาน (ed) ใน ML (เช่น Christopher Bishop)
Vass
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.