"ทฤษฎีแคปซูล" ของฮินตันทำงานอย่างไร


34

Geoffrey Hinton ได้ทำการค้นคว้าสิ่งที่เขาเรียกว่า "ทฤษฎีแคปซูล" ในเครือข่ายประสาทเทียม มันคืออะไรและมันทำงานอย่างไร


8
ตอนนี้บทความนี้สามารถดูได้ที่: arxiv.org/abs/1710.09829 Dynamic Routing ระหว่าง Capsules Sara Sabour, Nicholas Frosst, Geoffrey E Hinton
Danke Xie

1
มีคำถามที่เกี่ยวข้องกับข้อมูลที่ใหม่กว่า (พฤศจิกายน 2560): อะไรคือแนวคิดหลักของ Capsule Networks
mjul

คำตอบ:


30

ดูเหมือนว่าจะยังไม่ได้เผยแพร่ ออนไลน์ที่ดีที่สุดคือสไลด์เหล่านี้สำหรับการพูดคุยนี้ (หลายคนอ้างถึงการพูดคุยกับลิงค์นี้ก่อนหน้านี้แต่น่าเศร้าที่มันขาดในเวลาที่เขียนคำตอบนี้)

ความประทับใจของฉันคือมันเป็นความพยายามที่จะทำให้เป็นทางการและเป็นนามธรรมในการสร้างเครือข่ายย่อยภายในเครือข่ายประสาท นั่นคือถ้าคุณดูที่เครือข่ายนิวรัลมาตรฐานเลเยอร์จะเชื่อมต่อกันอย่างสมบูรณ์ (นั่นคือทุกเซลล์ประสาทในเลเยอร์ 1 สามารถเข้าถึงนิวรอนทุกตัวในเลเยอร์ 0 และเข้าถึงได้จากทุกเซลล์ในเลเยอร์ 2) แต่มันไม่ได้มีประโยชน์ชัดเจน หนึ่งอาจมีแทนพูดnกองซ้อนขนาน ('แคปซูล') ที่แต่ละคนเชี่ยวชาญในงานแยกบางอย่าง (ซึ่งอาจต้องใช้มากกว่าหนึ่งชั้นเพื่อให้สำเร็จ)

ถ้าฉันจินตนาการผลลัพธ์ของมันอย่างถูกต้องโทโพโลยีกราฟที่ซับซ้อนกว่านี้ดูเหมือนว่าบางสิ่งที่สามารถเพิ่มประสิทธิภาพและความสามารถในการตีความของเครือข่ายผลลัพธ์ได้อย่างง่ายดาย


9
ตอนนี้ตีพิมพ์ตอนนี้ (ต.ค. 2560): arxiv.org/pdf/1710.09829.pdf
machinaut

13

เพื่อเสริมคำตอบก่อนหน้านี้: มีบทความเกี่ยวกับเรื่องนี้เป็นส่วนใหญ่เกี่ยวกับการเรียนรู้แคปซูลระดับต่ำจากข้อมูลดิบ แต่อธิบายแนวคิดของ Hinton เกี่ยวกับแคปซูลในส่วนเริ่มต้น: http://www.cs.toronto.edu/~ ฟริตซ์ / absps / transauto6.pdf

นอกจากนี้ยังเป็นที่น่าสังเกตว่าการเชื่อมโยงไปยัง MIT พูดคุยในคำตอบข้างต้นดูเหมือนจะทำงานได้อีกครั้ง

จากการอ้างอิงของฮินตัน "แคปซูล" เป็นเซตย่อยของเซลล์ประสาทภายในเลเยอร์ที่ส่งออกทั้ง "พารามิเตอร์การสร้างอินสแตนซ์" เพื่อระบุว่ามีเอนทิตีอยู่ภายในโดเมนที่ จำกัด และเวกเตอร์ของ "โพสต์พารามิเตอร์" รุ่นมาตรฐาน

พารามิเตอร์ที่ส่งออกโดยแคปซูลระดับต่ำจะถูกแปลงเป็นการคาดการณ์สำหรับรูปแบบของเอนทิตีที่แสดงโดยแคปซูลระดับสูงซึ่งจะเปิดใช้งานหากการคาดการณ์เห็นด้วยและส่งออกพารามิเตอร์ของตนเอง (พารามิเตอร์โพสท่าระดับสูงกว่าเป็นค่าเฉลี่ยของการทำนายที่ได้รับ )

Hinton คาดการณ์ว่าการตรวจจับเรื่องบังเอิญในมิติสูงนี้คือสิ่งที่องค์กรขนาดเล็กในสมองใช้ เป้าหมายหลักของเขาดูเหมือนจะแทนที่การรวมกำไรสูงสุดที่ใช้ในเครือข่าย convolutional ซึ่งเลเยอร์ที่ลึกกว่านั้นสูญเสียข้อมูลเกี่ยวกับการโพสท่า


4

เครือข่ายแคปซูลพยายามเลียนแบบการสังเกตของสมองมนุษย์บนเครื่อง แรงจูงใจเกิดจากความจริงที่ว่าโครงข่ายประสาทต้องการการสร้างแบบจำลองที่ดีขึ้นของความสัมพันธ์เชิงพื้นที่ของชิ้นส่วน แทนที่จะสร้างแบบจำลองการอยู่ร่วมกันโดยไม่คำนึงถึงการวางตำแหน่งสัมพัทธ์เครือข่ายแคปซูลพยายามจำลองการแปลงสัมพัทธ์ทั่วโลกของชิ้นส่วนย่อยที่แตกต่างกันตามลำดับชั้น นี่คือ eqivariance เทียบกับการแลกเปลี่ยน invariance ตามที่อธิบายไว้ข้างต้นโดยคนอื่น ๆ

เครือข่ายเหล่านี้จึงรวมถึงการรับรู้มุมมอง / การวางแนวและตอบสนองต่อทิศทางที่แตกต่างกัน คุณสมบัตินี้ทำให้พวกเขาเลือกปฏิบัติได้มากขึ้นในขณะที่อาจแนะนำความสามารถในการทำการประมาณค่าเนื่องจากคุณลักษณะที่แฝงอยู่ในพื้นที่ประกอบด้วยการตีความและมีรายละเอียดเฉพาะ

ทั้งหมดนี้ทำได้โดยการรวมเลเยอร์ที่ซ้อนกันที่เรียกว่า capsules ภายในเลเยอร์แทนการต่อเชื่อมเลเยอร์อื่นในเครือข่าย แคปซูลเหล่านี้สามารถให้เอาต์พุตเวกเตอร์แทนสเกลาร์เดียวต่อโหนด

การสนับสนุนที่สำคัญของบทความคือการกำหนดเส้นทางแบบไดนามิกซึ่งแทนที่การรวมกำไรสูงสุดโดยกลยุทธ์อัจฉริยะ อัลกอริทึมนี้ใช้การจัดกลุ่มค่าเฉลี่ยการเปลี่ยนแปลงบนเอาต์พุตแคปซูลเพื่อให้แน่ใจว่าผลลัพธ์ที่ได้รับจะถูกส่งไปยังผู้ปกครองที่เหมาะสมในชั้นด้านบนเท่านั้น

ผู้เขียนยังมีส่วนร่วมกับการสูญเสียกำไรและการสูญเสียการฟื้นฟูซึ่งในเวลาเดียวกันช่วยในการเรียนรู้งานได้ดีขึ้นและแสดงผลลัพธ์ที่ทันสมัยของ MNIST

ล่าสุดกระดาษเป็นชื่อเส้นทางแบบไดนามิกระหว่างแคปซูล และสามารถใช้ได้บน arXiv: https://arxiv.org/pdf/1710.09829.pdf


3

ขึ้นอยู่กับกระดาษDynamic Routing ระหว่าง Capsules

แคปซูลเป็นกลุ่มของเซลล์ประสาทที่มีเวกเตอร์กิจกรรมแสดงถึงพารามิเตอร์การสร้างอินสแตนซ์ของเอนทิตีประเภทเฉพาะเช่นวัตถุหรือส่วนของวัตถุ เราใช้ความยาวของเวกเตอร์กิจกรรมเพื่อแสดงความน่าจะเป็นที่มีอยู่ของเอนทิตีและการวางแนวของมันเพื่อเป็นตัวแทนของการสร้างอินสแตนซ์ แคปซูลที่แอคทีฟที่ระดับหนึ่งทำการทำนายผ่านการแปลงเมทริกซ์สำหรับพารามิเตอร์การสร้างอินสแตนซ์ของแคปซูลระดับสูง เมื่อการคาดการณ์หลายครั้งยอมรับแคปซูลระดับสูงจะเริ่มทำงาน เราแสดงให้เห็นว่าระบบแคปซูลหลายชั้นที่ผ่านการฝึกอบรมอย่างไม่เลือกปฏิบัตินั้นได้รับการปฏิบัติที่ทันสมัยบน MNIST และดีกว่าเครือข่ายการสนทนาที่รับรู้ตัวเลขที่ทับซ้อนกันอย่างมาก เพื่อให้บรรลุผลลัพธ์เหล่านี้เราใช้กลไกการกำหนดเส้นทางซ้ำตามข้อตกลง: แคปซูลระดับล่างชอบที่จะส่งออกไปยังแคปซูลในระดับที่สูงขึ้นซึ่งเวกเตอร์กิจกรรมมีผลิตภัณฑ์สเกลาร์ขนาดใหญ่ที่มีการคาดการณ์มาจากแคปซูลระดับล่าง บทความฉบับสุดท้ายอยู่ภายใต้การแก้ไขเพื่อทบทวนความคิดเห็นของผู้ตรวจสอบ


2
คำตอบที่ดีมักจะเป็นมากกว่าคำพูด โดยปกติคุณสามารถเรียกคืนได้อย่างชัดเจนยิ่งขึ้นหรือลึกลงไปอีก แทบจะไม่ได้เป็นเพียงคำพูดทั้งหมดที่จะทำให้คำตอบที่ดี คุณคิดว่าคุณสามารถปรับปรุงสิ่งนี้ได้เพียงเล็กน้อยโดยการแก้ไขไอเอ็นจี?
user58

3

หนึ่งในข้อดีที่สำคัญของเครือข่ายประสาทเทียม Convolutional คือค่าคงที่ในการแปล อย่างไรก็ตามความไม่แน่นอนนี้มาพร้อมกับราคาและไม่ได้พิจารณาว่าคุณลักษณะที่แตกต่างกันนั้นเกี่ยวข้องกันอย่างไร ตัวอย่างเช่นหากเรามีภาพใบหน้าซีเอ็นเอ็นจะมีปัญหาในการแยกความสัมพันธ์ระหว่างคุณลักษณะปากและคุณลักษณะจมูก เลเยอร์รวมกำไรสูงสุดเป็นสาเหตุหลักของเอฟเฟกต์นี้ เพราะเมื่อเราใช้เลเยอร์ร่วมกันสูงสุดเราสูญเสียตำแหน่งที่แม่นยำของปากและเสียงและเราไม่สามารถบอกได้ว่าพวกมันเกี่ยวข้องกันอย่างไร

แคปซูลพยายามรักษาประโยชน์ของ CNN และแก้ไขข้อเสียนี้ในสองวิธี;

  1. ค่าคงที่: การอ้างอิงจากบทความนี้

เมื่อแคปซูลทำงานอย่างถูกต้องความน่าจะเป็นของเอนทิตีที่ปรากฏอยู่นั้นไม่แปรเปลี่ยนไปจากภายใน - มันจะไม่เปลี่ยนแปลงเมื่อเอนทิตีเคลื่อนผ่านบริเวณที่มีลักษณะที่เป็นไปได้ภายในขอบเขตที่ จำกัด ของแคปซูล

กล่าวอีกนัยหนึ่งแคปซูลคำนึงถึงการมีอยู่ของคุณลักษณะเฉพาะที่เรากำลังมองหาเช่นปากหรือจมูก คุณสมบัตินี้ทำให้แน่ใจได้ว่าแคปซูลนั้นมีค่าคงที่การแปลเหมือนกับ CNN

  1. Equivariance: แทนที่จะสร้างการแปรปรวนของคุณสมบัติการแปล, แคปซูลจะทำให้การแปลเท่ากับหรือมุมมองที่เท่ากับการแปล กล่าวอีกนัยหนึ่งเมื่อคุณลักษณะย้ายและเปลี่ยนตำแหน่งในภาพการแสดงคุณสมบัติของเวกเตอร์จะเปลี่ยนไปในลักษณะเดียวกันซึ่งทำให้เกิดความเท่าเทียมกัน คุณสมบัติของแคปซูลนี้พยายามแก้ไขข้อเสียเปรียบของเลเยอร์รวมกำไรสูงสุดที่ฉันได้กล่าวถึงในตอนแรก
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.