กรณีการใช้งานที่ทันสมัยของเครื่องจักร Boltzmann ที่ จำกัด (RBM's)?


16

ความเป็นมา:งานวิจัยสมัยใหม่จำนวนมากในช่วง 4 ปีที่ผ่านมา (โพสต์เล็กซ์เน็ต ) ดูเหมือนว่าจะไม่ได้ใช้การเตรียมการล่วงหน้าสำหรับเครือข่ายประสาทเทียมเพื่อให้ได้ผลลัพธ์การจำแนกประเภทที่ทันสมัย

ตัวอย่างเช่นผลลัพธ์อันดับต้น ๆ สำหรับผู้ที่จำไม่ได้ที่นี่มีเพียง 2 เอกสารจาก 50 อันดับแรกที่ดูเหมือนว่าจะใช้แบบจำลองกำเนิดซึ่งทั้งสองเป็น RBM เอกสารที่ได้รับรางวัลอีก 48 ฉบับเกี่ยวกับสถาปัตยกรรมการส่งต่อการเลือกปฏิบัติที่แตกต่างกันด้วยความพยายามอย่างมากในการค้นหาการเริ่มต้นน้ำหนักที่ดีขึ้น / แปลกใหม่และฟังก์ชั่นการเปิดใช้งานที่แตกต่างจาก sigmoid ที่ใช้ใน RBM

คำถาม:มีเหตุผลที่ทันสมัยในการใช้เครื่อง Boltzmann ที่ จำกัด อีกต่อไปหรือไม่?

หากไม่มีมีการดัดแปลงตามความเป็นจริงที่สามารถนำไปใช้กับสถาปัตยกรรมการส่งต่อฟีดเหล่านี้เพื่อสร้างเลเยอร์ใด ๆ

แรงจูงใจ:ฉันถามเพราะบางรุ่นที่ฉันเห็นมีให้ใช้งานโดยปกติจะเป็นรุ่นต่าง ๆ ใน RBM ไม่จำเป็นต้องมีคู่ที่แยกแยะความแตกต่างแบบอะนาล็อกที่ชัดเจนกับเลเยอร์ / โมเดลเชิงกำเนิดเหล่านี้และวีซ่าในทางกลับกัน ตัวอย่างเช่น:

  • mcRBM

  • ssRBM

  • CRBM (แม้ว่าใครจะเถียง CNN ที่ใช้ฟีดไปข้างหน้าสถาปัตยกรรมคือสถาปัตยกรรมแบบอะนาล็อกที่เลือกปฏิบัติ)

นอกจากนี้สิ่งเหล่านี้ก็ชัดเจนก่อน alexnet เช่นกันจาก 2010, 2011 และ 2009 ด้วยความเคารพ


3
เพื่อความสนุกของมันฉันได้สร้างฟีด generative ไปข้างหน้า NN ผ่านการถดถอยอัตโนมัติ power2predict.edublogs.org/2016/06/26/…
คริส

คำตอบ:


6

นี่เป็นคำถามแบบเก่า แต่เนื่องจากมันจะถามถึง 'แนวทางปฏิบัติที่ดีที่สุด' มากกว่าที่จะเป็นไปได้ในทางเทคนิค (เช่นไม่ต้องการการมุ่งเน้นการวิจัยมากเกินไป) แนวปฏิบัติที่ดีที่สุดในปัจจุบันจึงเป็นเช่น:

  • ปกติแล้ว RBM จะไม่ได้ใช้ในปัจจุบัน
  • ตัวแบบเชิงเส้น (การถดถอยเชิงเส้น, การถดถอยโลจิสติก) จะถูกใช้หากเป็นไปได้
  • มิฉะนั้นเครือข่ายส่งต่อลึกที่มีเลเยอร์เช่นเลเยอร์ที่เชื่อมต่ออย่างเต็มที่เลเยอร์ convolutional และขว้างในเลเยอร์การทำให้เป็นมาตรฐานบางประเภทเช่นดรอปเอาท์และการแบตช์มาตรฐาน
  • แน่นอนด้วยเลเยอร์การเปิดใช้งานในระหว่างปกติ ReLU แต่ tanh และ sigmoid จะใช้เกินไป
  • และอาจรวมถึงการรวมสูงสุดบางส่วน (ไม่เสมอไป: การรวมกำไรเฉลี่ยและอื่น ๆ ที่ใช้ด้วย)

สำหรับประเพณีการกำเนิดเทคนิคทั่วไป ได้แก่ :


1

ฉันเพิ่งพบบทความนี้ใน "Boltzmann Encoder Adversarial Machines" ซึ่งรวม RBMs กับ CNNs เป็นแบบจำลอง

ผู้เขียนแสดงว่ามันเป็น "ดีกว่า" ในทางคณิตศาสตร์และแสดงตัวอย่างของเล่นบางส่วนที่ BEAM ดูเหมือนจะมีความสามารถในการเรียนรู้การกระจายข้อมูลได้อย่างแม่นยำมากขึ้นเมื่อเทียบกับ GAN รุ่นอื่น ๆ

มาตรฐาน "โลกแห่งความเป็นจริง" ของใบหน้า CelebA นั้นน่าประทับใจน้อยกว่ามาก - มันไม่ชัดเจนว่า BEAM ทำได้ดีกว่าหรือดีกว่าหรือแม้แต่ GAN ยอดนิยมอื่น ๆ อย่างไรก็ตามการใช้ RBM ในการตั้งค่านี้น่าสนใจอย่างแน่นอน


คุณคิดว่าความล้มเหลวนี้เกิดจากพื้นที่การค้นหาของ BEAM เพื่อให้มีระดับความอิสระที่มากขึ้นภายในนิยามของรุ่นหรือไม่
Vass
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.