รูปแบบที่มีศักยภาพในการแทนที่เครือข่ายประสาทในอนาคตอันใกล้คืออะไร?


10

มีแบบจำลองที่เป็นไปได้ที่มีศักยภาพในการแทนที่โครงข่ายประสาทเทียมในอนาคตอันใกล้นี้หรือไม่?

และเราต้องการมันด้วยหรือไม่ อะไรคือสิ่งที่แย่ที่สุดเกี่ยวกับการใช้โครงข่ายประสาทเทียมในแง่ของประสิทธิภาพ?

คำตอบ:


4

นี่กำลังย้อนกลับ แต่มันเป็นไปตามตรรกะของข้อโต้แย้ง

ในแง่ของประสิทธิภาพฉันสามารถเห็นปัญหาสำคัญสองสามอย่างกับโครงข่ายประสาทเทียม

การรวบรวมข้อมูลและค่าใช้จ่ายในการประมวลผลล่วงหน้า

เครือข่ายประสาทขนาดใหญ่ต้องการข้อมูลจำนวนมากในการฝึกอบรม จำนวนเงินอาจแตกต่างกันไปขึ้นอยู่กับขนาดของเครือข่ายและความซับซ้อนของงาน แต่ตามกฎทั่วไปมันมักจะเป็นสัดส่วนกับจำนวนน้ำหนัก สำหรับงานการเรียนรู้ภายใต้การดูแลมีข้อมูลที่มีคุณภาพไม่เพียงพอ การรวบรวมข้อมูลการฝึกอบรมเฉพาะจำนวนมากอาจใช้เวลาเป็นเดือนหรือเป็นปีและการติดฉลากอาจยุ่งยากและไม่น่าเชื่อถือ สิ่งนี้สามารถลดลงได้บางส่วนโดยการเพิ่มข้อมูลซึ่งหมายความว่า "สังเคราะห์" ตัวอย่างเพิ่มเติมจากสิ่งที่คุณมีอยู่แล้ว แต่ไม่ใช่ยาครอบจักรวาล

เวลาการฝึกอบรมเทียบกับการแลกเปลี่ยนพลังงาน

อัตราการเรียนรู้มักจะค่อนข้างเล็กดังนั้นความคืบหน้าของการฝึกอบรมจึงช้า แบบจำลองขนาดใหญ่ที่อาจต้องใช้เวลานานหลายสัปดาห์ในการฝึกอบรมบนเดสก์ท็อปซีพียูนั้นสามารถฝึกอบรมได้สองชั่วโมงโดยการใช้กลุ่ม GPU ซึ่งใช้พลังงานหลายกิโลวัตต์ นี่คือการแลกเปลี่ยนขั้นพื้นฐานเนื่องจากลักษณะของขั้นตอนการฝึกอบรม ที่กล่าวว่า GPUs มีประสิทธิภาพมากขึ้น - ตัวอย่างเช่นสถาปัตยกรรมnVidia Volta GPU ใหม่อนุญาตให้มี TFLOP 15.7 TF.7 ในขณะที่ใช้พลังงานน้อยกว่า 300 W

Non-transferrability

ในขณะนี้ปัญหาที่แตกต่างกันทุกอย่างต้องใช้เครือข่ายประสาทที่กำหนดเองเพื่อออกแบบฝึกอบรมและปรับใช้ ในขณะที่วิธีแก้ปัญหาใช้งานได้บ่อยครั้งมันก็ถูกล็อคไว้กับปัญหานั้น ตัวอย่างเช่นAlphaGoนั้นยอดเยี่ยมที่ Go แต่มันจะสิ้นหวังในการขับขี่รถยนต์หรือให้คำแนะนำเกี่ยวกับดนตรี - มันไม่ได้ออกแบบมาสำหรับงานดังกล่าว ความซ้ำซ้อนที่ท่วมท้นนี้เป็นอุปสรรคสำคัญของเครือข่ายประสาทเทียมในมุมมองของฉันและมันก็เป็นอุปสรรคสำคัญต่อความก้าวหน้าของการวิจัยเครือข่ายประสาทโดยทั่วไป มีพื้นที่วิจัยทั้งหมดที่เรียกว่าการเรียนรู้การถ่ายโอนซึ่งเกี่ยวข้องกับการค้นหาวิธีในการใช้เครือข่ายที่ได้รับการฝึกอบรมในงานหนึ่งเพื่องานที่แตกต่าง บ่อยครั้งที่สิ่งนี้เกี่ยวข้องกับข้อเท็จจริงที่ว่าอาจมีข้อมูลไม่เพียงพอในการฝึกอบรมเครือข่ายตั้งแต่เริ่มต้นในภารกิจที่สองดังนั้นความสามารถในการใช้โมเดลที่ได้รับการฝึกฝนมาก่อน


ส่วนแรกของคำถามนั้นยากกว่า จากแบบจำลองทางสถิติหมดจดฉันไม่ได้เห็นวิธีการที่โดดเด่นในการเรียนรู้ของเครื่องที่แตกต่างอย่างสิ้นเชิงจากเครือข่ายประสาท อย่างไรก็ตามมีการพัฒนาที่น่าสนใจที่น่ากล่าวถึงเพราะพวกเขากล่าวถึงความไร้ประสิทธิภาพข้างต้น

ชิป Neuromorphic

พื้นหลังเล็กน้อยก่อน

เครือข่าย Spikingมีศักยภาพมหาศาลในแง่ของพลังการคำนวณ ในความเป็นจริงมันได้รับการพิสูจน์แล้วว่าพวกเขามีประสิทธิภาพมากกว่าเครือข่ายประสาทแบบดั้งเดิมที่มีการเปิดใช้งาน sigmoid อย่างเคร่งครัด

ยิ่งไปกว่านั้นเครือข่ายประสาทที่รวดเร็วมีความเข้าใจในเวลา - สิ่งที่เป็นอุปสรรค์สำคัญสำหรับเครือข่ายคลาสสิกตั้งแต่เริ่มก่อตั้ง ไม่เพียงแค่นั้น แต่เครือข่ายความตื่นเต้นนั้นขับเคลื่อนด้วยเหตุการณ์ซึ่งหมายความว่าเซลล์ประสาททำงานเฉพาะเมื่อมีสัญญาณเข้ามาเท่านั้น สิ่งนี้ตรงกันข้ามกับเครือข่ายแบบคลาสสิกที่มีการประเมินแต่ละเซลล์ประสาทโดยไม่คำนึงถึงข้อมูลของมัน (อีกครั้งนี่เป็นเพียงผลที่ตามมาของขั้นตอนการประเมินผลที่มักจะถูกนำมาใช้เป็นทวีคูณของเมทริกซ์หนาแน่นสองตัว) ดังนั้นเครือข่าย spiking จึงใช้รูปแบบการเข้ารหัสแบบเบาบางซึ่งหมายความว่ามีเพียงส่วนเล็ก ๆ ของเซลล์ประสาทที่ทำงานในเวลาที่กำหนด

ตอนนี้การเข้ารหัสและเหตุการณ์ที่ขับเคลื่อนด้วยการดำเนินการขัดขวางตามป่าโปร่งเหมาะสำหรับการใช้งานฮาร์ดแวร์ที่ใช้เครือข่ายองศาเรียกว่าชิป neuromorphic ตัวอย่างเช่นชิปTrueNorthของไอบีเอ็มสามารถจำลอง1 ล้านเซลล์ประสาทและการเชื่อมต่อ 256 ล้านขณะที่ดึงพลังงานโดยเฉลี่ยประมาณ100 mWเท่านั้น นี่คือคำสั่งของขนาดที่มีประสิทธิภาพมากกว่า GPU nVidia ปัจจุบัน ชิป Neuromorphic อาจเป็นวิธีแก้ปัญหาเวลาฝึกอบรม / การแลกเปลี่ยนพลังงานที่ฉันกล่าวไว้ข้างต้น

นอกจากนี้memristorsเป็นการพัฒนาที่ค่อนข้างใหม่ แต่มีแนวโน้มมาก โดยพื้นฐานแล้ว memristor เป็นองค์ประกอบวงจรพื้นฐานที่คล้ายกับตัวต้านทาน แต่มีความต้านทานผันแปรตามสัดส่วนกับจำนวนรวมของกระแสไฟฟ้าที่ไหลผ่านมันไปตลอดอายุการใช้งาน เป็นหลักซึ่งหมายความว่ามันจะรักษา "หน่วยความจำ" ของปริมาณปัจจุบันที่ผ่านมัน หนึ่งในแอพพลิเคชั่นที่น่าสนใจของ memristors คือการสร้างแบบจำลองซิงก์ในฮาร์ดแวร์อย่างมีประสิทธิภาพอย่างยิ่ง

เสริมการเรียนรู้และวิวัฒนาการ

ฉันคิดว่าสิ่งเหล่านี้มีมูลค่าการกล่าวขวัญเพราะพวกเขามีแนวโน้มที่ผู้สมัครที่จะแก้ไขปัญหาของการโอนไม่ สิ่งเหล่านี้ไม่ได้ จำกัด อยู่ที่เครือข่ายประสาทเทียม - การใช้รางวัลเป็นตัวขับเคลื่อน RL และวิวัฒนาการสามารถนำไปใช้ได้ในทางทฤษฎีในการตั้งค่าทั่วไปสำหรับงานใด ๆ ที่เป็นไปได้ในการกำหนดรางวัลหรือเป้าหมายสำหรับตัวแทนเพื่อให้บรรลุ สิ่งนี้ไม่จำเป็นที่จะต้องทำ แต่มันก็เป็นเรื่องธรรมดามากกว่าวิธีการที่เกิดข้อผิดพลาดซึ่งตัวแทนการเรียนรู้พยายามลดความแตกต่างระหว่างเอาท์พุทและความจริงพื้นฐาน ประเด็นหลักที่นี่เกี่ยวกับการเรียนรู้การถ่ายโอน: โดยหลักแล้วการใช้ตัวแทนที่ผ่านการฝึกอบรมมาเพื่องานที่แตกต่างกันนั้นควรจะง่ายพอ ๆ กับการเปลี่ยนเป้าหมายหรือรางวัล


"มีประสิทธิภาพมากกว่านี้อย่างเข้มงวด" เป็นสิ่งที่ Maass เขียนลงในกระดาษ 1996 ของเขา แต่เขาอ้างว่าความแม่นยำทางคณิตศาสตร์และไม่สามารถกำหนดพลังการคำนวณได้ นอกจากนี้ในปี 1996 ถูกเขียนขึ้นเมื่อฟังก์ชั่นการเปิดใช้งาน sigmoid เป็นที่นิยมซึ่งไม่ได้อยู่ในขณะนี้อย่างแม่นยำเพราะพวกเขาไม่ได้มาบรรจบกันสำหรับสถานการณ์ที่หลากหลายอย่างน่าเชื่อถือหรือเร็วกว่าฟังก์ชั่นการเปิดใช้งานที่ง่ายขึ้น Maass กล่าวถึงการบรรจบกันสองครั้งในกระดาษและไม่ได้ระบุว่าการบรรจบกันเกิดขึ้นได้อย่างไรยิ่งเป็นการเน้นย้ำถึงการขาดความหมายของพลังการคำนวณในแง่ของวัตถุประสงค์การเรียนรู้ของเครื่อง
FauChristian

การเชื่อมต่อระหว่าง RL และวิวัฒนาการไม่ชัดเจน คุณหมายถึงการรวมกันของอัลกอริทึมทางพันธุกรรมและ RL หรือไม่? ถ้าเป็นเช่นนั้นการอ้างอิงคืออะไร?
FauChristian

@FauChristian แม้ว่าคุณจะไม่ได้อ่านบทความทั้งหมด แต่ความแตกต่างของความสามารถในการคำนวณมีให้ในบทคัดย่อ (ประโยคที่สอง):In particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.
cantordust

@FauChristian Sigmoid การเปิดใช้งานยังคงมีชีวิตอยู่มากและเตะ ตัวอย่างเช่น LSTMs ใช้ sigmoid activaitons สำหรับประตู, softmax (sigmoids ปกติ) ยังคงเป็นสิ่งที่ดีที่สุดที่เรามีสำหรับการจัดหมวดหมู่หลายชั้น ฯลฯ การเปิดใช้งาน "เรียบง่าย" นั้นไม่จำเป็นต้องดีกว่าเดิม - ReLU ( max(0, x)) การติดขัดx < 0ส่งผลให้เซลล์ประสาทที่ตายแล้ว ประเด็นก็คือพลังในการคำนวณของมุ้ง spiking และการใช้งานฮาร์ดแวร์ที่มีประสิทธิภาพสูงในแง่ของการใช้พลังงาน
cantordust

@FauChristian ฉันไม่ได้วาดแนวระหว่าง RL และวิวัฒนาการ ฉันให้พวกเขาเป็นตัวอย่างของแนวทางที่มีแนวโน้มสำหรับการแก้ปัญหาความไร้ประสิทธิภาพบางประเภทนั่นคือการแก้ปัญหาด้วยมือ (ไม่ว่าจะเป็น NN หรืออย่างอื่น) สำหรับปัญหาทุกปัญหาที่คุณมี เป็นการดีที่คุณควรจะสามารถออกแบบตัวแก้ปัญหาทั่วไปซึ่งปรับโดย RL และ / หรือวิวัฒนาการโดยอัตโนมัติสำหรับปัญหาเฉพาะตามเป้าหมายระดับสูงเท่านั้น
cantordust

1

แทนที่ Neural Nets

อาจมีอัลกอริธึมใหม่ที่มีศักยภาพในการแทนที่อวนประสาท อย่างไรก็ตามหนึ่งในคุณสมบัติของมุ้งประสาทคือพวกเขาใช้องค์ประกอบที่เรียบง่ายซึ่งแต่ละคนมีความต้องการต่ำในการคำนวณทรัพยากรในรูปแบบทางเรขาคณิต

เซลล์ประสาทเทียมสามารถทำงานแบบขนาน (โดยไม่มีการแชร์เวลา CPU หรือลูป) โดยการแมปการคำนวณกับอุปกรณ์ DSP หรือฮาร์ดแวร์คอมพิวเตอร์แบบขนานอื่น ๆ เซลล์ประสาทจำนวนมากนั้นเหมือนกันจึงเป็นข้อได้เปรียบที่แข็งแกร่ง

เราจะเปลี่ยนอะไร

เมื่อเราพิจารณาการเปลี่ยนอัลกอริทึมเป็นอวนประสาทเราหมายความว่าการออกแบบตาข่ายประสาทเป็นอัลกอริทึม มันไม่ใช่.

โครงข่ายประสาทเป็นวิธีการรวมกันในวงจรเรียลไทม์เพื่อทำการแปลงแบบไม่เชิงเส้นของอินพุตไปยังเอาต์พุตตามสูตรของสิ่งที่เหมาะสมที่สุด สูตรดังกล่าวอาจเป็นการย่อขนาดของข้อผิดพลาดหรือความไม่เท่าเทียมกันจากอุดมคติบางประการ อาจเป็นเครื่องบ่งชี้สุขภาพที่ต้องขยายให้ใหญ่สุด

แหล่งที่มาของการกำหนดความเหมาะสมสำหรับพฤติกรรมเครือข่ายที่กำหนดอาจเป็นภายใน เราเรียกสิ่งนั้นว่าการเรียนรู้ที่ไม่มีผู้ดูแล อาจเป็นข้อมูลภายนอกซึ่งเราเรียกว่าการตรวจสอบเมื่อข้อมูลฟิตเนสภายนอกมีการเชื่อมโยงกับเวกเตอร์อินพุตในรูปแบบของค่าผลลัพธ์ที่ต้องการซึ่งเราเรียกว่าป้ายกำกับ

ความเหมาะสมอาจเกิดจากภายนอกเช่นเกลาหรือเวกเตอร์ที่ไม่ได้เชื่อมโยงกับข้อมูลอินพุต แต่เป็นเวลาจริงซึ่งเราเรียกว่าการเสริมแรง ดังกล่าวต้องใช้อัลกอริทึมการเรียนรู้ผู้เข้าใหม่ ความเหมาะสมของพฤติกรรมสุทธิอาจถูกประเมินโดยอวนอื่นภายในระบบในกรณีของอวนที่ซ้อนกันหรือการกำหนดค่าอื่น ๆ เช่นลำดับชั้นของ Laplacian

การเลือกอัลกอริธึมจะทำอย่างไรกับปัญญาเชิงเปรียบเทียบเพียงเล็กน้อยเมื่อเลือกการออกแบบทางคณิตศาสตร์และกระบวนการ การออกแบบอัลกอริทึมเกี่ยวข้องโดยตรงกับการลดความต้องการทรัพยากรการคำนวณและลดความต้องการเวลา การย่อขนาดนี้ขึ้นอยู่กับฮาร์ดแวร์และระบบปฏิบัติการ

การเปลี่ยนเป็นการระบุไว้หรือไม่?

แน่ใจ มันจะดีกว่าถ้าเครือข่ายเป็นเหมือนเซลล์ประสาทของสัตว์เลี้ยงลูกด้วยนม

  • ความซับซ้อนของการเปิดใช้งาน
  • ความหลากหลายของรูปแบบการเชื่อมต่อ
  • ปั้นพลาสติกของการออกแบบเพื่อรองรับการปรับ meta
  • ควบคุมโดยการส่งสัญญาณระดับภูมิภาคหลายมิติ

โดยการส่งสัญญาณในระดับภูมิภาคมีความหมายว่าสัญญาณทางเคมีจำนวนมากนอกเหนือจากการส่งสัญญาณข้าม synapses

เราสามารถพิจารณานอกเหนือไปจากประสาทวิทยาของสัตว์เลี้ยงลูกด้วยนม

  • การรวมการเรียนรู้เชิงพารามิเตอร์และการเรียนรู้ด้วยสมมติฐาน
  • การเรียนรู้รูปแบบที่ใช้เมื่อจุลินทรีย์ผ่าน DNA

ประสิทธิภาพของ Neural Net

ประสิทธิภาพไม่สามารถวัดได้ในระดับสากลเนื่องจากอุณหภูมิสามารถวัดเป็นองศาเคลวินได้ ประสิทธิภาพสามารถวัดได้เป็นผลหารของค่าที่วัดได้บางอย่างในอุดมคติทางทฤษฎี โปรดทราบว่ามันเป็นอุดมคติไม่สูงสุดในตัวหาร ในเครื่องยนต์ทางอุณหพลศาสตร์อุดมคตินั้นคืออัตราการป้อนพลังงานซึ่งไม่สามารถถ่ายโอนไปยังเอาต์พุตได้อย่างเต็มที่

ในทำนองเดียวกันมุ้งประสาทไม่สามารถเรียนรู้ในเวลาศูนย์ ตาข่าย Neural ไม่สามารถบรรลุข้อผิดพลาดเป็นศูนย์ในเวลานานโดยพลการในการผลิตอย่างใดอย่างหนึ่ง ดังนั้นข้อมูลจึงอยู่ในรูปแบบของพลังงานแนวคิดของ Claude Shannon จาก Bell Labs ในช่วงรุ่งอรุณของระบบอัตโนมัติทางดิจิตอลและความสัมพันธ์ระหว่างเอนโทรปีของข้อมูลกับเอนโทรปีของเทอร์โมไดนามิกจึงเป็นส่วนสำคัญของฟิสิกส์เชิงทฤษฎี

ไม่มีประสิทธิภาพการเรียนรู้ที่ไม่ดีหรือประสิทธิภาพการเรียนรู้ที่ดี อาจไม่มีประสิทธิภาพที่ไม่ดีหรือประสิทธิภาพที่ดีหากเราต้องการคิดในแง่ตรรกะและวิทยาศาสตร์ - เพียงการปรับปรุงสัมพัทธ์ของการกำหนดค่าระบบบางส่วนเทียบกับการกำหนดค่าระบบอื่น ๆ สำหรับชุดสถานการณ์การปฏิบัติที่เฉพาะเจาะจง

ดังนั้นหากไม่มีข้อกำหนดที่ชัดเจนของฮาร์ดแวร์สองระบบปฏิบัติการและการกำหนดค่าซอฟต์แวร์และชุดทดสอบที่กำหนดอย่างสมบูรณ์ที่ใช้สำหรับการประเมินผลแบบสัมพันธ์ประสิทธิภาพจะไม่มีความหมาย


1

เรามีความหวังบางอย่างแฝงตัวอยู่ในหน้านั้น ณ ตอนนี้เรามีเครือข่ายแคปซูลโดย J.Hinton ซึ่งใช้การเปิดใช้งานแบบไม่เชิงเส้นที่เรียกว่าฟังก์ชั่น 'สควอช'

  1. Hinton เรียกการรวมกันสูงสุดในซีเอ็นเอ็นว่าเป็น 'ความผิดพลาดครั้งใหญ่' เนื่องจากซีเอ็นเอ็นมองหาวัตถุที่มีอยู่ในภาพมากกว่าการวางแนวสัมพัทธ์ระหว่างพวกเขา ดังนั้นพวกเขาจึงสูญเสียข้อมูลเชิงพื้นที่ในขณะที่พยายามทำให้เกิดความแปรปรวนของการแปล
  2. ตาข่ายประสาทมีการเชื่อมต่อคงที่ในขณะที่แคปซูลในเครือข่ายแคปซูล 'ตัดสินใจ' ซึ่งแคปซูลอื่นจะต้องผ่านการเปิดใช้งานในระหว่างยุคทุก สิ่งนี้เรียกว่า 'การกำหนดเส้นทาง'
  3. การเปิดใช้งานของทุกเซลล์ประสาทในมุ้งประสาทเป็นสเกลาร์ ในขณะที่การเปิดใช้งานแคปซูลเป็นเวกเตอร์ที่ถ่ายภาพท่าทางและทิศทางของวัตถุในภาพ
  4. ซีเอ็นเอ็นถือว่าเป็นตัวแทนที่ไม่ดีของระบบภาพมนุษย์ โดยระบบการมองเห็นของมนุษย์ฉันหมายถึงดวงตาและสมอง / ความรู้ความเข้าใจร่วมกัน เราสามารถระบุรูปปั้นเทพีเสรีภาพได้จากท่าใด ๆ แม้ว่าเราจะดูจากท่าเดียว ซีเอ็นเอ็นในกรณีส่วนใหญ่ไม่สามารถตรวจจับวัตถุเดียวกันในการโพสท่าและทิศทางที่แตกต่างกัน

เครือข่ายแคปซูลเองมีข้อบกพร่อง ดังนั้นจึงมีงานในทิศทางที่มองข้ามตาข่ายประสาท คุณสามารถอ่านบล็อกนี้เพื่อความเข้าใจที่ดีก่อนที่คุณจะอ่านบทความโดย J.Hinton


0

โครงข่ายใยประสาทเทียมต้องการข้อมูลและการฝึกอบรมจำนวนมาก สำหรับชุดข้อมูลรูปแบบตารางส่วนใหญ่จะดีกว่ามากที่จะใช้ตัวแบบที่ใช้แผนภูมิการตัดสินใจ ส่วนใหญ่แล้วโมเดลที่เรียบง่ายนั้นเพียงพอที่จะให้ความแม่นยำที่ดี อย่างไรก็ตามเครือข่ายประสาทมีการทดสอบเวลา เพียงห้าถึงหกปีนับตั้งแต่การปฏิวัติการเรียนรู้ลึกเริ่มต้นขึ้นดังนั้นเราจึงยังไม่ทราบถึงศักยภาพที่แท้จริงของการเรียนรู้ลึก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.