มีแบบจำลองที่เป็นไปได้ที่มีศักยภาพในการแทนที่โครงข่ายประสาทเทียมในอนาคตอันใกล้นี้หรือไม่?
และเราต้องการมันด้วยหรือไม่ อะไรคือสิ่งที่แย่ที่สุดเกี่ยวกับการใช้โครงข่ายประสาทเทียมในแง่ของประสิทธิภาพ?
มีแบบจำลองที่เป็นไปได้ที่มีศักยภาพในการแทนที่โครงข่ายประสาทเทียมในอนาคตอันใกล้นี้หรือไม่?
และเราต้องการมันด้วยหรือไม่ อะไรคือสิ่งที่แย่ที่สุดเกี่ยวกับการใช้โครงข่ายประสาทเทียมในแง่ของประสิทธิภาพ?
คำตอบ:
นี่กำลังย้อนกลับ แต่มันเป็นไปตามตรรกะของข้อโต้แย้ง
ในแง่ของประสิทธิภาพฉันสามารถเห็นปัญหาสำคัญสองสามอย่างกับโครงข่ายประสาทเทียม
เครือข่ายประสาทขนาดใหญ่ต้องการข้อมูลจำนวนมากในการฝึกอบรม จำนวนเงินอาจแตกต่างกันไปขึ้นอยู่กับขนาดของเครือข่ายและความซับซ้อนของงาน แต่ตามกฎทั่วไปมันมักจะเป็นสัดส่วนกับจำนวนน้ำหนัก สำหรับงานการเรียนรู้ภายใต้การดูแลมีข้อมูลที่มีคุณภาพไม่เพียงพอ การรวบรวมข้อมูลการฝึกอบรมเฉพาะจำนวนมากอาจใช้เวลาเป็นเดือนหรือเป็นปีและการติดฉลากอาจยุ่งยากและไม่น่าเชื่อถือ สิ่งนี้สามารถลดลงได้บางส่วนโดยการเพิ่มข้อมูลซึ่งหมายความว่า "สังเคราะห์" ตัวอย่างเพิ่มเติมจากสิ่งที่คุณมีอยู่แล้ว แต่ไม่ใช่ยาครอบจักรวาล
อัตราการเรียนรู้มักจะค่อนข้างเล็กดังนั้นความคืบหน้าของการฝึกอบรมจึงช้า แบบจำลองขนาดใหญ่ที่อาจต้องใช้เวลานานหลายสัปดาห์ในการฝึกอบรมบนเดสก์ท็อปซีพียูนั้นสามารถฝึกอบรมได้สองชั่วโมงโดยการใช้กลุ่ม GPU ซึ่งใช้พลังงานหลายกิโลวัตต์ นี่คือการแลกเปลี่ยนขั้นพื้นฐานเนื่องจากลักษณะของขั้นตอนการฝึกอบรม ที่กล่าวว่า GPUs มีประสิทธิภาพมากขึ้น - ตัวอย่างเช่นสถาปัตยกรรมnVidia Volta GPU ใหม่อนุญาตให้มี TFLOP 15.7 TF.7 ในขณะที่ใช้พลังงานน้อยกว่า 300 W
ในขณะนี้ปัญหาที่แตกต่างกันทุกอย่างต้องใช้เครือข่ายประสาทที่กำหนดเองเพื่อออกแบบฝึกอบรมและปรับใช้ ในขณะที่วิธีแก้ปัญหาใช้งานได้บ่อยครั้งมันก็ถูกล็อคไว้กับปัญหานั้น ตัวอย่างเช่นAlphaGoนั้นยอดเยี่ยมที่ Go แต่มันจะสิ้นหวังในการขับขี่รถยนต์หรือให้คำแนะนำเกี่ยวกับดนตรี - มันไม่ได้ออกแบบมาสำหรับงานดังกล่าว ความซ้ำซ้อนที่ท่วมท้นนี้เป็นอุปสรรคสำคัญของเครือข่ายประสาทเทียมในมุมมองของฉันและมันก็เป็นอุปสรรคสำคัญต่อความก้าวหน้าของการวิจัยเครือข่ายประสาทโดยทั่วไป มีพื้นที่วิจัยทั้งหมดที่เรียกว่าการเรียนรู้การถ่ายโอนซึ่งเกี่ยวข้องกับการค้นหาวิธีในการใช้เครือข่ายที่ได้รับการฝึกอบรมในงานหนึ่งเพื่องานที่แตกต่าง บ่อยครั้งที่สิ่งนี้เกี่ยวข้องกับข้อเท็จจริงที่ว่าอาจมีข้อมูลไม่เพียงพอในการฝึกอบรมเครือข่ายตั้งแต่เริ่มต้นในภารกิจที่สองดังนั้นความสามารถในการใช้โมเดลที่ได้รับการฝึกฝนมาก่อน
ส่วนแรกของคำถามนั้นยากกว่า จากแบบจำลองทางสถิติหมดจดฉันไม่ได้เห็นวิธีการที่โดดเด่นในการเรียนรู้ของเครื่องที่แตกต่างอย่างสิ้นเชิงจากเครือข่ายประสาท อย่างไรก็ตามมีการพัฒนาที่น่าสนใจที่น่ากล่าวถึงเพราะพวกเขากล่าวถึงความไร้ประสิทธิภาพข้างต้น
พื้นหลังเล็กน้อยก่อน
เครือข่าย Spikingมีศักยภาพมหาศาลในแง่ของพลังการคำนวณ ในความเป็นจริงมันได้รับการพิสูจน์แล้วว่าพวกเขามีประสิทธิภาพมากกว่าเครือข่ายประสาทแบบดั้งเดิมที่มีการเปิดใช้งาน sigmoid อย่างเคร่งครัด
ยิ่งไปกว่านั้นเครือข่ายประสาทที่รวดเร็วมีความเข้าใจในเวลา - สิ่งที่เป็นอุปสรรค์สำคัญสำหรับเครือข่ายคลาสสิกตั้งแต่เริ่มก่อตั้ง ไม่เพียงแค่นั้น แต่เครือข่ายความตื่นเต้นนั้นขับเคลื่อนด้วยเหตุการณ์ซึ่งหมายความว่าเซลล์ประสาททำงานเฉพาะเมื่อมีสัญญาณเข้ามาเท่านั้น สิ่งนี้ตรงกันข้ามกับเครือข่ายแบบคลาสสิกที่มีการประเมินแต่ละเซลล์ประสาทโดยไม่คำนึงถึงข้อมูลของมัน (อีกครั้งนี่เป็นเพียงผลที่ตามมาของขั้นตอนการประเมินผลที่มักจะถูกนำมาใช้เป็นทวีคูณของเมทริกซ์หนาแน่นสองตัว) ดังนั้นเครือข่าย spiking จึงใช้รูปแบบการเข้ารหัสแบบเบาบางซึ่งหมายความว่ามีเพียงส่วนเล็ก ๆ ของเซลล์ประสาทที่ทำงานในเวลาที่กำหนด
ตอนนี้การเข้ารหัสและเหตุการณ์ที่ขับเคลื่อนด้วยการดำเนินการขัดขวางตามป่าโปร่งเหมาะสำหรับการใช้งานฮาร์ดแวร์ที่ใช้เครือข่ายองศาเรียกว่าชิป neuromorphic ตัวอย่างเช่นชิปTrueNorthของไอบีเอ็มสามารถจำลอง1 ล้านเซลล์ประสาทและการเชื่อมต่อ 256 ล้านขณะที่ดึงพลังงานโดยเฉลี่ยประมาณ100 mWเท่านั้น นี่คือคำสั่งของขนาดที่มีประสิทธิภาพมากกว่า GPU nVidia ปัจจุบัน ชิป Neuromorphic อาจเป็นวิธีแก้ปัญหาเวลาฝึกอบรม / การแลกเปลี่ยนพลังงานที่ฉันกล่าวไว้ข้างต้น
นอกจากนี้memristorsเป็นการพัฒนาที่ค่อนข้างใหม่ แต่มีแนวโน้มมาก โดยพื้นฐานแล้ว memristor เป็นองค์ประกอบวงจรพื้นฐานที่คล้ายกับตัวต้านทาน แต่มีความต้านทานผันแปรตามสัดส่วนกับจำนวนรวมของกระแสไฟฟ้าที่ไหลผ่านมันไปตลอดอายุการใช้งาน เป็นหลักซึ่งหมายความว่ามันจะรักษา "หน่วยความจำ" ของปริมาณปัจจุบันที่ผ่านมัน หนึ่งในแอพพลิเคชั่นที่น่าสนใจของ memristors คือการสร้างแบบจำลองซิงก์ในฮาร์ดแวร์อย่างมีประสิทธิภาพอย่างยิ่ง
ฉันคิดว่าสิ่งเหล่านี้มีมูลค่าการกล่าวขวัญเพราะพวกเขามีแนวโน้มที่ผู้สมัครที่จะแก้ไขปัญหาของการโอนไม่ สิ่งเหล่านี้ไม่ได้ จำกัด อยู่ที่เครือข่ายประสาทเทียม - การใช้รางวัลเป็นตัวขับเคลื่อน RL และวิวัฒนาการสามารถนำไปใช้ได้ในทางทฤษฎีในการตั้งค่าทั่วไปสำหรับงานใด ๆ ที่เป็นไปได้ในการกำหนดรางวัลหรือเป้าหมายสำหรับตัวแทนเพื่อให้บรรลุ สิ่งนี้ไม่จำเป็นที่จะต้องทำ แต่มันก็เป็นเรื่องธรรมดามากกว่าวิธีการที่เกิดข้อผิดพลาดซึ่งตัวแทนการเรียนรู้พยายามลดความแตกต่างระหว่างเอาท์พุทและความจริงพื้นฐาน ประเด็นหลักที่นี่เกี่ยวกับการเรียนรู้การถ่ายโอน: โดยหลักแล้วการใช้ตัวแทนที่ผ่านการฝึกอบรมมาเพื่องานที่แตกต่างกันนั้นควรจะง่ายพอ ๆ กับการเปลี่ยนเป้าหมายหรือรางวัล
In particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.
max(0, x)
) การติดขัดx < 0
ส่งผลให้เซลล์ประสาทที่ตายแล้ว ประเด็นก็คือพลังในการคำนวณของมุ้ง spiking และการใช้งานฮาร์ดแวร์ที่มีประสิทธิภาพสูงในแง่ของการใช้พลังงาน
แทนที่ Neural Nets
อาจมีอัลกอริธึมใหม่ที่มีศักยภาพในการแทนที่อวนประสาท อย่างไรก็ตามหนึ่งในคุณสมบัติของมุ้งประสาทคือพวกเขาใช้องค์ประกอบที่เรียบง่ายซึ่งแต่ละคนมีความต้องการต่ำในการคำนวณทรัพยากรในรูปแบบทางเรขาคณิต
เซลล์ประสาทเทียมสามารถทำงานแบบขนาน (โดยไม่มีการแชร์เวลา CPU หรือลูป) โดยการแมปการคำนวณกับอุปกรณ์ DSP หรือฮาร์ดแวร์คอมพิวเตอร์แบบขนานอื่น ๆ เซลล์ประสาทจำนวนมากนั้นเหมือนกันจึงเป็นข้อได้เปรียบที่แข็งแกร่ง
เราจะเปลี่ยนอะไร
เมื่อเราพิจารณาการเปลี่ยนอัลกอริทึมเป็นอวนประสาทเราหมายความว่าการออกแบบตาข่ายประสาทเป็นอัลกอริทึม มันไม่ใช่.
โครงข่ายประสาทเป็นวิธีการรวมกันในวงจรเรียลไทม์เพื่อทำการแปลงแบบไม่เชิงเส้นของอินพุตไปยังเอาต์พุตตามสูตรของสิ่งที่เหมาะสมที่สุด สูตรดังกล่าวอาจเป็นการย่อขนาดของข้อผิดพลาดหรือความไม่เท่าเทียมกันจากอุดมคติบางประการ อาจเป็นเครื่องบ่งชี้สุขภาพที่ต้องขยายให้ใหญ่สุด
แหล่งที่มาของการกำหนดความเหมาะสมสำหรับพฤติกรรมเครือข่ายที่กำหนดอาจเป็นภายใน เราเรียกสิ่งนั้นว่าการเรียนรู้ที่ไม่มีผู้ดูแล อาจเป็นข้อมูลภายนอกซึ่งเราเรียกว่าการตรวจสอบเมื่อข้อมูลฟิตเนสภายนอกมีการเชื่อมโยงกับเวกเตอร์อินพุตในรูปแบบของค่าผลลัพธ์ที่ต้องการซึ่งเราเรียกว่าป้ายกำกับ
ความเหมาะสมอาจเกิดจากภายนอกเช่นเกลาหรือเวกเตอร์ที่ไม่ได้เชื่อมโยงกับข้อมูลอินพุต แต่เป็นเวลาจริงซึ่งเราเรียกว่าการเสริมแรง ดังกล่าวต้องใช้อัลกอริทึมการเรียนรู้ผู้เข้าใหม่ ความเหมาะสมของพฤติกรรมสุทธิอาจถูกประเมินโดยอวนอื่นภายในระบบในกรณีของอวนที่ซ้อนกันหรือการกำหนดค่าอื่น ๆ เช่นลำดับชั้นของ Laplacian
การเลือกอัลกอริธึมจะทำอย่างไรกับปัญญาเชิงเปรียบเทียบเพียงเล็กน้อยเมื่อเลือกการออกแบบทางคณิตศาสตร์และกระบวนการ การออกแบบอัลกอริทึมเกี่ยวข้องโดยตรงกับการลดความต้องการทรัพยากรการคำนวณและลดความต้องการเวลา การย่อขนาดนี้ขึ้นอยู่กับฮาร์ดแวร์และระบบปฏิบัติการ
การเปลี่ยนเป็นการระบุไว้หรือไม่?
แน่ใจ มันจะดีกว่าถ้าเครือข่ายเป็นเหมือนเซลล์ประสาทของสัตว์เลี้ยงลูกด้วยนม
โดยการส่งสัญญาณในระดับภูมิภาคมีความหมายว่าสัญญาณทางเคมีจำนวนมากนอกเหนือจากการส่งสัญญาณข้าม synapses
เราสามารถพิจารณานอกเหนือไปจากประสาทวิทยาของสัตว์เลี้ยงลูกด้วยนม
ประสิทธิภาพของ Neural Net
ประสิทธิภาพไม่สามารถวัดได้ในระดับสากลเนื่องจากอุณหภูมิสามารถวัดเป็นองศาเคลวินได้ ประสิทธิภาพสามารถวัดได้เป็นผลหารของค่าที่วัดได้บางอย่างในอุดมคติทางทฤษฎี โปรดทราบว่ามันเป็นอุดมคติไม่สูงสุดในตัวหาร ในเครื่องยนต์ทางอุณหพลศาสตร์อุดมคตินั้นคืออัตราการป้อนพลังงานซึ่งไม่สามารถถ่ายโอนไปยังเอาต์พุตได้อย่างเต็มที่
ในทำนองเดียวกันมุ้งประสาทไม่สามารถเรียนรู้ในเวลาศูนย์ ตาข่าย Neural ไม่สามารถบรรลุข้อผิดพลาดเป็นศูนย์ในเวลานานโดยพลการในการผลิตอย่างใดอย่างหนึ่ง ดังนั้นข้อมูลจึงอยู่ในรูปแบบของพลังงานแนวคิดของ Claude Shannon จาก Bell Labs ในช่วงรุ่งอรุณของระบบอัตโนมัติทางดิจิตอลและความสัมพันธ์ระหว่างเอนโทรปีของข้อมูลกับเอนโทรปีของเทอร์โมไดนามิกจึงเป็นส่วนสำคัญของฟิสิกส์เชิงทฤษฎี
ไม่มีประสิทธิภาพการเรียนรู้ที่ไม่ดีหรือประสิทธิภาพการเรียนรู้ที่ดี อาจไม่มีประสิทธิภาพที่ไม่ดีหรือประสิทธิภาพที่ดีหากเราต้องการคิดในแง่ตรรกะและวิทยาศาสตร์ - เพียงการปรับปรุงสัมพัทธ์ของการกำหนดค่าระบบบางส่วนเทียบกับการกำหนดค่าระบบอื่น ๆ สำหรับชุดสถานการณ์การปฏิบัติที่เฉพาะเจาะจง
ดังนั้นหากไม่มีข้อกำหนดที่ชัดเจนของฮาร์ดแวร์สองระบบปฏิบัติการและการกำหนดค่าซอฟต์แวร์และชุดทดสอบที่กำหนดอย่างสมบูรณ์ที่ใช้สำหรับการประเมินผลแบบสัมพันธ์ประสิทธิภาพจะไม่มีความหมาย
เรามีความหวังบางอย่างแฝงตัวอยู่ในหน้านั้น ณ ตอนนี้เรามีเครือข่ายแคปซูลโดย J.Hinton ซึ่งใช้การเปิดใช้งานแบบไม่เชิงเส้นที่เรียกว่าฟังก์ชั่น 'สควอช'
เครือข่ายแคปซูลเองมีข้อบกพร่อง ดังนั้นจึงมีงานในทิศทางที่มองข้ามตาข่ายประสาท คุณสามารถอ่านบล็อกนี้เพื่อความเข้าใจที่ดีก่อนที่คุณจะอ่านบทความโดย J.Hinton
โครงข่ายใยประสาทเทียมต้องการข้อมูลและการฝึกอบรมจำนวนมาก สำหรับชุดข้อมูลรูปแบบตารางส่วนใหญ่จะดีกว่ามากที่จะใช้ตัวแบบที่ใช้แผนภูมิการตัดสินใจ ส่วนใหญ่แล้วโมเดลที่เรียบง่ายนั้นเพียงพอที่จะให้ความแม่นยำที่ดี อย่างไรก็ตามเครือข่ายประสาทมีการทดสอบเวลา เพียงห้าถึงหกปีนับตั้งแต่การปฏิวัติการเรียนรู้ลึกเริ่มต้นขึ้นดังนั้นเราจึงยังไม่ทราบถึงศักยภาพที่แท้จริงของการเรียนรู้ลึก