ทำไมเครือข่ายนิวรัลจึงต้องการตัวอย่างการฝึกมากมาย


64

เด็กมนุษย์ที่อายุ 2 ขวบต้องการรถยนต์ประมาณ 5 คันเพื่อให้สามารถระบุได้ด้วยความถูกต้องตามสมควรโดยไม่คำนึงถึงสี, สร้าง, ฯลฯ เมื่อลูกชายของฉันอายุ 2 เขาก็สามารถระบุรถรางและรถไฟได้แม้ว่าเขาจะเคยเห็นก็ตาม แค่เล็กน้อย. เนื่องจากเขามักจะสับสนระหว่างกันดูเหมือนว่าเครือข่ายประสาทของเขาไม่ได้รับการฝึกฝนเพียงพอ แต่ก็ยัง

อะไรคือสิ่งที่เครือข่ายประสาทเทียมหายไปซึ่งทำให้พวกเขาไม่สามารถเรียนรู้ได้เร็วขึ้น? การถ่ายโอนการเรียนรู้คำตอบคืออะไร?


23
ช้างอาจเป็นตัวอย่างที่ดีกว่ารถยนต์ ดังที่คนอื่น ๆ สังเกตเด็กอาจเคยเห็นรถยนต์หลายคันก่อนที่จะได้ยินฉลากดังนั้นหากจิตใจของพวกเขาได้กำหนด "ชนิดที่เป็นธรรมชาติ" ไว้ในขณะนี้จะมีป้ายกำกับสำหรับรถคันหนึ่ง อย่างไรก็ตามเด็กชาวตะวันตกไม่อาจโต้แย้งพัฒนาระบบการจำแนกช้างที่ดีบนพื้นฐานของข้อมูลเพียงไม่กี่
JG

70
อะไรทำให้คุณคิดว่าสมองของเด็กมนุษย์ทำงานเหมือนโครงข่ายประสาท
Paul Wasilewski

16
NN สามารถแสดงรูปภาพของรถยนต์ได้ ลูกของคุณได้รับภาพยนตร์ 3 มิติเต็มรูปแบบจากมุมมองที่แตกต่างกันสำหรับรถยนต์หลายประเภท ลูกของคุณอาจมีตัวอย่างที่คล้ายกันเพื่อแยกรถ ตัวอย่างเช่นรถเข็นเด็กทารกของเล่นเป็นต้นหากไม่มีสิ่งเหล่านี้ฉันคิดว่าลูกของคุณจะต้องการตัวอย่างเพิ่มเติม
Stian Yttervik

20
@Malters ในแง่ของเครือข่ายประสาทเทียมหรือไม่ อาจจะไม่.
Firebug

28
"เด็กมนุษย์ที่อายุ 2 ขวบต้องการรถยนต์ประมาณ 5 คันเพื่อให้สามารถระบุได้ด้วยความแม่นยำที่สมเหตุสมผล" เด็กคนนี้มีประสบการณ์สองปีเต็มในสิ่งที่ไม่ใช่รถยนต์ ฉันแน่ใจว่ามีบทบาทสำคัญ
DarthFennec

คำตอบ:


101

ฉันเตือนไม่ให้คาดหวังว่าจะมีความคล้ายคลึงกันอย่างมากระหว่างเครือข่ายประสาทเทียมและชีวภาพ ฉันคิดว่าชื่อ "โครงข่ายประสาทเทียม" นั้นค่อนข้างอันตรายเพราะมันหลอกคนให้คาดหวังว่ากระบวนการทางระบบประสาทและการเรียนรู้ของเครื่องควรจะเหมือนกัน ความแตกต่างระหว่างเครือข่ายประสาทเทียมและชีวภาพมีมากกว่าความคล้ายคลึงกัน

เป็นตัวอย่างของสิ่งที่เกิดขึ้นได้อย่างไรคุณสามารถเปลี่ยนเหตุผลในการโพสต์ต้นฉบับบนหัวของมัน คุณสามารถฝึกอบรมเครือข่ายประสาทเทียมเพื่อเรียนรู้ที่จะรับรู้รถยนต์ในช่วงบ่ายโดยมีคอมพิวเตอร์ที่รวดเร็วพอสมควรและมีข้อมูลการฝึกอบรมจำนวนหนึ่ง คุณสามารถทำให้เป็นงานไบนารี (รถยนต์ / ไม่ใช่รถยนต์) หรืองานหลายระดับ (รถยนต์ / รถราง / จักรยาน / เครื่องบิน / เรือ) และยังคงมั่นใจในความสำเร็จระดับสูง

ในทางตรงกันข้ามฉันไม่คิดว่าเด็กจะสามารถเลือกรถยนต์ได้ทั้งวัน - หรือแม้แต่สัปดาห์ - หลังจากที่มันเกิดขึ้นแม้หลังจากที่ได้เห็น "ตัวอย่างการฝึกอบรมมากมาย" เห็นได้ชัดว่ามีความแตกต่างระหว่างเด็กอายุสองขวบกับเด็กทารกที่มีความสามารถในการเรียนรู้ที่แตกต่างกันในขณะที่เครือข่ายประสาทการจำแนกภาพวานิลลาสามารถจำแนกประเภทของวัตถุได้ทันทีหลังจากเกิด ฉันคิดว่ามีความแตกต่างที่สำคัญสองประการ: (1) ปริมาณข้อมูลการฝึกอบรมที่มีอยู่และ (2) กลไกการเรียนการสอนด้วยตนเองที่พัฒนาขึ้นตามกาลเวลาเนื่องจากข้อมูลการฝึกอบรมที่มากมาย


โพสต์ต้นฉบับตีแผ่สองคำถาม ชื่อและเนื้อหาของคำถามถามว่าทำไมเครือข่ายประสาทจึงต้องการ "ตัวอย่างมากมาย" เมื่อเปรียบเทียบกับประสบการณ์ของเด็กโครงข่ายประสาทเทียมที่ได้รับการฝึกฝนโดยใช้การเปรียบเทียบภาพทั่วไปมีข้อมูลค่อนข้างน้อย

ฉันจะตอบคำถามในชื่อเรื่องให้อีกครั้ง

"การฝึกอบรมโครงข่ายประสาทเทียมสำหรับเกณฑ์เปรียบเทียบภาพทั่วไปเปรียบเทียบและตรงกันข้ามกับประสบการณ์การเรียนรู้ของเด็กได้อย่างไร"

เพื่อประโยชน์ในการเปรียบเทียบฉันจะพิจารณาข้อมูล CIFAR-10 เพราะเป็นเกณฑ์มาตรฐานรูปภาพทั่วไป ส่วนที่มีข้อความประกอบด้วยรูปภาพ 10 ชั้นที่มี 6,000 รูปต่อชั้นเรียน แต่ละภาพมีขนาด 32x32 พิกเซล หากคุณซ้อนภาพที่มีป้ายกำกับจาก CIFAR-10 และสร้างวิดีโอมาตรฐาน 48 fps คุณจะมีวิดีโอประมาณ 20 นาที

เด็ก 2 ปีที่สังเกตโลกเป็นเวลา 12 ชั่วโมงต่อวันมีประมาณ 263000 นาที (มากกว่า 4000 ชั่วโมง) จากการสังเกตโดยตรงของโลกรวมถึงการตอบรับจากผู้ใหญ่ (ป้ายกำกับ) (ตัวเลขเหล่านี้เป็นเพียง ballpark - ฉันไม่รู้กี่นาทีที่เด็กอายุสองขวบใช้เวลาสำรวจโลก) นอกจากนี้เด็กจะได้สัมผัสกับวัตถุจำนวนมากหลายชิ้นนอกเหนือจากคลาส 10 ที่ประกอบด้วย CIFAR- 10

ดังนั้นจึงมีบางอย่างที่เล่น หนึ่งคือเด็กมีการสัมผัสกับข้อมูลโดยรวมมากขึ้นและเป็นแหล่งข้อมูลที่หลากหลายกว่ารุ่น CIFAR-10 ความหลากหลายของข้อมูลและปริมาณข้อมูลได้รับการยอมรับเป็นอย่างดีว่าเป็นข้อกำหนดเบื้องต้นสำหรับรุ่นที่มีประสิทธิภาพโดยทั่วไป ในแง่นี้ดูเหมือนว่าไม่น่าแปลกใจที่โครงข่ายประสาทนี้จะแย่กว่างานนี้เนื่องจากเด็กที่มีโครงข่ายประสาทที่ได้รับการฝึกฝนใน CIFAR-10 นั้นมีข้อมูลเชิงบวกเมื่อเปรียบเทียบกับเด็กวัยสองขวบ ความละเอียดของภาพสำหรับเด็กนั้นดีกว่าภาพ 32x32 CIFAR-10 ดังนั้นเด็กสามารถเรียนรู้ข้อมูลเกี่ยวกับรายละเอียดของวัตถุอย่างละเอียด

การเปรียบเทียบ CIFAR-10 ถึงสองปีนั้นไม่สมบูรณ์แบบเนื่องจากแบบจำลอง CIFAR-10 จะได้รับการฝึกฝนด้วยการส่งผ่านภาพนิ่งที่เหมือนกันหลายครั้งในขณะที่เด็กจะมองเห็นโดยใช้การมองเห็นแบบสองตา - มิติสามมิติในขณะที่เคลื่อนที่ไปมาและด้วยสภาพแสงและมุมมองที่แตกต่างกันบนวัตถุเดียวกัน

เรื่องเล็ก ๆ น้อย ๆ เกี่ยวกับลูกของ OP หมายถึงคำถามที่สอง

"เครือข่ายประสาทเทียมสามารถเรียนรู้ด้วยตนเองได้อย่างไร"

เด็ก ๆ มีความสามารถพิเศษในการเรียนรู้ด้วยตนเองเพื่อให้สามารถเพิ่มประเภทของวัตถุใหม่ได้ตลอดเวลาโดยไม่ต้องเริ่มต้นใหม่

  • ข้อสังเกตของ OP เกี่ยวกับการชื่อการปรับรูปแบบหนึ่งประเภทในบริบทการเรียนรู้ของเครื่อง

  • ในความคิดเห็นผู้ใช้รายอื่นได้ชี้ให้เห็นว่าการเรียนรู้แบบหนึ่งและสามช็อตเป็นอีกส่วนหนึ่งของการวิจัยการเรียนรู้ด้วยเครื่อง

  • นอกจากนี้จะช่วยให้โมเดลด้วยตนเองจากมุมมองที่แตกต่างกันซึ่งช่วยให้หุ่นยนต์ทำการทดลองแบบลองผิดลองถูกเพื่อหากลยุทธ์ที่ดีที่สุดสำหรับการแก้ปัญหาเฉพาะ (เช่นเล่นหมากรุก)

อาจเป็นเรื่องจริงที่กระบวนทัศน์การเรียนรู้ของเครื่องทั้งสามนี้เป็นสิ่งที่ดีสำหรับการปรับปรุงวิธีการที่เครื่องปรับให้เข้ากับงานการมองเห็นด้วยคอมพิวเตอร์เครื่องใหม่ การปรับรูปแบบการเรียนรู้ของเครื่องให้เข้ากับงานใหม่อย่างรวดเร็วเป็นพื้นที่ของการวิจัย อย่างไรก็ตามเนื่องจากเป้าหมายในทางปฏิบัติของโครงการเหล่านี้ (ระบุอินสแตนซ์ใหม่ของมัลแวร์จดจำผู้กระตุ้นรูปถ่ายหนังสือเดินทางทำดัชนีอินเทอร์เน็ต) และเกณฑ์ความสำเร็จแตกต่างจากเป้าหมายของเด็กที่เรียนรู้เกี่ยวกับโลกและความจริงที่ว่า คอมพิวเตอร์ที่ใช้คณิตศาสตร์และอีกอันทำด้วยวัสดุอินทรีย์โดยใช้เคมีการเปรียบเทียบโดยตรงระหว่างสองอย่างนั้นยังคงเต็มไปด้วยความยากลำบาก


นอกจากนี้มันน่าสนใจที่จะศึกษาวิธีพลิกปัญหา CIFAR-10 ไปรอบ ๆ และฝึกอบรมเครือข่ายประสาทเทียมเพื่อรับรู้วัตถุ 6,000 ชิ้นจาก 10 ตัวอย่างของแต่ละตัวอย่าง แต่สิ่งนี้จะไม่เป็นการเปรียบเทียบที่ยุติธรรมกับเด็กอายุ 2 ปีเพราะยังคงมีความคลาดเคลื่อนจำนวนมากในปริมาณรวมความหลากหลายและความละเอียดของข้อมูลการฝึกอบรม

* ปัจจุบันเราไม่มีแท็กสำหรับการเรียนรู้แบบ one-shot หรือเรียนรู้แบบ shot-shot


34
เพื่อให้มีความเฉพาะเจาะจงมากขึ้นเด็กมนุษย์ได้ฝึกฝนมาเป็นเวลาหลายปีโดยมีตัวอย่างนับหมื่นให้พวกเขาพิจารณาว่าวัตถุดูอย่างไรเมื่อมองจากมุมที่แตกต่างกันวิธีระบุขอบเขตความสัมพันธ์ระหว่างขนาดที่ชัดเจนและขนาดที่แท้จริง และอื่น ๆ
David Schwartz

25
สมองของเด็กมีการใช้งานอยู่ภายในมดลูก ทารกสามารถระบุพ่อแม่ของพวกเขาด้วยเสียงหลังจากที่เสียงจะถูกกรองผ่านน้ำ ทารกเกิดใหม่มีข้อมูลเดือนให้ทำงานก่อนที่พวกเขาจะเกิด แต่พวกเขายังต้องการอีกหลายปีก่อนที่พวกเขาจะสามารถสร้างคำแล้วอีกสองสามปีก่อนที่พวกเขาจะสร้างประโยคแล้วอีกคู่สำหรับประโยคที่ถูกต้องตามหลักไวยากรณ์ ฯลฯ ... การเรียนรู้ที่มีความซับซ้อนมาก
เนลสัน

5
@EelcoHoogendoorn มันอธิบายความแตกต่าง 'เด็ก' กับ 'เครือข่ายประสาท' ที่ใช้ในคำถาม คำตอบก็คือนี่เป็นเพียงความแตกต่างที่ชัดเจน เครือข่ายประสาทไม่จำเป็นต้องมีตัวอย่างมากมายเลยเพราะเด็ก ๆ ก็มีตัวอย่างมากมาย (แต่แตกต่างกัน) ก่อนที่พวกเขาจะสามารถจำรถยนต์ได้
Sextus Empiricus

4
@ เนลสันฉันไม่แน่ใจว่าเหตุผลสำหรับความคิดเห็นของคุณคืออะไร แต่คุณสามารถเปลี่ยน 'ปี' เป็น 'ปี' ด้วยเด็ก 1 ปีพูดคำศัพท์ได้ 2 ปีกับประโยคแรกและไวยากรณ์ 3 ปีเช่นอดีตกาลและคำสรรพนามได้ถูกใช้อย่างถูกต้อง
Sextus Empiricus

1
@ElcoHoogendoorn ฉันคิดว่าสถานที่ตั้งของคำถามเป็นกรณีของการให้เหตุผลจากการเปรียบเทียบที่ผิดพลาด เครือข่ายประสาทเทียมและชีววิทยาที่ตัดกันก็ตอบสนองเช่นกันเพราะคำตอบจะบอกได้ว่าโครงข่ายประสาทเทียมและชีววิทยานั้นมีความคล้ายคลึงกันมากที่สุดในชื่อของพวกเขา (ทั้งคู่มีวลี "โครงข่ายประสาทเทียม") แต่ไม่เหมือนกันในลักษณะสำคัญ สันนิษฐานโดยคำถาม
Reinstate Monica

49

ก่อนอื่นเมื่อเด็กอายุสองขวบเด็กรู้เรื่องโลกนี้มากและใช้ความรู้นี้อย่างแข็งขัน เด็กทำ "ถ่ายโอนการเรียนรู้" จำนวนมากโดยใช้ความรู้นี้กับแนวคิดใหม่

ประการที่สองก่อนที่จะเห็นตัวอย่างรถยนต์ทั้งห้า "เด็ก" เห็นรถยนต์จำนวนมากบนถนนทีวีรถของเล่น ฯลฯ ดังนั้นยังมี "การเรียนรู้ที่ไม่มีผู้ดูแล" จำนวนมากเกิดขึ้นล่วงหน้า

ในที่สุดเครือข่ายประสาทไม่มีอะไรที่เหมือนกันกับสมองมนุษย์ดังนั้นจึงไม่มีความแตกต่างในการเปรียบเทียบพวกมัน นอกจากนี้ยังสังเกตว่ามีอัลกอริทึมสำหรับการเรียนรู้แบบ one-shot และการวิจัยเกี่ยวกับสิ่งนี้เกิดขึ้นในปัจจุบัน


9
จุดที่ 4 เด็กยังมีอายุมากกว่า 100 ล้านปีแห่งการเลือกวิวัฒนาการเพื่อการเรียนรู้ที่มีประสิทธิภาพ / ถูกต้อง
csiz

39

แง่มุมหนึ่งที่สำคัญที่ผมไม่เห็นในคำตอบปัจจุบันคือวิวัฒนาการ

สมองของเด็กไม่ได้เรียนรู้ตั้งแต่เริ่มต้น มันคล้ายกับการถามว่าเด็ก ๆ กวางและยีราฟสามารถเดินหลังคลอดได้ไม่กี่นาที เพราะพวกเขาเกิดมาพร้อมกับสมองของพวกเขามีสายสำหรับงานนี้แล้ว แน่นอนว่าต้องมีการปรับแต่งบางอย่าง แต่กวางน้อยไม่เรียนรู้ที่จะเดินจาก "การเริ่มต้นแบบสุ่ม"

ในทำนองเดียวกันความจริงที่ว่าวัตถุเคลื่อนไหวขนาดใหญ่มีอยู่และมีความสำคัญในการติดตามเป็นสิ่งที่เราเกิดมาด้วย

ดังนั้นฉันคิดว่าการอนุมานของคำถามนี้เป็นเพียงแค่ความเท็จ เครือข่ายประสาทของมนุษย์มีโอกาสเห็นจำนวนมาก - อาจจะไม่ใช่รถยนต์ แต่ - เคลื่อนย้ายหมุนวัตถุ 3 มิติที่มีพื้นผิวและรูปร่างที่ยาก ฯลฯ แต่สิ่งนี้เกิดขึ้นผ่านหลายชั่วอายุคนและการเรียนรู้เกิดขึ้นโดยอัลกอริธึมวิวัฒนาการ มีโครงสร้างที่ดีกว่าสำหรับงานนี้สามารถมีชีวิตอยู่เพื่อทำซ้ำด้วยโอกาสที่สูงกว่าออกจากรุ่นต่อไปด้วยการเดินสายสมองที่ดีและดีขึ้นตั้งแต่เริ่ม


8
สนุกกัน: มีหลักฐานว่าเมื่อมันมาถึงการแบ่งแยกระหว่างรูปแบบที่แตกต่างกันของรถยนต์เราจริงใช้ประโยชน์จากความเชี่ยวชาญศูนย์การจดจำใบหน้าของสมองของเรา เป็นไปได้ว่าในขณะที่เด็กไม่สามารถแยกแยะความแตกต่างระหว่างรุ่นต่าง ๆ ได้การมี 'ใบหน้า' โดยนัยบนวัตถุเคลื่อนที่อาจทำให้รถยนต์ถูกจัดหมวดหมู่เป็นสิ่งมีชีวิตชนิดหนึ่งดังนั้นจึงเป็นที่นิยมในการระบุวิวัฒนาการ วัตถุที่มีใบหน้ามีประโยชน์ต่อการเอาชีวิตรอด
Dan Bryant

7
คำตอบนี้กล่าวถึงสิ่งที่ฉันคิด เด็กจะไม่ได้เกิดมาเป็นชนวนว่างเปล่า พวกเขามาพร้อมกับคุณสมบัติที่ทำให้รูปแบบการจดจำง่ายขึ้นบางสิ่งที่ง่ายต่อการเรียนรู้ ฯลฯ
Eff

1
ในขณะที่สัตว์ที่เดินออกไปจากครรภ์เป็นสิ่งที่น่าสนใจ แต่การเดินสายอย่างมีวิวัฒนาการนั้นเป็นความคิดที่ตรงกันข้ามกับการเรียนรู้ของมนุษย์อย่างมากซึ่งคิดว่าเป็นการเรียนรู้ที่ขับเคลื่อนด้วยประสบการณ์ในโลกธรรมชาติ แน่นอนว่ารถยนต์จะมีผลกระทบทางวิวัฒนาการน้อยที่สุดต่อวิวัฒนาการของสมองของเรา
Eelco Hoogendoorn

5
@EcocoHoogendoorn ความสามารถในการเรียนรู้และทำความเข้าใจกับสภาพแวดล้อมได้รับการคัดเลือกตามวิวัฒนาการ สมองได้รับการจัดตั้งขึ้นโดยวิวัฒนาการเพื่อให้มีประสิทธิภาพอย่างมากในการเรียนรู้ ความสามารถในการเชื่อมต่อจุดดูรูปแบบเข้าใจรูปร่างและการเคลื่อนไหวทำการอนุมานและอื่น ๆ
Eff

3
นี่เป็นจุดที่ดี แต่ก็เป็นความจริงที่ว่าเมื่อนักวิจัยเข้าใจสิ่งนี้พวกเขาสร้างโครงสร้างของ NN ที่มีโครงสร้างแบบตายตัวซึ่งอำนวยความสะดวกในการเรียนรู้บางประเภท พิจารณาว่าNN ที่มีความซับซ้อนมีเขตข้อมูลที่เปิดไว้อย่างหนักเพื่อเพิ่มความเร็วในการเรียนรู้ / เพิ่มประสิทธิภาพในการทำงานด้านภาพ ฟิลด์เหล่านั้นสามารถเรียนรู้ได้ตั้งแต่เริ่มต้นในเครือข่ายที่เชื่อมต่อเต็มรูปแบบ แต่มันยากกว่ามาก @ElcoHoogendoorn สมองของมนุษย์เต็มไปด้วยโครงสร้างที่เอื้อต่อการเรียนรู้
gung - Reinstate Monica

21

ฉันไม่ค่อยรู้เรื่องเครือข่ายประสาท แต่ฉันรู้เรื่องของเด็กน้อย

เด็กอายุ 2 ปีจำนวนมากมีปัญหามากมายเกี่ยวกับคำทั่วไป ยกตัวอย่างเช่นเป็นเรื่องปกติที่เด็กจะใช้ "สุนัข" สำหรับสัตว์สี่ขา นั่นเป็นความแตกต่างที่ยากกว่า "รถยนต์" - ลองคิดดูว่าพุดเดิ้ลที่ดูแตกต่างจาก Dane ผู้ยิ่งใหญ่อย่างไรและทั้งคู่ต่างก็เป็น "สุนัข" ในขณะที่แมวไม่ใช่

และเด็กที่อายุ 2 ปีได้เห็น "รถยนต์" มากกว่า 5 ตัวอย่าง เด็กเห็นรถยนต์หลายสิบหรือหลายร้อยตัวอย่างทุกครั้งที่ครอบครัวขับรถไป และผู้ปกครองจำนวนมากจะแสดงความคิดเห็น "ดูที่รถ" มากกว่า 5 ครั้ง แต่เด็ก ๆ ก็สามารถคิดในแบบที่พวกเขาไม่ได้บอกได้ ตัวอย่างเช่นบนถนนเด็ก ๆ เห็นสิ่งต่าง ๆ มากมายเรียงรายอยู่ พ่อของเขาพูดว่า (ดูหนึ่งภาพ) และเด็กคิดว่า "บางทีสิ่งอื่น ๆ ทั้งหมดที่เรียงกันเป็นรถยนต์ด้วย"


2
ตัวอย่างอื่น ๆ : แท็กซี่, รถขับรถยนต์และรถตำรวจเหมือนกัน เมื่อใดก็ตามที่รถเป็นสีแดงก็จะเป็นรถดับเพลิง Campervans เป็นรถพยาบาล รถบรรทุกที่มีเครนยกของจะถูกจัดประเภทเป็นเครื่องขุด รถบัสที่เพิ่งผ่านไปยังสถานีรถไฟดังนั้นรถบัสคันต่อไปที่มีลักษณะเหมือนกันต้องไปที่สถานีรถไฟด้วย และการได้เห็นดวงจันทร์ในเวลากลางวันเป็นเหตุการณ์ที่พิเศษมาก
Sextus Empiricus

10

นี่เป็นคำถามที่น่าสนใจที่ฉันได้ไตร่ตรองอย่างมากมายและสามารถอธิบายได้ด้วยเหตุผลว่าทำไม

  • โครงข่ายประสาทเทียมไม่ทำงานเหมือนสมอง Backpropagation นั้นไม่เหมือนใครในโครงข่ายประสาทและไม่ได้เกิดขึ้นในสมอง ในแง่นั้นเราก็ไม่รู้จักอัลกอริทึมการเรียนรู้ทั่วไปในสมองของเรา มันอาจเป็นไฟฟ้ามันอาจเป็นทางเคมีหรืออาจเป็นการรวมกันของทั้งสอง โครงข่ายประสาทอาจถือได้ว่าเป็นรูปแบบการเรียนรู้ที่ด้อยกว่าเมื่อเทียบกับสมองของเราเพราะมันง่ายกว่า
  • หากเครือข่ายประสาทนั้นเหมือนกับสมองของเราจริง ๆ แล้วทารกของมนุษย์ก็จะได้รับ "การฝึกอบรม" อย่างกว้างขวางของเลเยอร์แรก ๆ เช่นการดึงคุณสมบัติออกในช่วงแรก ๆ ดังนั้นเครือข่ายนิวรัลของพวกเขาจึงไม่ได้รับการฝึกฝนตั้งแต่เริ่มต้น แต่ชั้นสุดท้ายจะถูกอบรมใหม่เพื่อเพิ่มคลาสและเลเบลมากขึ้นเรื่อย ๆ

9

เด็กมนุษย์ที่อายุ 2 ขวบต้องการรถยนต์ประมาณ 5 ครั้งเพื่อให้สามารถระบุได้ด้วยความถูกต้องตามสมควรโดยไม่คำนึงถึงสียี่ห้อและอื่น ๆ

แนวคิดของ "อินสแตนซ์" กลายเป็นโคลนได้ง่าย ในขณะที่เด็กอาจเห็นรถยนต์ที่ไม่ซ้ำกัน 5 รายการ แต่จริง ๆ แล้วพวกเขาได้เห็นเฟรมหลายพันเฟรมในสภาพแวดล้อมที่แตกต่างกัน พวกเขาเคยเห็นรถยนต์ในบริบทอื่น พวกเขายังมีสัญชาตญาณสำหรับโลกทางกายภาพที่พัฒนาตลอดชีวิตของพวกเขา - การเรียนรู้การถ่ายโอนบางอย่างอาจเกิดขึ้นที่นี่ แต่เราก็สรุปทั้งหมดนี้ไว้ใน "5 อินสแตนซ์"

ในขณะเดียวกันทุกเฟรม / ภาพที่คุณส่งไปยัง CNN ถือเป็น "ตัวอย่าง" หากคุณใช้คำจำกัดความที่สอดคล้องกันทั้งสองระบบกำลังใช้ข้อมูลการฝึกอบรมที่คล้ายกันมากขึ้น

นอกจากนี้ฉันต้องการที่จะทราบว่าเครือข่ายประสาทเทียม - CNNs - มีประโยชน์มากในการมองเห็นคอมพิวเตอร์กว่า ANNs และในความเป็นจริงวิธีการปฏิบัติงานของมนุษย์ในงานเช่นการจำแนกภาพ การเรียนรู้อย่างลึกซึ้งคือ (อาจ) ไม่ใช่ยาครอบจักรวาล แต่สามารถทำงานได้อย่างน่าชื่นชมในโดเมนนี้


5

ดังที่คนอื่น ๆ ชี้ให้เห็นว่าประสิทธิภาพของข้อมูลของเครือข่ายประสาทเทียมนั้นมีความแตกต่างกันอย่างมากขึ้นอยู่กับรายละเอียด ตามจริงแล้วมีวิธีการเรียนรู้แบบ one-shot มากมายที่สามารถแก้ปัญหาการติดฉลากรางได้อย่างแม่นยำมากโดยใช้เพียงตัวอย่างป้ายเดียว

วิธีหนึ่งในการทำสิ่งนี้คือการเรียนรู้การโอนย้าย เครือข่ายที่ได้รับการฝึกอบรมเกี่ยวกับป้ายกำกับอื่น ๆ มักจะปรับตัวได้อย่างมีประสิทธิภาพกับป้ายกำกับใหม่เนื่องจากการทำงานอย่างหนักคือการทำลายองค์ประกอบระดับต่ำของภาพในลักษณะที่เหมาะสม

แต่เราไม่จำเป็นต้องใช้ข้อมูลที่มีป้ายกำกับดังกล่าวเพื่อทำงานดังกล่าว มากเหมือนเด็กทารกไม่ต้องการข้อมูลที่มีป้ายกำกับเกือบเท่ากับเครือข่ายประสาทเทียมที่คุณคิดจะทำ

ตัวอย่างเช่นวิธีการที่ไม่ได้รับอนุญาตอย่างใดอย่างหนึ่งซึ่งฉันได้นำไปใช้ในบริบทอื่นสำเร็จแล้วก็คือการใช้ชุดภาพที่ไม่มีป้ายกำกับหมุนแบบสุ่มและฝึกอบรมเครือข่ายเพื่อทำนายว่าด้านใดของภาพ 'ขึ้น' โดยไม่รู้ว่าวัตถุที่มองเห็นหรือสิ่งที่เรียกว่าสิ่งนี้บังคับให้เครือข่ายเพื่อเรียนรู้โครงสร้างจำนวนมากเกี่ยวกับภาพ; และสิ่งนี้สามารถสร้างพื้นฐานที่ดีเยี่ยมสำหรับการเรียนรู้ที่มีป้ายกำกับข้อมูลที่มีประสิทธิภาพมากขึ้น

ในขณะที่มันเป็นความจริงที่เครือข่ายประดิษฐ์นั้นค่อนข้างแตกต่างจากของจริงในรูปแบบที่มีความหมายเช่นการขาดอะนาล็อกที่เห็นได้ชัดของการ backpropagation มันอาจเป็นเรื่องจริงที่เครือข่ายประสาทจริงใช้เทคนิคเดียวกันพยายามเรียนรู้ โครงสร้างในข้อมูลโดยนัยจากนักบวชธรรมดาบางคน

อีกตัวอย่างหนึ่งที่เกือบจะมีบทบาทในสัตว์อย่างแน่นอนและยังแสดงให้เห็นถึงสัญญาที่ดีในการทำความเข้าใจกับวิดีโออยู่ในสมมติฐานที่ว่าอนาคตควรจะคาดการณ์ได้จากอดีต เพียงแค่เริ่มจากข้อสันนิษฐานนั้นคุณสามารถสอนโครงข่ายประสาทเทียมได้มากมาย หรือในระดับปรัชญาฉันมีแนวโน้มที่จะเชื่อว่าข้อสันนิษฐานนี้รองรับเกือบทุกอย่างที่เราคิดว่าเป็น 'ความรู้'

ฉันไม่ได้พูดอะไรใหม่ที่นี่; แต่มันค่อนข้างใหม่ในแง่ที่ความเป็นไปได้เหล่านี้ยังเด็กเกินไปที่จะพบแอปพลิเคชั่นมากมายและยังไม่ได้ซึมลงไปสู่ความเข้าใจในตำราเรียนว่า 'ANN สามารถทำอะไรได้' ดังนั้นเพื่อตอบคำถาม OPs; ANN ได้ปิดช่องว่างที่คุณอธิบายไปมากแล้ว


4

วิธีหนึ่งในการฝึกอบรมโครงข่ายประสาทเทียมที่ลึกลงไปคือการใช้มันเป็นเครื่องเข้ารหัสอัตโนมัติ ( Restricted Boltzmann Machines )

ในทางทฤษฎีแล้วตัวเข้ารหัสอัตโนมัติเรียนรู้ในลักษณะที่ไม่ได้รับการสนับสนุน: ใช้ข้อมูลอินพุตที่ไม่มีการเข้ารหัสและประมวลผลเพื่อสร้างข้อมูลเอาต์พุต จากนั้นจะใช้ข้อมูลเอาต์พุตนั้นและพยายามสร้างข้อมูลอินพุตใหม่ มันปรับแต่งพารามิเตอร์ของโหนดจนกว่าจะเข้าใกล้การปัดเศษข้อมูล หากคุณคิดถึงมันตัวเข้ารหัสอัตโนมัติกำลังเขียนการทดสอบหน่วยอัตโนมัติของตัวเอง ผลก็คือการเปลี่ยน "ข้อมูลอินพุตที่ไม่มีป้ายกำกับ" เป็นข้อมูลที่มีป้ายกำกับ : ข้อมูลดั้งเดิมทำหน้าที่เป็นป้ายกำกับสำหรับข้อมูลที่ปัดเศษขึ้น

หลังจากเลเยอร์ของตัวเข้ารหัสอัตโนมัติได้รับการฝึกอบรมแล้วเครือข่ายประสาทเทียมจะถูกปรับแต่งอย่างละเอียดโดยใช้ข้อมูลที่มีป้ายกำกับเพื่อทำงานตามที่ตั้งใจไว้ ผลเหล่านี้คือการทดสอบการทำงาน

โปสเตอร์ต้นฉบับถามว่าทำไมต้องใช้ข้อมูลจำนวนมากในการฝึกอบรมโครงข่ายประสาทเทียมและเปรียบเทียบกับข้อมูลการฝึกอบรมที่ถูกกล่าวหาโดยมนุษย์อายุสองปี โปสเตอร์ต้นฉบับกำลังเปรียบเทียบแอปเปิ้ลกับส้ม: กระบวนการฝึกอบรมโดยรวมสำหรับโครงข่ายประสาทเทียมกับการปรับจูนด้วยฉลากสำหรับเด็กอายุสองขวบ

แต่ในความเป็นจริงแล้วเด็กอายุสองปีได้รับการฝึกอบรมการเข้ารหัสอัตโนมัติโดยใช้ข้อมูลแบบสุ่มและติดป้ายกำกับตนเองมานานกว่าสองปี ทารกฝันเมื่อพวกเขาอยู่ในมดลูก (ลูกแมวก็เช่นกัน) นักวิจัยได้อธิบายความฝันเหล่านี้ว่าเกี่ยวข้องกับการแยกเซลล์ประสาทแบบสุ่มในศูนย์ประมวลผลภาพ


1
ตกลงกัน; ยกเว้นว่าเครื่องมือเข้ารหัสอัตโนมัติในทางปฏิบัติไม่ใช่เครื่องมือที่ทรงพลังมากในการเรียนรู้ที่ไม่ได้รับการดูแลเลย ทุกสิ่งที่เรารู้ว่ามีการดำเนินการมากขึ้นดังนั้นถ้อยคำที่ว่า 'เด็กสองขวบได้ฝึกการใช้โปรแกรมเข้ารหัสอัตโนมัติ' ไม่ควรใช้อย่างแท้จริง
Eelco Hoogendoorn

4

เราไม่เรียนรู้ที่จะ "เห็นรถยนต์" จนกว่าเราจะเรียนรู้ที่จะเห็น

มันใช้เวลาค่อนข้างนานและตัวอย่างมากมายสำหรับเด็กที่จะเรียนรู้วิธีการดูวัตถุเช่นนี้ หลังจากนั้นเด็กสามารถเรียนรู้ที่จะระบุประเภทของวัตถุเฉพาะจากตัวอย่างเพียงไม่กี่ตัวอย่าง หากคุณเปรียบเทียบเด็กอายุสองขวบกับระบบการเรียนรู้ที่เริ่มต้นจากกระดานชนวนว่างเปล่ามันเป็นการเปรียบเทียบแอปเปิ้ลและส้ม ในวัยนั้นเด็ก ๆ ได้เห็น "วิดีโอวิดีโอ" เป็นพัน ๆ ชั่วโมง

ในทำนองเดียวกันก็ต้องใช้เครือข่ายประสาทเทียมเป็นตัวอย่างมากมายในการเรียนรู้ "วิธีดู" แต่หลังจากนั้นก็สามารถถ่ายทอดความรู้นั้นไปยังตัวอย่างใหม่ได้ การเรียนรู้การถ่ายโอนเป็นทั้งโดเมนของการเรียนรู้ของเครื่องและสิ่งต่าง ๆ เช่น "การเรียนรู้ด้วยการยิงครั้งเดียว" เป็นไปได้ - คุณสามารถสร้าง ANNs ที่จะเรียนรู้เพื่อระบุประเภทของวัตถุชนิดใหม่ที่ไม่เคยเห็นมาก่อนจากตัวอย่างเดียว บุคคลใดบุคคลหนึ่งจากภาพถ่ายหน้าเดียวของพวกเขา แต่การทำส่วน "เริ่มต้นเพื่อดู" เริ่มต้นนี้ต้องใช้ข้อมูลค่อนข้างมาก

นอกจากนี้ยังมีหลักฐานบางอย่างที่แสดงว่าข้อมูลการฝึกอบรมทั้งหมดไม่เท่ากันนั่นคือข้อมูลที่คุณ "เลือก" ในขณะที่การเรียนรู้มีประสิทธิภาพมากกว่าข้อมูลที่ให้ไว้กับคุณ Eg Held & Hein ทดลองลูกแมวแฝด https://www.lri.fr/~mbl/ENS/FONDIHM/2013/papers/about-HeldHein63.pdf


4

สิ่งหนึ่งที่ฉันไม่ได้เห็นในคำตอบจนถึงตอนนี้ก็คือข้อเท็จจริงที่ว่า 'อินสแตนซ์' ของวัตถุในโลกแห่งความจริงที่เด็กมนุษย์เห็นไม่ตรงกับตัวอย่างในบริบทของการฝึกอบรมของเอ็นเอ็น

สมมติว่าคุณกำลังยืนอยู่ที่สี่แยกทางรถไฟกับเด็กอายุ 5 ขวบและดู 5 ขบวนผ่านภายใน 10 นาที ตอนนี้คุณสามารถพูดว่า "ลูกของฉันเห็นรถไฟเพียง 5 ขบวนและสามารถระบุรถไฟขบวนอื่นได้อย่างน่าเชื่อถือในขณะที่ NN ต้องการรูปภาพนับพัน!" แม้ว่าจะเป็นเรื่องจริง แต่คุณก็เพิกเฉยต่อข้อเท็จจริงที่ว่ารถไฟทุกลูกของคุณเห็นมีข้อมูลมากขึ้นกว่าภาพรถไฟเดียว ในความเป็นจริงสมองของลูกของคุณกำลังประมวลผลภาพรถไฟหลายสิบภาพต่อวินาทีในขณะที่มันผ่านแต่ละมุมที่แตกต่างกันเล็กน้อยเงาที่แตกต่างกัน ฯลฯ ในขณะที่ภาพเดียวจะให้ข้อมูล NN ที่ จำกัด มาก ในบริบทนี้ลูกของคุณยังมีข้อมูลที่ไม่สามารถใช้ได้กับ NN เช่นความเร็วของรถไฟหรือเสียงที่รถไฟทำ

นอกจากนี้ลูกของคุณสามารถพูดคุยและถามคำถาม! "รถไฟยาวมากใช่มั้ย" "ใช่", "และพวกเขาก็ใหญ่เกินไปใช่ไหม?" "ใช่.". ด้วยคำถามง่าย ๆ สองข้อลูกของคุณเรียนรู้คุณสมบัติที่สำคัญสองอย่างในเวลาไม่ถึงนาที!

อีกจุดสำคัญคือการตรวจจับวัตถุ ลูกของคุณสามารถระบุได้ทันทีว่าวัตถุใดคือส่วนใดของภาพนั้นจำเป็นต้องมุ่งเน้นในขณะที่ NN ต้องเรียนรู้ที่จะตรวจจับวัตถุที่เกี่ยวข้องก่อนจึงจะสามารถจำแนกวัตถุได้


3
ฉันยังเพิ่มว่าเด็กมีบริบท : เห็นรถไฟบนรางไม่ว่าจะเป็นที่สถานีข้ามระดับ ฯลฯ หากเห็นบอลลูนขนาดใหญ่ (ขนาดเรือเหาะ) รูปทรงและทาสีให้ดูเหมือนรถไฟบนท้องฟ้า มันจะไม่พูดว่าเป็นรถไฟ มันจะบอกว่าดูเหมือนว่ารถไฟ แต่จะไม่ติดป้าย "รถไฟ" ไว้กับมัน ฉันสงสัยว่า NN จะส่งคืนป้าย "บอลลูนดูรถไฟ" ในกรณีนี้ ในทำนองเดียวกันเด็กจะไม่ทำผิดป้ายโฆษณาด้วยรถไฟที่อยู่บนรถไฟจริง รูปภาพของรูปภาพของรถไฟคือรูปภาพของรถไฟไปยัง NN - มันจะส่งคืนป้ายชื่อ "รถไฟ"
corey979

3

ฉันจะโต้แย้งว่าการแสดงนั้นไม่แตกต่างอย่างที่คุณคาดหวัง แต่คุณถามคำถามที่ยอดเยี่ยม (ดูย่อหน้าสุดท้าย)

ในขณะที่คุณพูดถึงการเรียนรู้การถ่ายโอน: เพื่อเปรียบเทียบแอปเปิ้ลกับแอปเปิ้ลเราจะต้องดูจำนวนภาพทั้งหมดและจำนวนภาพของชั้นเรียนที่น่าสนใจที่มนุษย์ / โครงข่ายประสาทเห็น "เห็น"

1. มนุษย์มองภาพกี่ภาพ?

การเคลื่อนไหวตาของมนุษย์ใช้เวลาประมาณ 200 มิลลิวินาทีซึ่งสามารถมองได้ว่าเป็น "ภาพถ่ายชีวภาพ" ดูการพูดคุยโดยคอมพิวเตอร์วิสัยทัศน์ผู้เชี่ยวชาญเฟยเฟยหลี่: https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures#t-362785

เธอเพิ่ม:

ดังนั้นเมื่ออายุ 3 ขวบเด็ก ๆ จะได้เห็นภาพหลายร้อยล้านภาพ

ใน ImageNet ฐานข้อมูลชั้นนำสำหรับการตรวจจับวัตถุมีรูปภาพกำกับ ~ 14million ดังนั้นเครือข่ายประสาทที่ได้รับการฝึกฝนใน ImageNet จะเห็นภาพให้มากที่สุดเท่ากับทารกอายุ 14000000/5/60/60/24 * 2 ~ 64 วันดังนั้นอายุสองเดือน (สมมติว่าเด็กนั้นตื่นครึ่งชีวิตแล้ว) เพื่อความเป็นธรรมมันยากที่จะบอกว่ามีรูปภาพกี่รูปที่มีป้ายกำกับ ยิ่งกว่านั้นรูปภาพที่เด็กเห็นนั้นมีความหลากหลายไม่เหมือนใน ImageNet (อาจเป็นเพราะทารกเห็นแม่ของเธอมีเวลา ... ;) อย่างไรก็ตามฉันคิดว่ามันยุติธรรมที่จะบอกว่าลูกชายของคุณจะได้เห็นภาพหลายร้อยล้านภาพ (จากนั้นใช้การเรียนรู้การถ่ายโอน)

ดังนั้นเราจำเป็นต้องเรียนรู้รูปภาพกี่หมวดหมู่ใหม่เนื่องจากฐานของรูปภาพที่เกี่ยวข้องที่สามารถเรียนรู้ได้จากการถ่ายโอน

บล็อกโพสต์แรกที่ผมพบคือนี้: https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html พวกเขาใช้ 1,000 ตัวอย่างต่อชั้นเรียน ฉันสามารถจินตนาการได้ 2.5 ปีต่อมาแม้จะต้องการวิธีที่น้อยลง อย่างไรก็ตามมนุษย์สามารถมองเห็น 1,000 รูปได้ใน 1,000/5/60 ใน 3.3 นาที

คุณเขียน:

เด็กมนุษย์ที่อายุ 2 ขวบต้องการรถยนต์ประมาณ 5 ครั้งเพื่อให้สามารถระบุได้ด้วยความถูกต้องตามสมควรโดยไม่คำนึงถึงสียี่ห้อและอื่น ๆ

นั่นจะเทียบเท่ากับสี่สิบวินาทีต่ออินสแตนซ์ (ด้วยมุมต่าง ๆ ของวัตถุนั้นเพื่อให้เปรียบได้)

ในการสรุป: ดังที่ฉันได้กล่าวไปแล้วฉันต้องตั้งสมมติฐานเล็กน้อย แต่ฉันคิดว่าอย่างใดอย่างหนึ่งจะเห็นว่าประสิทธิภาพไม่แตกต่างกันอย่างที่คาดหวัง

อย่างไรก็ตามฉันเชื่อว่าคุณถามคำถามที่ดีและนี่คือเหตุผล:

2. โครงข่ายประสาทเทียมจะทำงานได้ดีขึ้นหรือแตกต่างกันถ้าทำงานเหมือนสมองมากขึ้น? (Geoffrey Hinton บอกว่าใช่)

ในการให้สัมภาษณ์https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/ในปลายปี 2018 เขาเปรียบเทียบการใช้งานปัจจุบันของเครือข่ายประสาทกับสมอง ในแง่ของน้ำหนักเขากล่าวถึงโครงข่ายประสาทเทียมที่เล็กกว่าสมองด้วยค่า 10.000 ดังนั้นสมองต้องการการฝึกอบรมที่น้อยลงเพื่อเรียนรู้ เพื่อให้เครือข่ายประสาทเทียมทำงานได้เหมือนสมองของเราเขาจึงติดตามแนวโน้มอื่น ๆ ในด้านฮาร์ดแวร์ มันช่วยลดเวลาในการคำนวณโดยวิธีการที่ชาญฉลาดในการจัดเก็บน้ำหนักของเครือข่ายประสาท ดังนั้นสามารถใช้น้ำหนักได้มากขึ้นและเวลาการฝึกอบรมของโครงข่ายใยประสาทเทียมอาจลดลง


2

ฉันเป็นผู้เชี่ยวชาญในเรื่องนี้ ฉันเป็นมนุษย์ฉันเป็นเด็กฉันมีรถยนต์และฉันก็ทำ AI

เหตุผลที่เด็กเลือกรถด้วยตัวอย่างที่ จำกัด มากขึ้นก็คือสัญชาตญาณ สมองของมนุษย์มีโครงสร้างที่จะจัดการกับการหมุนแบบสามมิติแล้ว นอกจากนี้ยังมีดวงตาสองข้างที่ให้การจับคู่แบบ Parallax สำหรับการทำแผนที่เชิงลึกที่ช่วยได้จริงๆ คุณสามารถหยั่งรู้ระหว่างรถยนต์กับรูปภาพรถยนต์เนื่องจากไม่มีความลึกที่แท้จริงของรูปภาพ Hinton (นักวิจัย AI) ได้เสนอแนวคิดของ Capsule Networks ซึ่งจะสามารถจัดการกับสิ่งต่าง ๆ ได้ง่ายขึ้น น่าเสียดายสำหรับคอมพิวเตอร์ข้อมูลการฝึกอบรมคือ (ปกติ) ภาพ 2 มิติ, อาร์เรย์ของพิกเซลแบน เพื่อไม่ให้พอดีข้อมูลมากจำเป็นต้องมีการวางแนวของรถยนต์ในภาพ สมองของทารกสามารถทำสิ่งนี้ได้แล้วและสามารถจดจำรถได้ทุกทิศทาง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.