เครือข่ายประสาทมีแนวโน้มที่จะลืมความหายนะหรือไม่?


37

ลองนึกภาพคุณแสดงภาพสิงโตที่มีโครงข่ายประสาทเป็น 100 เท่าและติดป้ายว่า "อันตราย" ดังนั้นมันจึงเรียนรู้ว่าสิงโตนั้นมีอันตราย

ทีนี้ลองนึกภาพว่าก่อนหน้านี้คุณได้แสดงภาพสิงโตจำนวนหลายล้านภาพและระบุว่ามันเป็น "อันตราย" และ "ไม่อันตราย" ดังนั้นความน่าจะเป็นที่สิงโตจะเป็นอันตราย 50%

แต่ในช่วง 100 ครั้งที่ผ่านมาได้ผลักเครือข่ายประสาทเทียมให้เป็นบวกมากเกี่ยวกับสิงโตว่า "อันตราย" จึงเพิกเฉยต่อบทเรียนล้านครั้งสุดท้าย

ดังนั้นจึงดูเหมือนว่ามีข้อบกพร่องในเครือข่ายประสาทในการที่พวกเขาสามารถเปลี่ยนความคิดของพวกเขาเร็วเกินไปจากหลักฐานล่าสุด โดยเฉพาะอย่างยิ่งหากหลักฐานก่อนหน้านั้นอยู่ตรงกลาง

มีโมเดลโครงข่ายประสาทเทียมที่ติดตามหลักฐานว่ามีการเห็นมากแค่ไหน? (หรือนี่จะเท่ากับการปล่อยให้อัตราการเรียนรู้ลดลง1/Tโดยที่Tคือจำนวนการทดลอง)


ฉันกำลังพูดถึงการเรียนรู้ภายใต้การดูแลโดยที่ผู้ใช้บอก NN ว่าสิงโตนั้นอันตราย
zooby

เรื่องแบบนี้เกิดขึ้นกับคนเช่นกัน มันน่ากลัวจริงๆที่คน ๆ หนึ่งจะ“ เข้าใจผิด” ได้ง่าย ๆ ว่ามีบางสิ่งที่อันตรายหลังจากทำหลายครั้งโดยที่ไม่เกิดผลซึ่งใกล้เคียงกับสถานการณ์ที่คุณได้อธิบายไว้กับ AI
Tomáš Zato

2
ตั้งค่าสถานะเป็นวงกว้างเกินไป วิธีนี้ขึ้นอยู่กับเทคนิคการจดจำที่ใช้โดยเครือข่าย เห็นได้ชัดว่าแน่นอนในบางกรณีเครือข่ายจะ "ลืม" แต่ในกรณีอื่น ๆ มันจะไม่ ควรชัดเจนว่าคำตอบสำหรับคำถามนี้ควรเริ่มต้นและจบด้วย "ขึ้นอยู่กับ"
8protons

3
เพื่อความยุติธรรมนี่เป็นหนึ่งในข้อตกลงประเภท "เลือกพิษของคุณ" NN ที่โปรดปรานประสบการณ์ล่าสุดในประวัติศาสตร์มักจะเพิกเฉยต่ออดีต แต่สามารถตอบสนองต่อการพัฒนาล่าสุดได้ ตัวอย่างเช่นสมมติว่าสิงโตทุกตัวหันมาเป็นนักฆ่าในชั่วข้ามคืนจากนั้น NN ของคุณที่สนับสนุนประสบการณ์ล่าสุดจะเร็วขึ้นมากในการรับภัยคุกคามใหม่เมื่อเทียบกับ NN ที่ช้ากว่าซึ่ง basicaly กล่าวว่า "สิงโตไม่เคยเป็นอันตรายในอดีตเลย สรุปว่าไม่มีอะไรใหม่เกิดขึ้น "จนกว่าสิงโตจะอันตราย 100% นานกว่าที่คุณต้องการ (และมนุษย์เสียชีวิตจำนวนมากในภายหลัง)
Flater

1
นอกจากนี้ AGI จะมีการถ่วงน้ำหนักข้อผิดพลาดที่เกี่ยวข้อง - ข้อผิดพลาดทั้งสองนั้นไม่ได้ผลเท่ากัน
MSalters

คำตอบ:


38

ใช่แน่นอนเครือข่ายประสาทมีความเสี่ยงที่จะลืมภัยพิบัติ (หรือรบกวน) ปัจจุบันปัญหานี้มักจะละเลยเพราะเครือข่ายประสาทได้รับการอบรมส่วนใหญ่ออฟไลน์ (บางครั้งเรียกว่าการฝึกอบรมชุด ) ซึ่งปัญหานี้ไม่ได้เกิดขึ้นบ่อยครั้งและไม่ออนไลน์หรือเพิ่มขึ้นซึ่งเป็นพื้นฐานของการพัฒนาปัญญาประดิษฐ์ทั่วไป

มีบางคนที่ทำงานในการเรียนรู้ตลอดชีวิตอย่างต่อเนื่องในโครงข่ายประสาทเทียมซึ่งพยายามที่จะปรับเปลี่ยนเครือข่ายประสาทเทียมให้เป็นการเรียนรู้ตลอดชีวิตอย่างต่อเนื่องซึ่งเป็นความสามารถของแบบจำลองในการเรียนรู้จากกระแสข้อมูลอย่างต่อเนื่อง ความรู้ในขณะที่การเรียนรู้ข้อมูลใหม่ ดูตัวอย่างเช่นกระดาษการเรียนรู้ตลอดชีวิตอย่างต่อเนื่องกับเครือข่ายประสาทเทียม: บทวิจารณ์ (2019) โดย German I. Parisi, Ronald Kemker, Jose L. Part, Christopher Kanan, Christopher Kanan, Stefan Wermter ซึ่งสรุปปัญหาและวิธีแก้ปัญหาที่เกี่ยวข้องกับภัยพิบัติ ลืมเครือข่ายประสาท


1
ขอบคุณ! ฉันจะอ่านบทความที่คุณแนะนำ
zooby

7
ความเสียหายอันน่าอับอายของ chatbot "Tay" ของ Microsoft เป็นตัวอย่างของการลืมความหายนะหรือไม่?
ไม่มีคุณ

4
@TKK ฉันคิดว่านี่จะเป็นคำถามใหม่ที่ดีในเว็บไซต์!
nbro

2
@TKK คุณจะถามหรือไม่ ถ้าไม่คนอื่นสามารถทำเช่นนั้นได้? ฉันอยากรู้คำตอบจริงๆ
wizzwizz4

2
ฉันค่อนข้างแน่ใจว่าวลี "มีบางคนที่ทำงานในการเรียนรู้ตลอดชีวิตอย่างต่อเนื่องในเครือข่ายประสาทเทียมซึ่งพยายามที่จะปรับเครือข่ายประสาทเพื่อการเรียนรู้ตลอดชีวิตอย่างต่อเนื่อง" ถูกเขียนโดยเครือข่ายประสาท
Moyli

14

ใช่ปัญหาของการลืมตัวอย่างการฝึกอบรมที่เก่ากว่านั้นเป็นลักษณะของ Neural Networks ฉันจะไม่เรียกมันว่า "ข้อบกพร่อง" แต่เนื่องจากมันช่วยให้พวกเขาปรับตัวได้มากขึ้นและช่วยให้แอพพลิเคชั่นที่น่าสนใจเช่นการเรียนรู้การถ่ายโอน (ถ้าเครือข่ายจำการฝึกอบรมเก่าได้ดี

ในทางปฏิบัติสิ่งที่คุณต้องการทำคือการผสมตัวอย่างการฝึกอบรมสำหรับอันตรายและไม่เป็นอันตรายเพื่อที่จะไม่เห็นหมวดหมู่หนึ่งในตอนแรกและตอนท้าย

ขั้นตอนการฝึกอบรมมาตรฐานจะทำงานเช่นนี้:

for e in epochs:
    shuffle dataset
    for x_batch, y_batch in dataset:
        train neural_network on x_batxh, y_batch

โปรดทราบว่าการสลับในทุกยุครับประกันว่าเครือข่ายจะไม่เห็นตัวอย่างการฝึกอบรมเดียวกันตามลำดับเดียวกันทุกยุคและชั้นจะถูกผสม

ตอนนี้เพื่อตอบคำถามของคุณใช่การลดอัตราการเรียนรู้จะทำให้เครือข่ายมีโอกาสน้อยที่จะลืมการฝึกอบรมครั้งก่อน แต่วิธีนี้จะทำงานในสภาพแวดล้อมที่ไม่ใช่ออนไลน์ได้อย่างไร เพื่อให้เครือข่ายมาบรรจบกันนั้นจำเป็นต้องมีการฝึกฝนหลายครั้ง (เช่นเห็นแต่ละตัวอย่างในชุดข้อมูลหลายครั้ง)


4

สิ่งที่คุณกำลังอธิบายฟังดูเหมือนจะเป็นกรณีของการปรับจูนอย่างละเอียด

มีข้อสันนิษฐานเบื้องต้นที่ทำให้งานการเรียนรู้การลาดลงของรถมินิบัสสำหรับปัญหาการเรียนรู้: สันนิษฐานว่ามีชุดหรือหน้าต่างชั่วคราวของแบตช์ต่อเนื่องในรูปแบบการประมาณที่เหมาะสมของโลกที่แท้จริงการไล่ระดับสีของฟังก์ชันข้อผิดพลาดเกี่ยวกับการกำหนดพารามิเตอร์ของโมเดล หากพื้นผิวของข้อผิดพลาดเคลื่อนไหวอย่างใหญ่โตนั่นจะขัดขวางวัตถุประสงค์ของการไล่ระดับสี - เนื่องจากการไล่ระดับสีเป็นวิธีการปรับแต่งท้องถิ่นการเดิมพันทั้งหมดจะปิดเมื่อคุณเปลี่ยนการกระจายพื้นฐาน ในตัวอย่างที่คุณอ้างถึงความหายนะที่ลืมไปดูเหมือนว่ามันจะเป็นผลมาจากการมีจุดข้อมูลที่ "ลืม" ที่เคยเห็นมาก่อนหน้านี้และเป็นอาการของการกระจายที่มีการเปลี่ยนแปลงหรือเป็นตัวแทนของข้อมูลปรากฏการณ์ที่สำคัญบางอย่าง เช่นว่าไม่ค่อยเห็นความสำคัญของมัน

เล่นซ้ำประสบการณ์จากการเรียนรู้การเสริมแรงเป็นแนวคิดที่เกี่ยวข้องที่ถ่ายโอนได้ดีกับโดเมนนี้ นี่คือบทความที่สำรวจแนวคิดนี้เกี่ยวกับการลืมความหายนะ ตราบใดที่การสุ่มตัวอย่างแสดงถึงการไล่ระดับสีที่แท้จริงอย่างเพียงพอ (ดูตัวอย่างการฝึกอบรมการทรงตัวสำหรับเรื่องนี้) และโมเดลมีพารามิเตอร์เพียงพอปัญหาการลืมความหายนะนั้นไม่น่าเกิดขึ้น ในชุดข้อมูลแบบสุ่มที่มีการแทนที่มันมักเกิดขึ้นเมื่อดาต้าพอยน์ของคลาสนั้นหายากจนไม่น่าจะถูกรวมไว้เป็นเวลานานในระหว่างการฝึกอบรมปรับจูนโมเดลเป็นปัญหาต่าง ๆ ได้อย่างมีประสิทธิภาพจนกระทั่งตัวอย่างที่ตรงกัน เห็นอีกครั้ง


1

เพื่อตอบคำถามของคุณฉันจะพูดว่า: อาจเป็นไปได้ในทางทฤษฎี แต่ไม่ใช่ในทางปฏิบัติ


ปัญหาคือว่าคุณเพียงพิจารณาตามลำดับเหตุการณ์ / การฝึกอบรมตามลำดับ

เพียงครั้งเดียวมีผมใช้วิธีการฝึกอบรมดังกล่าวลำดับที่เรียกว่าออนไลน์การฝึกอบรมหรือการเรียนรู้เครื่องออนไลน์ ที่ได้รับการใช้ห้องสมุด Wabbit woppal มันเป็นคุณสมบัติ (ไม่ใช่ปัญหาอย่างที่คุณพิจารณา) ของไลบรารีนี้เพื่อปรับตามลำดับเวลากับอินพุตที่ป้อนด้วย

ฉันยืนยัน : ในกรณีของห้องสมุด Woppal Wabbit นั้นมันเป็นคุณสมบัติที่จะปรับตามลำดับเวลา เป็นที่ต้องการว่าเมื่อคุณเริ่มบอกเขาว่าสิงโตนั้นอันตรายแล้วมันก็ปรับตาม


แต่ในกรณีอื่น ๆ ทั้งหมดจากแบบฝึกหัดของหลักสูตรไปจนถึงการแข่งขันที่ยุ่งเหยิงฉันได้ใช้ชุดข้อมูลสุ่มของฉันเป็นชุดฝึกอบรม และนี่เป็นสิ่งที่สำคัญมาก :

มันเป็นส่วนสำคัญของการเรียนรู้เครื่องซึ่งเรียกว่ารอการตรวจสอบ มันเป็นวิธีการประเมินว่าโครงข่ายประสาทเทียมที่ผ่านการฝึกอบรมนั้นดีเพียงใด

เพื่อให้การประเมินความถูกต้องของเครือข่ายประสาทของคุณดีขึ้นคุณจะได้รับชุดข้อมูลการฝึกอบรมแบบสุ่มในระยะสั้นคุณจะได้รับข้อมูล 80% ของการฝึกอบรมและ 20% ที่เหลือคุณประเมินความถี่ โครงข่ายใยประสาทเทียมที่ผ่านการฝึกอบรมให้การคาดการณ์ที่ดี

และสิ่งหนึ่งก็ไม่สามารถหายไปได้โดยปราศจากการตรวจสอบความถูกต้องของ Cross เพราะจำเป็นต้องตรวจสอบ Overfitting (ซึ่งเป็นข้อกังวลอื่น)

อาจดูเหมือนว่าคุณชอบปัญหาทางทฤษฎีที่เป็นไปได้ แต่ฉันมักจะบอกว่าการใช้วิธีการตรวจสอบความถูกต้องข้ามปัจจุบันทำให้ความกังวลของคุณไม่เกี่ยวข้อง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.