ฟังก์ชันการให้รางวัลใดที่ส่งผลให้เกิดการเรียนรู้ที่ดีที่สุด


13

ลองนึกถึงสถานการณ์ต่อไปนี้:

  • คุณกำลังสอนหุ่นยนต์ให้เล่นปิงปอง
  • คุณกำลังสอนโปรแกรมเพื่อคำนวณสแควร์รูท
  • คุณกำลังสอนคณิตศาสตร์ให้เด็กในโรงเรียน

สถานการณ์เหล่านี้ (เช่นการเรียนรู้ภายใต้การดูแล) และอื่น ๆ อีกมากมายมีสิ่งหนึ่งที่ (เหมือนกัน): ผู้เรียนได้รับรางวัลตามผลงาน

คำถามของฉันคือฟังก์ชั่นของรางวัลควรมีลักษณะอย่างไร มีคำตอบที่ "ดีที่สุด" หรือขึ้นอยู่กับสถานการณ์หรือไม่? ถ้ามันขึ้นอยู่กับสถานการณ์หนึ่งจะกำหนดฟังก์ชั่นรางวัลที่จะเลือก?

ตัวอย่างเช่นรับฟังก์ชั่นรางวัลสามรายการต่อไปนี้:

ป้อนคำอธิบายรูปภาพที่นี่

  • ฟังก์ชั่นAพูดว่า:
    • ต่ำกว่าจุดหนึ่งไม่ดีหรือแย่ลงเหมือนกัน: คุณไม่ได้อะไรเลย
    • มีความแตกต่างที่ชัดเจนระหว่างเกือบดีและสมบูรณ์แบบ
  • ฟังก์ชั่นBพูดว่า:
    • คุณจะได้รับผลตอบแทนเป็นสัดส่วนตามประสิทธิภาพของคุณ
  • ฟังก์ชั่นCพูดว่า:
    • หากการแสดงของคุณไม่ดีมันก็โอเคคุณทำดีที่สุดแล้ว: คุณยังได้รับรางวัลอยู่บ้าง
    • ไม่มีความแตกต่างระหว่างที่สมบูรณ์แบบและเกือบดี

ฉันคิดว่าAจะทำให้หุ่นยนต์มีสมาธิมากและเรียนรู้รูปแบบที่แน่นอน แต่กลายเป็นคนโง่เมื่อต้องรับมือกับรูปแบบที่คล้ายกันในขณะที่Cมันจะสามารถปรับเปลี่ยนได้มากขึ้นด้วยต้นทุนของการสูญเสียความสมบูรณ์แบบ

หนึ่งอาจคิดว่าฟังก์ชั่นที่ซับซ้อนมากขึ้นเพียงเพื่อแสดง แต่น้อย:

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นเราจะรู้ได้อย่างไรว่าควรเลือกฟังก์ชั่นใด เป็นที่รู้จักกันซึ่งพฤติกรรมที่จะโผล่ออกมาจาก (อย่างน้อย) ขั้นพื้นฐานA, BและCฟังก์ชั่น?


คำถามข้างเคียงนี้จะแตกต่างกันมากสำหรับหุ่นยนต์และเด็กมนุษย์หรือไม่?


ฉันสงสัยว่าหุ่นยนต์จะกลายเป็นคนโง่โดยทำสิ่งเดียวกันหรือคล้ายกันซ้ำไปซ้ำมาเว้นแต่จะเป็นไซเบอร์เนติกส์
ott--

@ott นั่นไม่ใช่สิ่งที่ฉันหมายถึง สิ่งที่ฉันหมายถึงคือด้วยฟังก์ชั่นการให้รางวัลคล้ายกับAหุ่นยนต์สามารถทำงานได้ดีมาก ๆ แต่งานที่คล้ายกัน แต่แตกต่างกันเล็กน้อย นั่นเป็นเพียงการคาดเดาของฉัน
Shahbaz

อ่าฉันเข้าใจแล้ว คุณกำลังคิดว่าจะเล่นเทนนิสเช่น
ott--

บางทีทฤษฎีที่อยู่เบื้องหลังอาจมีความซับซ้อน แต่คำตอบที่บอกว่า "ฉันคิดว่างานที่แตกต่างกับหุ่นยนต์หลายตัวและมักจะXให้ผลลัพธ์ที่ดีที่สุดแก่ฉัน" แม้ว่าจะไม่ถูกต้องสมบูรณ์ก็ตาม
Shahbaz

คำตอบ:


5

คำตอบสั้น ๆ : เอฟเฟ็กต์การเสริมแรงที่แข็งแกร่งที่สุดมาจากการมอบรางวัลที่มีคุณค่าในช่วงเวลาที่กำหนด (แบบสุ่ม)

รุ่นที่ยาวกว่า: คำถามหนึ่งข้อของคุณเกี่ยวกับการปรับเงื่อนไขของ operantอย่างน้อยที่สุดก็ใช้กับการสอนคณิตศาสตร์ให้กับสิ่งมีชีวิตที่ซับซ้อน การประยุกต์ใช้นี้เพื่อเรียนรู้ของเครื่องเป็นที่รู้จักกันเรียนรู้การเสริมแรง

เศรษฐศาสตร์ (ตามคำตอบของ jwpat7 ) กล่าวถึงเพียงส่วนเดียวเท่านั้นในเรื่องการเสริมกำลัง ฟังก์ชั่นยูทิลิตี้บอกคุณว่ารางวัลมีผลกระทบการเสริมแรงที่แข็งแกร่งที่สุด (ผลกระทบที่ใหญ่ที่สุดต่อพฤติกรรม) ในบริบทที่กำหนด มันเป็นที่สรรเสริญหรือไม่ ช็อคโกแลต? โคเคน? กระตุ้นไฟฟ้าโดยตรงไปยังพื้นที่บางส่วนของสมอง? ส่วนใหญ่คำตอบของฉันเป็นเรื่องเกี่ยวกับผลกระทบของบริบทสมมติว่าให้รางวัลอรรถประโยชน์

สำหรับสิ่งมีชีวิต / พฤติกรรมที่ซับซ้อนการจัดตารางการให้รางวัลอย่างน้อยมีความสำคัญเท่ากับยูทิลิตี้การให้รางวัล:

  • "กำหนดการรางวัลช่วงเวลาที่แน่นอน" เป็นวิธีที่มีประสิทธิภาพน้อยที่สุดในการปรับเปลี่ยนพฤติกรรมด้วยจำนวนรางวัลที่กำหนด (ฉันจะให้เงิน $ 10 ต่อสัปดาห์หากคุณรักษาระเบียบห้องนอนของคุณไว้ให้เรียบร้อย) คิดว่าลูกบลัดเจอร์
  • ตารางเวลาคงที่อัตราส่วนผลตอบแทน (ฉันจะให้คุณ$ 10 ทุกวันเจ็ดคุณมีความเป็นระเบียบเรียบร้อยห้องนอน) มีประสิทธิภาพมากขึ้นกว่าช่วงเวลาที่คงที่ แต่พวกเขามีชนิดของฝ้าเพดานประสิทธิผล (คิดจะเป็นระเบียบเรียบร้อยห้องพักของพวกเขาเจ็ดครั้งเมื่อพวกเขากำลังหิวสำหรับ$ 10 แต่ไม่ใช่อย่างอื่น) คิดว่าทหารรับจ้าง
  • วิธีที่มีอิทธิพลมากที่สุดในการมอบรางวัลที่ได้รับด้วย "ตารางการเสริมช่วงเวลาผันแปร" (เช่นทุกวันที่คุณจัดห้องนอนของคุณเรียบร้อยคุณมีโอกาส 1/7 ในการได้รับ $ 10) คิดว่าเครื่องโป๊กเกอร์

หากคุณเป็นหัวหน้างานการเรียนรู้ที่มีงบประมาณรางวัลคงที่สำหรับสถานการณ์การเรียนรู้ที่กำหนดจะมีความสมดุลที่เหมาะสมของขนาดรางวัล (ยูทิลิตี้) และความถี่ มันอาจจะไม่ใช่ของรางวัลชิ้นเล็ก ๆ ที่มีความถี่สูงมากหรือรางวัลอันยิ่งใหญ่ชิ้นนี้ก็ไม่ค่อยมีให้ มันอาจจะเป็นรางวัลขนาดสุ่มในช่วงเวลาที่สุ่ม - โดยปกติจะมีการพิจารณาที่เหมาะสมที่สุดสำหรับสถานการณ์เฉพาะ

ในที่สุดกำหนดการ "เหมาะสม" (ความถี่สุ่มปริมาณสุ่ม {p (รางวัล), p (ค่า)}) อาจแตกต่างกันในแต่ละขั้นตอนในกระบวนการเรียนรู้ ตัวอย่างเช่นนักเรียนใหม่อาจได้รับผลกระทบ "primacy" (ยินดีต้อนรับ! มี Jelly Bean) ซึ่งจะกลายเป็นรางวัลช่วงเวลาคงที่ได้อย่างรวดเร็วหากคุณทำซ้ำ อาจมีเอฟเฟกต์ "ความใหม่" ที่ได้รับค่าการเสริมแรงมากขึ้นจากรางวัลที่มอบให้ในการทดลองครั้งสุดท้าย ("การทำให้จบด้วยโน้ตสูง") ในระหว่างนั้นอาจมี "ศรัทธาผล" สะสมที่ในฐานะผู้เรียนมีประสบการณ์มากขึ้นที่เหมาะสมอาจเปลี่ยนไปสู่ความน่าจะเป็นลดลงยูทิลิตี้ที่สูงขึ้นในช่วงเวลา อีกครั้งสิ่งที่เพิ่มเติมเพื่อกำหนดสังเกตุในสถานการณ์ของคุณ


คำตอบที่น่าสนใจมาก มันสมเหตุสมผลมาก
Shahbaz

ฉันอ่านคำตอบนี้อีกครั้งและฉันอยากจะบอกว่าคำตอบนี้ยอดเยี่ยมแค่ไหน! ที่จริงฉันขอมอบเงินรางวัลให้คุณ!
Shahbaz

6

"การเรียนรู้ที่เหมาะสมที่สุด" เป็นคำที่คลุมเครือมากและขึ้นอยู่กับปัญหาเฉพาะที่คุณกำลังทำอยู่ คำที่คุณกำลังค้นหาคือ " overfitting ": ป้อนคำอธิบายรูปภาพที่นี่

(เส้นสีเขียวเป็นข้อผิดพลาดในการทำนายผลลัพธ์ของข้อมูลการฝึกอบรมเส้นสีม่วงคุณภาพของแบบจำลองและเส้นสีแดงเป็นข้อผิดพลาดของรูปแบบการเรียนรู้ที่ใช้ "ในการผลิต")

กล่าวอีกนัยหนึ่ง: เมื่อมันมาถึงการปรับพฤติกรรมการเรียนรู้ของคุณกับ problmes ที่คล้ายกันวิธีที่คุณให้รางวัลระบบของคุณมีความสำคัญน้อยกว่าจำนวนครั้งที่คุณได้รับรางวัล - คุณต้องการลดข้อผิดพลาดในข้อมูลการฝึกอบรม นานว่าจะสูญเสียความสามารถในการทำงานกับรุ่นที่คล้ายกัน

วิธีหนึ่งในการจัดการปัญหานี้คือการลดข้อมูลการฝึกอบรมลงครึ่งหนึ่ง: ใช้ครึ่งหนึ่งเพื่อเรียนรู้และอีกครึ่งหนึ่งเพื่อตรวจสอบการฝึกอบรม มันช่วยให้คุณระบุเมื่อคุณเริ่มพอดี

ฟังก์ชันการให้รางวัลแบบไม่เป็นเชิงเส้น

อัลกอริทึมการเรียนรู้ภายใต้การดูแลส่วนใหญ่คาดว่าการใช้ฟังก์ชั่นของรางวัลจะสร้างผลลัพธ์ที่นูนออกมา กล่าวอีกนัยหนึ่งการมีตำแหน่งต่ำสุดในพื้นที่ในโค้งนั้นจะป้องกันระบบของคุณจากการแปลงเป็นพฤติกรรมที่เหมาะสม วิดีโอนี้แสดงให้เห็นว่าบิตของคณิตศาสตร์ที่อยู่เบื้องหลังค่าใช้จ่าย / ฟังก์ชั่นได้รับรางวัล


3

ปัญหาเหล่านี้ได้รับการแก้ไขในระดับหนึ่งโดยการศึกษาฟังก์ชั่นยูทิลิตี้ในทางเศรษฐศาสตร์ ฟังก์ชั่นยูทิลิตี้แสดงค่าที่มีประสิทธิภาพหรือการรับรู้ของสิ่งหนึ่งในแง่ของการอื่น (ในขณะที่เส้นโค้งที่แสดงในคำถามนั้นเป็นฟังก์ชั่นการให้รางวัลและแสดงว่าจะให้รางวัลเป็นเท่าใดสำหรับการแสดงในระดับต่าง ๆ แต่ฟังก์ชันยูทิลิตี้ที่มีลักษณะคล้ายกันนั้นสามารถแสดงได้ว่าผลการปฏิบัติงานเป็นอย่างไร

ฟังก์ชั่นของรางวัลจะทำงานได้ดีที่สุดขึ้นอยู่กับดุลยภาพระหว่างผู้จ่ายและนักแสดง บทความเส้นโค้งสัญญาวิกิพีเดียแสดงให้เห็นด้วยกล่อง Edgeworthวิธีการค้นหาการจัดสรรPareto ที่มีประสิทธิภาพ ยูทิลิตี้ Von Neumann-Morgenstern ทฤษฎีบทให้สัตยาบันเงื่อนไขที่ให้แน่ใจว่าตัวแทนเป็น VNM เหตุผลและสามารถโดดเด่นในฐานะที่มีฟังก์ชั่นยูทิลิตี้ ส่วน "การทำนายพฤติกรรมที่เกิดจากยูทิลิตี้ HARA" ของบทความการหลีกเลี่ยงความเสี่ยงที่เกินความจริงในวิกิพีเดียอธิบายถึงผลที่ตามมาจากพฤติกรรมของฟังก์ชันยูทิลิตี้บางอย่าง

สรุป: หัวข้อเหล่านี้เป็นหัวข้อของการศึกษาจำนวนมากในด้านเศรษฐศาสตร์และเศรษฐศาสตร์จุลภาค น่าเสียดายที่การสรุปสั้น ๆ และเป็นประโยชน์ที่ตอบคำถามของคุณอาจต้องใช้จำนวนมหาศาลของงานหรือความสนใจของคนที่ค่อนข้างมีความเชี่ยวชาญมากกว่าฉัน


มันค่อนข้างซับซ้อนฉันไม่แน่ใจว่าฉันเข้าใจหรือไม่ แต่คุณแน่ใจหรือไม่ว่าฟังก์ชั่นอรรถประโยชน์ของเศรษฐศาสตร์นั้นใช้กับหุ่นยนต์ด้วย ในการเรียนรู้แบบมีผู้สอน (ของหุ่นยนต์) ผู้จ่ายเงินจะไม่สูญเสียอะไรเลย รางวัลมักจะเป็นเพียงตัวเลขที่บอกหุ่นยนต์ว่าทำงานได้ดีเพียงใด
Shahbaz

1

ฟังก์ชั่นของรางวัลที่ดีที่สุดขึ้นอยู่กับวัตถุประสงค์การเรียนรู้คือสิ่งที่ต้องเรียนรู้ สำหรับปัญหาง่าย ๆ อาจเป็นไปได้ที่จะหาตัวแทนรูปแบบปิดสำหรับฟังก์ชั่นรางวัลที่ดีที่สุด ในความเป็นจริงสำหรับปัญหาที่ง่ายมากฉันมั่นใจว่าเป็นไปได้แม้ว่าฉันจะรู้ว่าไม่มีวิธีการที่เป็นทางการสำหรับการทำเช่นนั้น (ฉันสงสัยว่าทฤษฎียูทิลิตี้จะตอบคำถามนี้) สำหรับปัญหาที่ซับซ้อนมากขึ้นฉันจะยืนยันว่ามันเป็นไปไม่ได้ที่จะหาวิธีแก้ปัญหาแบบปิด

แทนที่จะค้นหาฟังก์ชั่นที่ดีที่สุดเราสามารถหาผู้เชี่ยวชาญเพื่อรับรางวัลที่ดี วิธีการหนึ่งในการทำเช่นนั้นคือเทคนิคที่เรียกว่า Inverse Reinforcement Learning (IRL) มันกำหนดปัญหาการเรียนรู้เป็นปัญหาการเรียนรู้เสริมที่ไม่ทราบฟังก์ชันการให้รางวัลและวัตถุประสงค์ของกระบวนการเรียนรู้ เอกสารการเรียนรู้การฝึกงานผ่าน Inverse Reinforcement Learning โดยPieter AbbeelและAndrew Ngเป็นสถานที่ที่เหมาะสำหรับการเริ่มเรียนรู้เกี่ยวกับ IRL


0

รูปแบบใด ๆ ของการเรียนรู้ภายใต้การดูแลคือการค้นหาโดยตรงในพื้นที่นโยบาย คุณพยายามค้นหานโยบาย - เพื่อดำเนินการใด - ซึ่งให้ความคาดหวังของรางวัลสูงสุด ในคำถามของคุณคุณให้รางวัลเป็นหน้าที่ของการแสดง ตราบใดที่ฟังก์ชั่นนี้เป็นเสียงโมโนวิธีการใด ๆ ที่มาบรรจบกันในที่สุดก็จะทำให้คุณมีประสิทธิภาพสูงสุด (อยู่กับคำศัพท์ของคุณ)

วิธีการที่เร็วบรรจบกันเป็นเรื่องอื่นและอาจขึ้นอยู่กับเส้นโค้ง แต่ฉันคิดว่านี่จะแตกต่างจากวิธีการวิธี

ปัญหาที่แตกต่างอย่างสิ้นเชิงคือประสิทธิภาพของสถานการณ์ที่ซับซ้อนมากขึ้นนั้นไม่ได้เป็นแบบสเกลาร์ง่ายและการนิยามมันอาจเป็นเรื่องยาก ฟังก์ชั่นของรางวัลสำหรับการเก่งคณิตศาสตร์คืออะไร?


วิธีการที่เร็วบรรจบกันเป็นเรื่องอื่นและอาจขึ้นอยู่กับเส้นโค้ง แน่นอน ฉันพยายามที่จะเข้าใจว่าเส้นโค้งมีผลต่อการเรียนรู้อย่างไร (และไม่ใช่ถ้าเป็นเช่นนั้นเพราะฉันรู้แล้ว)
Shahbaz
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.