อะไรคือความแตกต่างระหว่างการเรียนรู้การเสริมแรงแบบไม่มีโมเดลและแบบจำลอง?
สำหรับฉันแล้วดูเหมือนว่าผู้เรียนแบบฟรีที่เรียนรู้ผ่านการลองผิดลองถูกสามารถอ้างอิงเป็นแบบจำลองได้ ในกรณีนั้นผู้เรียนที่ไม่มีโมเดลจะมีความเหมาะสมเมื่อใด
อะไรคือความแตกต่างระหว่างการเรียนรู้การเสริมแรงแบบไม่มีโมเดลและแบบจำลอง?
สำหรับฉันแล้วดูเหมือนว่าผู้เรียนแบบฟรีที่เรียนรู้ผ่านการลองผิดลองถูกสามารถอ้างอิงเป็นแบบจำลองได้ ในกรณีนั้นผู้เรียนที่ไม่มีโมเดลจะมีความเหมาะสมเมื่อใด
คำตอบ:
การเรียนรู้การเสริมแรงแบบจำลองมีตัวแทนพยายามที่จะเข้าใจโลกและสร้างแบบจำลองเพื่อเป็นตัวแทน ที่นี่ตัวแบบพยายามจับภาพ 2 ฟังก์ชั่น, ฟังก์ชั่นการเปลี่ยนจากสถานะและฟังก์ชันรางวัล Rจากโมเดลนี้เอเจนต์มีข้อมูลอ้างอิงและสามารถวางแผนได้อย่างเหมาะสม
อย่างไรก็ตามไม่จำเป็นต้องเรียนรู้รูปแบบและตัวแทนสามารถเรียนรู้นโยบายโดยตรงโดยใช้อัลกอริทึมเช่น Q-learning หรือไล่ระดับนโยบาย
การตรวจสอบง่าย ๆ เพื่อดูว่าอัลกอริทึม RL เป็นแบบจำลองหรือไม่มีโมเดลคือ:
หากหลังจากเรียนรู้ตัวแทนสามารถทำการคาดการณ์เกี่ยวกับสิ่งที่รัฐต่อไปและรางวัลจะเป็นก่อนที่จะดำเนินการในแต่ละการกระทำมันเป็นขั้นตอนวิธี RL ตามแบบจำลอง
หากไม่สามารถทำได้แสดงว่าเป็นอัลกอริธึมที่ไม่มีโมเดล
อะไรคือความแตกต่างระหว่างการเรียนรู้การเสริมแรงแบบไม่มีโมเดลและแบบจำลอง?
ในการเรียนรู้การเสริมแรงคำว่า "ตามโมเดล" และ "ไม่มีโมเดล" ไม่ได้อ้างถึงการใช้โครงข่ายประสาทเทียมหรือโมเดลการเรียนรู้ทางสถิติอื่น ๆ เพื่อทำนายค่าหรือแม้กระทั่งทำนายสถานะถัดไป ส่วนหนึ่งของอัลกอริธึมตามโมเดลและถูกเรียกว่า "โมเดล" โดยไม่คำนึงว่าอัลกอริทึมนั้นใช้โมเดลหรือไม่มีโมเดล)
คำนี้หมายถึงอย่างเคร่งครัดว่าในระหว่างการเรียนรู้หรือการกระทำตัวแทนใช้การคาดการณ์การตอบสนองต่อสภาพแวดล้อม ตัวแทนสามารถใช้การทำนายเดียวจากแบบจำลองของรางวัลต่อไปและสถานะถัดไป (ตัวอย่าง) หรือสามารถขอแบบจำลองสำหรับรางวัลถัดไปที่คาดหวังหรือการกระจายอย่างเต็มที่ของรัฐถัดไปและผลตอบแทนต่อไป การคาดการณ์เหล่านี้สามารถให้ได้อย่างสมบูรณ์นอกตัวแทนการเรียนรู้ - เช่นโดยรหัสคอมพิวเตอร์ที่เข้าใจกฎของลูกเต๋าหรือเกมกระดาน หรือพวกเขาสามารถเรียนรู้ได้โดยตัวแทนซึ่งในกรณีนี้พวกเขาจะเป็นค่าประมาณ
เพียงเพราะมีรูปแบบของสภาพแวดล้อมที่นำมาใช้ไม่ได้หมายความว่าเอเจนต์ RL คือ "แบบจำลองตามรูปแบบ" เพื่อให้มีคุณสมบัติเป็น "ใช้โมเดล" อัลกอริทึมการเรียนรู้จะต้องอ้างอิงโมเดลอย่างชัดเจน:
อัลกอริทึมที่หมดจดตัวอย่างจากประสบการณ์เช่น Monte Carlo Control, SARSA, Q-learning, นักแสดง - นักวิจารณ์เป็นอัลกอริทึม RL แบบ "ฟรีโมเดล" พวกเขาพึ่งพาตัวอย่างจริงจากสภาพแวดล้อมและไม่เคยใช้การคาดการณ์ที่สร้างขึ้นจากสถานะถัดไปและรางวัลต่อไปเพื่อเปลี่ยนพฤติกรรม (แม้ว่าพวกเขาอาจจะตัวอย่างจากหน่วยความจำประสบการณ์ซึ่งใกล้เคียงกับแบบจำลอง)
อัลกอริธึมตามโมเดลต้นแบบคือการเขียนโปรแกรมแบบไดนามิก (การวนซ้ำนโยบายและการวนซ้ำมูลค่า) - ทั้งหมดนี้ใช้การทำนายหรือการกระจายของโมเดลของสถานะถัดไปและให้รางวัลเพื่อคำนวณการกระทำที่เหมาะสมที่สุด โดยเฉพาะในการเขียนโปรแกรมแบบไดนามิกโมเดลจะต้องจัดเตรียมความน่าจะเป็นในการเปลี่ยนสถานะและรางวัลที่คาดหวังจากรัฐคู่กระทำใด ๆ หมายเหตุนี่ไม่ค่อยเป็นแบบเรียนรู้
การเรียนรู้ TD พื้นฐานโดยใช้ค่าสถานะเท่านั้นจะต้องเป็นแบบจำลองเพื่อที่จะทำงานเป็นระบบควบคุมและเลือกการกระทำ ในการเลือกการกระทำที่ดีที่สุดจะต้องค้นหาแบบจำลองที่ทำนายว่าจะเกิดอะไรขึ้นในแต่ละการกระทำและใช้นโยบายเช่นโดยที่ความน่าจะเป็นของการได้รับรางวัลและรัฐต่อไปเมื่อการดำเนินการในรัฐs ที่ฟังก์ชั่น P ( s ' , R | s , )เป็นหลักรูปแบบ
วรรณกรรม RL สร้างความแตกต่างระหว่าง "แบบจำลอง" เป็นแบบจำลองของสภาพแวดล้อมสำหรับการเรียนรู้ "แบบจำลองตามรูปแบบ" และ "ไม่มีแบบจำลอง" และการใช้ผู้เรียนเชิงสถิติเช่นเครือข่ายประสาท
ใน RL เครือข่ายประสาทมักใช้ในการเรียนรู้และทำให้ฟังก์ชั่นค่าทั่วไปเช่นค่า Q ซึ่งทำนายผลตอบแทนรวม เครือข่ายประสาทที่ได้รับการฝึกฝนเช่นนี้มักถูกเรียกว่า "แบบจำลอง" ในการเรียนรู้แบบมีผู้สอน อย่างไรก็ตามในวรรณกรรม RL คุณจะเห็นคำว่า "ตัวประมาณฟังก์ชั่น" ใช้สำหรับเครือข่ายดังกล่าวเพื่อหลีกเลี่ยงความคลุมเครือ
สำหรับฉันแล้วดูเหมือนว่าผู้เรียนแบบฟรีที่เรียนรู้ผ่านการลองผิดลองถูกสามารถอ้างอิงเป็นแบบจำลองได้
ฉันคิดว่าที่นี่คุณกำลังใช้ความเข้าใจทั่วไปของคำว่า "แบบจำลอง" เพื่อรวมโครงสร้างใด ๆ ที่ทำให้การคาดการณ์มีประโยชน์ ที่จะนำไปใช้กับเช่นตารางค่า Q ใน SARSA
อย่างไรก็ตามดังที่อธิบายไว้ข้างต้นนั่นไม่ใช่วิธีการใช้คำใน RL ดังนั้นแม้ว่าคุณจะเข้าใจว่า RL สร้างการเป็นตัวแทนภายในที่มีประโยชน์นั้นถูกต้อง แต่คุณก็ไม่ถูกต้องทางเทคนิคที่สามารถใช้ในการกำหนดกรอบใหม่ระหว่าง "ปราศจากโมเดล" เป็น "อิงโมเดล" เนื่องจากคำเหล่านั้นมีความหมายเฉพาะมากใน RL .
ในกรณีนั้นผู้เรียนที่ไม่มีโมเดลจะมีความเหมาะสมเมื่อใด
โดยทั่วไปแล้วด้วยสถานะปัจจุบันของศิลปะใน RL หากคุณไม่มีโมเดลที่ถูกต้องซึ่งเป็นส่วนหนึ่งของคำนิยามปัญหาวิธีการแบบฟรีโมเดลมักจะเหนือกว่า
มีความสนใจมากมายในตัวแทนที่สร้างแบบจำลองการทำนายของสภาพแวดล้อมและการทำเช่นนี้ในฐานะ "ผลข้างเคียง" (ในขณะที่ยังคงเป็นอัลกอริธึมแบบฟรี) ยังคงมีประโยชน์ - มันอาจทำให้เครือข่ายประสาทเป็นปกติ คุณลักษณะที่สามารถใช้ในนโยบายหรือเครือข่ายค่า อย่างไรก็ตามเอเจนต์ตามโมเดลที่เรียนรู้โมเดลของตนเองสำหรับการวางแผนมีปัญหาที่ความไม่ถูกต้องในโมเดลเหล่านี้อาจทำให้เกิดความไม่แน่นอน (ความไม่ถูกต้องจะเพิ่มขึ้นอีกในอนาคตที่เอเจนต์มอง) การรุกล้ำที่คาดหวังบางอย่างกำลังทำขึ้นโดยใช้ตัวแทนจากจินตนาการและ / หรือกลไกในการตัดสินใจว่าจะไว้วางใจโมเดลที่เรียนรู้ในระหว่างการวางแผนและเวลาเท่าใด
ตอนนี้ (ในปีพ. ศ. 2561) หากคุณมีปัญหาจริงในสภาพแวดล้อมที่ไม่มีรูปแบบที่รู้จักชัดเจนในตอนเริ่มต้นการเดิมพันที่ปลอดภัยที่สุดคือการใช้วิธีที่ไม่มีรูปแบบเช่น DQN หรือ A3C นั่นอาจเปลี่ยนแปลงได้เมื่อสนามเคลื่อนที่อย่างรวดเร็วและสถาปัตยกรรมที่ซับซ้อนขึ้นใหม่อาจเป็นบรรทัดฐานในไม่กี่ปี
ในการเรียนรู้การเสริมแรง (RL) มีตัวแทนซึ่งโต้ตอบกับสภาพแวดล้อม (ในขั้นตอนเวลา) ในแต่ละขั้นตอนเวลาตัวแทนตัดสินใจและรันกระทำ ,
เป้าหมายหลักของตัวแทนคือการรวบรวมรางวัลมากที่สุด "ในระยะยาว" ในการทำเช่นนั้นเอเจนต์ต้องค้นหานโยบายที่เหมาะสม (โดยประมาณซึ่งเป็นกลยุทธ์ที่เหมาะสมที่สุดในการทำงานในสภาพแวดล้อม) โดยทั่วไปแล้วนโยบายคือฟังก์ชั่นที่กำหนดสถานะปัจจุบันของสภาพแวดล้อมเอาท์พุทการกระทำ (หรือการกระจายความน่าจะเป็นเหนือการกระทำหากนโยบายเป็นแบบสุ่ม ) เพื่อดำเนินการในสภาพแวดล้อม นโยบายจึงถือได้ว่าเป็น "กลยุทธ์" ที่เอเจนต์ใช้ในการทำงานในสภาพแวดล้อมนี้ นโยบายที่ดีที่สุด (สำหรับสภาพแวดล้อมที่กำหนด) เป็นนโยบายที่หากปฏิบัติตามจะทำให้ตัวแทนรวบรวมรางวัลจำนวนมากที่สุดในระยะยาว (ซึ่งเป็นเป้าหมายของตัวแทน) ใน RL เราจึงสนใจค้นหานโยบายที่เหมาะสมที่สุด
สภาพแวดล้อมสามารถกำหนดได้ (นั่นคือคร่าวๆการกระทำเดียวกันในสถานะเดียวกันจะนำไปสู่สถานะถัดไปเหมือนกันสำหรับทุกขั้นตอนตลอดเวลา) หรือสุ่ม (หรือไม่กำหนดขึ้น) นั่นคือหากตัวแทนดำเนินการใน บางสถานะผลลัพธ์สถานะถัดไปของสภาพแวดล้อมอาจไม่จำเป็นต้องเหมือนกันเสมอไป: มีความน่าจะเป็นที่จะเป็นสถานะที่แน่นอน แน่นอนความไม่แน่นอนเหล่านี้จะทำให้การค้นหานโยบายที่ดีที่สุดยากขึ้น
ใน RL ปัญหามักถูกกำหนดทางคณิตศาสตร์เป็นกระบวนการตัดสินใจของมาร์คอฟ (MDP) MDP เป็นวิธีการแสดง "พลวัต" ของสภาพแวดล้อมนั่นคือวิธีที่สภาพแวดล้อมจะตอบสนองต่อการกระทำที่เป็นไปได้ที่ตัวแทนอาจใช้ในสถานะที่กำหนด ที่แม่นยำยิ่งกว่า MDP นั้นมีฟังก์ชั่นการเปลี่ยน (หรือ "โมเดลการเปลี่ยนแปลง") ซึ่งเป็นฟังก์ชั่นที่ให้สถานะปัจจุบันของสภาพแวดล้อมและการกระทำ (ซึ่งเอเจนต์อาจใช้) ส่งผลให้มีโอกาสในการ ของรัฐต่อไป ฟังก์ชั่นได้รับรางวัลยังเชื่อมโยงกับ MDP ฟังก์ชั่นการให้รางวัลจะให้รางวัลโดยแสดงสถานะของสภาพแวดล้อมในปัจจุบัน (และอาจเป็นการกระทำที่กระทำโดยตัวแทนและสถานะถัดไปของสภาพแวดล้อม) โดยรวมแล้วฟังก์ชั่นการเปลี่ยนแปลงและการให้รางวัลมักจะเรียกว่าแบบจำลองของสภาพแวดล้อม เพื่อสรุป MDP เป็นปัญหาและการแก้ไขปัญหาเป็นนโยบาย นอกจากนี้ "การเปลี่ยนแปลง" ของสภาพแวดล้อมยังถูกควบคุมด้วยฟังก์ชั่นการเปลี่ยนแปลงและการให้รางวัล (นั่นคือ "แบบจำลอง")
อย่างไรก็ตามเรามักจะไม่มี MDP นั่นคือเราไม่มีฟังก์ชั่นการเปลี่ยนและให้รางวัล (ของ MDP ที่เกี่ยวข้องกับสภาพแวดล้อม) ดังนั้นเราจึงไม่สามารถประเมินนโยบายจาก MDP ได้เนื่องจากไม่ทราบ โปรดทราบว่าโดยทั่วไปหากเรามีการเปลี่ยนแปลงและให้รางวัลฟังก์ชั่นของ MDP ที่เกี่ยวข้องกับสภาพแวดล้อมเราสามารถใช้ประโยชน์จากพวกเขาและดึงนโยบายที่เหมาะสม (โดยใช้อัลกอริธึมการเขียนโปรแกรมแบบไดนามิก)
ในกรณีที่ไม่มีฟังก์ชั่นเหล่านี้ (นั่นคือเมื่อไม่ทราบ MDP) เพื่อประเมินนโยบายที่เหมาะสมเอเจนต์ต้องโต้ตอบกับสภาพแวดล้อมและสังเกตการตอบสนองของสภาพแวดล้อม สิ่งนี้มักถูกเรียกว่า "ปัญหาการเรียนรู้การเสริมแรง" เพราะตัวแทนจะต้องประเมินนโยบายโดยการตอกย้ำความเชื่อของตนเกี่ยวกับการเปลี่ยนแปลงของสภาพแวดล้อม เมื่อเวลาผ่านไปเอเจนต์จะเริ่มเข้าใจว่าสภาพแวดล้อมตอบสนองต่อการกระทำของมันอย่างไรและสามารถเริ่มประเมินนโยบายที่เหมาะสมได้ ดังนั้นในปัญหา RL ตัวแทนประมาณการนโยบายที่ดีที่สุดที่จะทำงานในสภาพแวดล้อมที่ไม่รู้จัก (หรือบางส่วนที่รู้จัก) โดยการโต้ตอบกับมัน (โดยใช้วิธีการ "ทดลองและข้อผิดพลาด")
ในบริบทนี้ก แบบจำลองอัลกอริทึมเป็นอัลกอริทึมที่ใช้ฟังก์ชั่นการเปลี่ยนแปลง (และฟังก์ชั่นรางวัล) เพื่อประเมินนโยบายที่ดีที่สุด เอเจนต์อาจเข้าถึงฟังก์ชันการเปลี่ยนแปลงและการให้รางวัลโดยประมาณเท่านั้นซึ่งเอเจนต์สามารถเรียนรู้ได้ในขณะที่มีการโต้ตอบกับสภาพแวดล้อมหรือสามารถมอบให้กับเอเจนต์ (เช่นโดยเอเจนต์อื่น) โดยทั่วไปในอัลกอริทึมแบบจำลองตัวแทนสามารถคาดการณ์การเปลี่ยนแปลงของสภาพแวดล้อม (ในช่วงหรือหลังขั้นตอนการเรียนรู้) เพราะมันมีการประเมินฟังก์ชั่นการเปลี่ยนแปลง (และฟังก์ชั่นรางวัล) อย่างไรก็ตามโปรดทราบว่าฟังก์ชั่นการเปลี่ยนและให้รางวัลที่เอเจนต์ใช้เพื่อปรับปรุงการประเมินนโยบายที่เหมาะสมอาจเป็นการประมาณฟังก์ชั่น "ของจริง" ดังนั้นอาจไม่พบนโยบายที่ดีที่สุด (เนื่องจากการประมาณเหล่านี้)
รุ่นฟรีขั้นตอนวิธีการเป็นขั้นตอนวิธีการประเมินว่านโยบายที่ดีที่สุดโดยไม่ต้องใช้หรือการประเมินการเปลี่ยนแปลง (การเปลี่ยนแปลงและผลตอบแทนที่ฟังก์ชั่น) ของสภาพแวดล้อมที่ ในทางปฏิบัติอัลกอริธึมที่ไม่มีแบบจำลองจะประเมิน "ฟังก์ชั่นค่า" หรือ "นโยบาย" โดยตรงจากประสบการณ์โดยตรง (นั่นคือปฏิสัมพันธ์ระหว่างเอเจนต์และสภาพแวดล้อม) โดยไม่ต้องใช้ทั้งฟังก์ชันการเปลี่ยนหรือฟังก์ชันรางวัล ฟังก์ชั่นค่าสามารถคิดว่าเป็นฟังก์ชั่นที่ประเมินสถานะ (หรือการดำเนินการในรัฐ) สำหรับทุกรัฐ จากฟังก์ชันค่านี้จะสามารถรับนโยบายได้
ในทางปฏิบัติวิธีหนึ่งที่จะแยกแยะความแตกต่างระหว่างอัลกอริธึมที่ใช้โมเดลหรือโมเดลฟรีคือดูอัลกอริธึมและดูว่าพวกเขาใช้ฟังก์ชันการเปลี่ยนหรือให้รางวัล
ตัวอย่างเช่นลองดูกฎการอัพเดทหลักในอัลกอริทึม Q-learning :
อย่างที่เราเห็นกฎการอัพเดทนี้ไม่ได้ใช้ความน่าจะเป็นที่กำหนดโดย MDP บันทึก:เป็นเพียงรางวัลที่ได้รับในขั้นตอนต่อไป (หลังจากดำเนินการ) แต่ไม่จำเป็นต้องรู้ล่วงหน้า ดังนั้น Q-learning เป็นอัลกอริธึมที่ไม่มีโมเดล
ตอนนี้เรามาดูกฎการอัพเดทหลักของอัลกอริทึมการปรับปรุงนโยบาย :
เราสามารถสังเกตได้ทันทีที่ใช้ ความน่าจะเป็นที่กำหนดโดยแบบจำลอง MDP ดังนั้นการวนซ้ำนโยบาย (อัลกอริทึมการเขียนโปรแกรมแบบไดนามิก) ซึ่งใช้อัลกอริทึมการปรับปรุงนโยบายเป็นอัลกอริทึมที่ใช้แบบจำลอง
ใน Model-Free RL เอเจนต์ไม่สามารถเข้าถึงโมเดลของสภาพแวดล้อม ตามสภาพแวดล้อมฉันหมายถึงฟังก์ชั่นที่ทำนายการเปลี่ยนสถานะและผลตอบแทน
เมื่อถึงเวลาของการเขียนวิธีการแบบไม่มีรูปแบบเป็นที่นิยมและได้รับการวิจัยอย่างกว้างขวาง
ใน RL แบบอิงเอเจนต์มีการเข้าถึงโมเดลของสภาพแวดล้อม
ข้อได้เปรียบหลักคือช่วยให้ตัวแทนสามารถวางแผนล่วงหน้าโดยคิดล่วงหน้า ตัวแทนกลั่นผลลัพธ์จากการวางแผนล่วงหน้าเป็นนโยบายที่เรียนรู้ ตัวอย่างที่มีชื่อเสียงของรุ่น RL-Based เป็นAlphaZero
ข้อเสียเปรียบหลักคือมักจะไม่สามารถแสดงสภาพแวดล้อมจริง ๆ หลายครั้ง
ด้านล่างนี้เป็นอนุกรมวิธานที่ไม่ครบถ้วนสมบูรณ์ของอัลกอริทึม RL ซึ่งอาจช่วยให้คุณเห็นภาพภูมิทัศน์ RL ได้ดีขึ้น
ตามOpenAI - ชนิดของ RL อัลกอริทึมอัลกอริทึมที่ใช้รูปแบบของสภาพแวดล้อมเช่นฟังก์ชั่นที่คาดการณ์การเปลี่ยนสถานะและผลตอบแทนจะถูกเรียกว่าแบบที่ใช้วิธีการและผู้ที่ไม่ได้จะเรียกว่ารุ่นฟรี รุ่นนี้สามารถได้รับตัวแทนหรือเรียนรู้โดยตัวแทน
การใช้แบบจำลองช่วยให้ตัวแทนสามารถวางแผนโดยคิดล่วงหน้าเห็นว่าจะเกิดอะไรขึ้นกับตัวเลือกต่าง ๆ ที่เป็นไปได้และตัดสินใจเลือกตัวเลือกต่าง ๆ อย่างชัดเจน สิ่งนี้อาจมีประโยชน์เมื่อต้องเผชิญกับปัญหาที่ต้องใช้การคิดระยะยาว วิธีหนึ่งในการวางแผนคือการใช้การค้นหาต้นไม้บางชนิดเช่นการค้นหาต้นไม้ Monte Carlo (MCTS) หรือ - ซึ่งฉันสงสัยว่าสามารถใช้ได้เช่นกัน - สายพันธุ์ของการสุ่มสำรวจต้นไม้อย่างรวดเร็ว (RRT) ดูเช่นตัวแทนที่จินตนาการและแผน
ตัวแทนสามารถกลั่นผลลัพธ์จากการวางแผนล่วงหน้าไปสู่นโยบายที่เรียนรู้ซึ่งเรียกว่าการวนซ้ำของผู้เชี่ยวชาญ
รูปแบบนอกจากนี้ยังสามารถใช้ในการสร้างจำลองหรือ "คิด" สภาพแวดล้อมที่รัฐมีการปรับปรุงโดยใช้รูปแบบและให้ตัวแทนได้เรียนรู้ภายในของสภาพแวดล้อมที่เช่นในโลกรุ่น
ในสถานการณ์จริงหลายรูปแบบความจริงภาคพื้นดินของสภาพแวดล้อมไม่สามารถใช้ได้กับตัวแทน หากตัวแทนต้องการใช้แบบจำลองในกรณีนี้จะต้องเรียนรู้รูปแบบซึ่งอาจมีความท้าทายด้วยเหตุผลหลายประการ
อย่างไรก็ตามมีบางกรณีที่เอเจนต์ใช้โมเดลที่เป็นที่รู้จักอยู่แล้วดังนั้นจึงไม่จำเป็นต้องเรียนรู้โมเดลเช่นในAlphaZeroซึ่งโมเดลนั้นมาในรูปแบบของกฏของเกม
แม้ว่าจะมีคำตอบที่ดีหลายประการฉันต้องการเพิ่มย่อหน้านี้จากการเรียนรู้การเสริมแรง: คำนำหน้า 303 เพื่อให้เข้าใจถึงความแตกต่างทางจิตวิทยามากขึ้น
ความแตกต่างระหว่างอัลกอริธึมการเรียนรู้การเสริมแรงแบบไม่มีโมเดลและแบบจำลองนั้นสอดคล้องกับนักจิตวิทยาที่แตกต่างซึ่งทำขึ้นระหว่างการควบคุมตามนิสัยและการควบคุมเป้าหมายตามรูปแบบพฤติกรรมที่เรียนรู้ นิสัยคือรูปแบบพฤติกรรมที่ถูกกระตุ้นโดยสิ่งเร้าที่เหมาะสมจากนั้นทำการแสดงมากขึ้นหรือน้อยลงโดยอัตโนมัติ พฤติกรรมมุ่งเป้าหมายตามที่นักจิตวิทยาใช้วลีนั้นมีจุดประสงค์ในแง่ที่ว่ามันถูกควบคุมโดยความรู้เกี่ยวกับคุณค่าของเป้าหมายและความสัมพันธ์ระหว่างการกระทำและผลที่ตามมา บางครั้งมีการกล่าวว่านิสัยถูกควบคุมโดยสิ่งเร้าที่มาก่อนในขณะที่พฤติกรรมที่นำไปสู่เป้าหมายนั้นถูกควบคุมโดยผลที่เกิดขึ้น (ดิกคินสัน, 1980, 1985) การควบคุมโดยมุ่งเป้าไปที่เป้าหมายนั้นมีข้อได้เปรียบที่สามารถเปลี่ยนแปลงพฤติกรรมของสัตว์ได้อย่างรวดเร็วเมื่อสภาพแวดล้อมเปลี่ยนวิธีการตอบสนองต่อการกระทำของสัตว์ ในขณะที่พฤติกรรมที่เป็นนิสัยตอบสนองอย่างรวดเร็วต่อการป้อนข้อมูลจากสภาพแวดล้อมที่คุ้นเคย แต่ก็ไม่สามารถปรับให้เข้ากับการเปลี่ยนแปลงในสภาพแวดล้อมได้อย่างรวดเร็ว
มันจะไปจากที่นั่นและมีตัวอย่างที่ดีในภายหลัง
ฉันคิดว่าประเด็นหลักที่ไม่ได้อธิบายไว้เสมอในคำตอบอื่น ๆ ก็คือในแนวทางแบบฟรีคุณยังต้องการสภาพแวดล้อมบางอย่างเพื่อบอกคุณว่ารางวัลที่เกี่ยวข้องกับการกระทำของคุณคืออะไร ความแตกต่างใหญ่คือคุณไม่จำเป็นต้องเก็บข้อมูลใด ๆ เกี่ยวกับโมเดล คุณให้สภาพแวดล้อมการดำเนินการที่คุณเลือกปรับปรุงนโยบายโดยประมาณและคุณลืมมันไป ในอีกวิธีหนึ่งตามรูปแบบคุณจำเป็นต้องทราบประวัติการเปลี่ยนสถานะเช่นเดียวกับในการเขียนโปรแกรมแบบไดนามิกหรือคุณต้องสามารถคำนวณสถานะถัดไปที่เป็นไปได้ทั้งหมดและรางวัลที่เกี่ยวข้องจากสถานะปัจจุบัน