ความแตกต่างระหว่างเครือข่ายนโยบายของ AlphaGo และเครือข่ายค่า


25

ฉันกำลังอ่านสรุประดับสูงเกี่ยวกับ AlphaGo ของ Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) ของ Google และฉันได้พบกับคำว่า "นโยบาย เครือข่าย "และ" เครือข่ายค่า " ในระดับสูงฉันเข้าใจว่ามีการใช้เครือข่ายนโยบายเพื่อแนะนำการเคลื่อนย้ายและใช้เครือข่ายค่าเพื่อ "ลดความลึกของโครงสร้างการค้นหา [และประเมิน] ผู้ชนะในแต่ละตำแหน่งแทนการค้นหาไปจนถึง จบเกม "

เครือข่ายทั้งสองนี้ดูเหมือนจะซ้ำซ้อนกับฉัน เครือข่ายนโยบายกำลังทำอะไรหากไม่ได้ใช้เครือข่ายค่าเพื่อตัดนโยบาย ดูเหมือนว่าค่อนข้างชัดเจนว่าเครือข่ายค่าเป็นเครือข่ายประสาทการเรียนรู้ลึก เครือข่ายนโยบายเป็นเพียงนามธรรมในเชิงทฤษฎีไม่ใช่เครือข่ายประสาทจริงหรือ ตัวแปรเป้าหมายสำหรับเครือข่ายค่าดูเหมือนว่าจะเป็นชนะ / แพ้ มีตัวแปรเป้าหมายสำหรับเครือข่ายนโยบายหรือไม่ ถ้าเป็นเช่นนั้นมันคืออะไร? เครือข่ายนโยบายพยายามเพิ่มประสิทธิภาพอะไร

ไฟล์ PDF ฉบับเต็มของ Google ที่เผยแพร่ใน Nature สามารถดูได้ที่นี่: https://vk.com/doc-44016343_437229031?dl=56ce06e325d42fbc72


ตามบันทึกย่อ: ตัวแปรเป้าหมายสำหรับเครือข่ายนโยบายคือการกระจายความน่าจะเป็น จากบทความ: "โครงข่ายประสาทนี้ (เครือข่ายค่า) มีสถาปัตยกรรมที่คล้ายคลึงกับเครือข่ายนโยบาย แต่ให้ผลลัพธ์การทำนายเดียวแทนที่จะเป็นการแจกแจงความน่าจะเป็น"
Zimano

3
หากใครก็ตามที่สะดุดกับคำถามเก่านี้เช่นฉันคุณจะยินดีที่ได้ทราบว่าผู้สืบทอดของ AlphaGo, "AlphaGo Zero" และผู้สืบทอด "AlphaZero" จะกำจัดความซ้ำซ้อนโดยการฝึกอบรมเพียงเครือข่ายเดียวที่มีผลลัพธ์ ให้บริการฟังก์ชั่นของทั้งเครือข่ายนโยบาย (ให้การกระจายความน่าจะเป็นมากกว่าการเคลื่อนไหวที่เป็นไปได้) และเครือข่ายค่า (ให้ความน่าจะเป็นในการชนะเมื่อได้รับบอร์ด) บล็อกโพสต์ที่นี่: deepmind.com/blog/alphago-zero-learning-scratchและมีการเชื่อมโยงกระดาษภายใน
Kevin Wang

คำตอบ:


11

โดยย่อแต่ละอวนมีจุดประสงค์ที่แตกต่างกันดังที่คุณพูดถึง:

  • เครือข่ายค่าถูกใช้ที่โหนดใบไม้เพื่อลดความลึกของการค้นหาต้นไม้
  • เครือข่ายนโยบายถูกใช้เพื่อลดความกว้างของการค้นหาจากโหนด (แนวทางการดำเนินการทันทีที่มีแนวโน้ม)

โดยทั่วไปคุณสามารถใช้วิธีการฟังก์ชั่นค่าเพื่อค้นหานโยบายที่ดีที่สุดหรือค้นหาในพื้นที่นโยบายโดยตรงเพื่อปรับฟังก์ชั่นนโยบายให้เป็นแบบ Parametrized (แน่นอนว่ามีข้อดีและข้อเสีย) คุณสามารถใช้ฟังก์ชั่นตัวประมาณ (เช่น Deep Nets) ในแต่ละกรณี ฉันเห็นว่าส่วนใหญ่คุณกำลังสับสนเกี่ยวกับนโยบายสุทธิดังนั้นฉันมุ่งเน้นคำตอบของฉันในเรื่องนี้

นโยบายนี้เป็นครั้งแรก:

ได้รับการฝึกฝนให้ทำสิ่งต่าง ๆ ที่เป็นไปได้มากที่สุดที่มนุษย์จะได้รับสถานะบอร์ด (ดังนั้นการป้อนข้อมูลจึงเป็นสถานะบอร์ดและเอาต์พุตเป็นฮิสโตแกรมที่แสดงความน่าจะเป็นของการกระทำแต่ละอย่าง สุทธิสามารถประมาณฟังก์ชั่นความน่าจะเป็นพื้นฐานการทำแผนที่จากรัฐไปสู่การกระทำ มีความคิดที่จะเริ่มสร้างนโยบายของคุณจากข้อมูลที่มีอยู่ หลังจากการฝึกอบรมภายใต้การดูแลโดยใช้ผู้เชี่ยวชาญย้ายนโยบายสุทธิสามารถเล่นเกมได้อย่างเพียงพอ (แม้ว่าจะห่างไกลจากระดับปริญญาโท) เพียงคุณพยายามจับรูปแบบทั่วไปของการเลือกการกระทำของผู้เล่นมืออาชีพ

จากนั้น

มันได้รับการฝึกฝนในเกมกับฝ่ายตรงข้ามเพื่อเพิ่มประสิทธิภาพนโยบายก่อนหน้านี้ เวลานี้น้ำหนักของมันได้รับการปรับปรุงโดยใช้อัลกอริทึม REINFORCE ด้วยการทำเช่นนี้คุณจะอัพเดทพารามิเตอร์สุทธิเพื่อให้ได้ผลตอบแทนสูงสุดตามที่คาดหวัง ในที่สุดคุณก็มีเน็ตที่ไม่เพียง แต่เลือกการกระทำเช่นผู้เล่นมืออาชีพ แต่ยังไปสู่การชนะเกม (อย่างไรก็ตามมันไม่สามารถวางแผนได้!)

หลังจากขั้นตอนนี้พวกเขาประมาณฟังก์ชั่นค่าของนโยบายที่เรียนรู้ที่มีเสียงดังอีกเล็กน้อยโดยการถดถอย (อินพุตคือบอร์ดสถานะและกำหนดเป้าหมายผลลัพธ์ของเกม) คุณสามารถใช้เครือข่ายนี้เพื่อส่งผลกระทบต่อการประเมินโหนดลีฟ

แนวคิดการพูดนโยบายสุทธิให้ความน่าจะเป็นเหนือการกระทำ แต่สิ่งนี้ไม่ได้ระบุว่าคุณจะต้องจบลงด้วยการดีสำหรับการชนะเกม AlphaGo มี "จุดบอด" บางส่วนและในระหว่างการแข่งขันก็มีท่าทีที่ไม่ดีจริงๆ แต่ก็เป็นท่าที่พิเศษอย่างหนึ่งที่มนุษย์ไม่เคยคิดมาก่อน

ในที่สุดคุณสามารถใช้อัลกอริทึมการวางแผน (MCTS) ร่วมกับมุ้งเหล่านี้ ทำไมเราทำตามขั้นตอนเหล่านี้ทั้งหมด? โดยสังเขป MCTS ทั่วไปที่ไม่มี "ปรีชาญาณ" จะล้มเหลว


ฉันเพิ่งกลับมาที่คำถามนี้ซึ่งได้เรียนรู้เกี่ยวกับนักแสดง - นักวิจารณ์และวิธีการชดเชยต้นทุน / ผลประโยชน์ระหว่างวิธีการที่อิงตามนโยบายและนโยบาย ฉันคิดว่าคำตอบนี้ใกล้เคียงที่สุดเพื่ออธิบายรายละเอียดนี้ แต่ครอบคลุมในการบรรยายของ David Silver: www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/pg.pdf (บรรยายที่ 7) มีให้บริการบน YouTube - youtube.com/ ด้วย )
Neil Slater

วิธีการที่ใช้ MCTS ล้วนแสดงให้เห็นว่าประสบความสำเร็จดังนั้นในบริบทที่กว้างขึ้นฉันจะไม่พูดว่าจะล้มเหลว
Zimano

1
ฉันแค่อ้างถึงกรณีของเกมของ Go และยังเกี่ยวกับการเข้าถึงระดับปริญญาโทของการเล่นเกม อันที่จริง David Silver (ในฐานะนักวิจัยคนอื่น) กำลังทำงานเพื่อแก้ไขเกม Go with MCTS ตั้งแต่ปริญญาเอกของเขา แต่ไม่มีอะไรสามารถแข่งขันในระดับสูงสุดจนถึงการรวมกันของวิธีการข้างต้น
Constantinos

9

นี่คือกระบวนการคิดที่รัดกุมของฉันในการทำความเข้าใจเครือข่ายที่ต่างกันสองแห่ง

ก่อนอื่นเป้าหมายคือการหาทางออกที่ดีที่สุด (หรือใกล้เคียงที่สุด) โดยไม่ต้องใช้การค้นหาที่ละเอียดถี่ถ้วนซึ่งเป็นสิ่งที่ท้าทายอย่างยิ่ง

ตามตำแหน่งหรือรัฐจะมีการเคลื่อนไหว N ที่เป็นไปได้และในแต่ละการเคลื่อนไหวจะมีความลึก D ของตัวเองในแผนผังการค้นหาแบบเต็ม มันเป็นไปได้ทั้งทางทฤษฎีและทางคณิตศาสตร์ที่จะเดินผ่านทุกเส้นทางและหาทางออกที่ดีที่สุด อย่างไรก็ตามเราไม่ต้องการทำการค้นหาแบบเต็ม

ตอนนี้เรามีคำถามสองข้อสำหรับการพัฒนาวิธีการประมาณ

ไตรมาสที่ 1 เราจะข้ามหรือไม่สนใจบางการเคลื่อนไหวออกจาก N ต่อตำแหน่งได้อย่างไร (เช่นการลดลมหายใจ)

ไตรมาสที่ 2 เราจะหยุดที่ระดับความลึกระดับกลางในแผนผังการค้นหาแทนที่จะเดินผ่านไปจนจบเกมโดยไม่ล้มเหลวในการหาทางออกที่ดีที่สุดได้อย่างไร (เช่นการลดความลึก)

เครือข่ายนโยบายส่วนใหญ่ได้รับการออกแบบมาสำหรับการกรองการย้ายที่ไร้ประโยชน์ออกจาก N แต่ก็ไม่ได้ล้มเหลวในการหาทางออกที่ดีที่สุด ที่นี่เครือข่ายนี้เริ่มแรกอาศัยการเคลื่อนไหวของมนุษย์เช่น SL และปรับปรุงโดย RL ในภายหลัง

เครือข่ายค่าส่วนใหญ่ได้รับการออกแบบสำหรับการค้นหาความน่าจะเป็นที่ชนะโดยไม่ต้องค้นหาแบบเต็ม

เครือข่ายทั้งสองนี้มีเป้าหมายร่วมกันในการค้นหาทางออกที่ดีที่สุดอย่างไรก็ตามในการเลือกแต่ละกลยุทธ์ในการย้ายแต่ละเครือข่ายมีบทบาทที่แตกต่างกัน

ฉันแค่หวังว่านี่จะช่วยได้ ฉันรู้ว่ามันจะยังคงอยู่ในระดับสูง


คำอธิบายสองวิธีของคุณกระชับมาก
ทิม

6

ฉันคิดว่า OP สับสนกับ AlphaGo ด้วย alpha-beta ในอัลฟ่าเบต้าคุณจะต้องใช้เครือข่ายนโยบายเพื่อช่วยในการตัดแต่ง แต่ไม่ได้อยู่ที่นี่ อีกครั้งไม่มีการตัดแต่งเนื่องจากอัลกอริทึมอาศัยการค้นหาแบบต้นไม้ Monte-Carlo (MCTS)

ใครก็ตามที่คิดว่าคำตอบของฉันยาวเกินไปอาจข้ามไปยังส่วนสรุปที่ฉันระบุว่าทำไมเครือข่ายสองเครือข่ายจึงไม่ซ้ำซ้อนกัน

ในตัวอย่างต่อไปนี้ฉันจะทำให้เข้าใจง่ายขึ้นเพื่อทำให้ความคิดของฉันง่ายต่อการเข้าใจ

ตัวอย่าง:

ลองนึกภาพคุณมีตำแหน่งที่มีการเคลื่อนไหวทางกฎหมายสองแบบ การเคลื่อนไหวครั้งแรกนั้นเป็นการสูญเสียความตายสำหรับคุณอย่างไรก็ตามการเคลื่อนไหวครั้งที่สองจะให้คุณได้เปรียบในการชนะ

  • ก้าวแรก: บังคับให้คุณต้องสูญเสีย
  • การย้ายครั้งที่สอง: การบังคับให้ชนะเพื่อคุณ

เครือข่ายการประเมินผล

สมมติว่าเครือข่ายการประเมินที่ Google มอบให้นั้นสมบูรณ์แบบ มันสามารถประเมินตำแหน่งใบไม้ใด ๆ ในตัวอย่างของเราได้อย่างสมบูรณ์แบบ เราจะไม่เปลี่ยนเครือข่ายคุณค่าของเราในตัวอย่าง

เพื่อทำให้ตัวอย่างของเราง่ายขึ้นสมมติว่าเครือข่ายคุณค่าของเราให้:

  • -1000 สำหรับตำแหน่งใบไม้ใด ๆ ซึ่งเป็นการสูญเสียสำหรับคุณ
  • +1000 สำหรับตำแหน่งใบไม้ใด ๆ ที่ชนะสำหรับคุณ

นโยบายเครือข่าย

สมมติว่า Google ให้เครือข่ายนโยบายสองเครือข่ายแก่คุณ ความน่าจะเป็นที่สร้างขึ้นสำหรับตำแหน่งของเราคือ:

  • นโยบายที่ 1: 0.9 สำหรับการย้าย 1 และ 0.1 สำหรับการย้าย 2
  • นโยบายที่ 2: 0.2 สำหรับการย้าย 1 และ 0.8 สำหรับการย้าย 2

โปรดทราบว่าเครือข่ายนโยบายแรกของเราให้โอกาสก่อนหน้านี้ไม่ถูกต้องสำหรับตัวอย่าง มันให้ 0.9 สำหรับการย้าย 1 ซึ่งเป็นการเคลื่อนที่ที่สูญเสีย ไม่เป็นไรเพราะแม้แต่ Google ก็สามารถฝึกฝนเครือข่ายนโยบายที่สมบูรณ์แบบได้

เล่นกับเครือข่ายนโยบายแรก

AlphaGo จำเป็นต้องสร้างแบบจำลองด้วย Monte-Carlo และต้องเลือกย้าย 1 หรือ 2 ตอนนี้ AlphaGo ดึงตัวแปรสุ่มแบบกระจายและมันจะเลือก:

  • ย้าย 1 ถ้าตัวเลขสุ่มคือ <= 0.9
  • ย้าย 2 ถ้าหมายเลขสุ่มคือ> 0.9

ดังนั้น AlphaGo มีแนวโน้มที่จะเลือกการสูญเสียที่จะจำลอง (ในการจำลองครั้งแรกของเรา) ในการจำลองครั้งแรกของเราเราจะใช้เครือข่ายค่าเพื่อรับคะแนนสำหรับการจำลอง ในกระดาษมัน:

ป้อนคำอธิบายรูปภาพที่นี่

ค่านี้จะเป็น -1000 เพราะการจำลองนี้จะนำไปสู่การสูญเสีย

ตอนนี้ AlphaGo ต้องสร้างการจำลองที่สอง การย้ายครั้งแรกน่าจะเลือกได้มากกว่า แต่ในที่สุดการย้ายครั้งที่สองจะถูกเลือกเพราะ:

  • ความน่าจะเป็นก่อนหน้าของเราสำหรับการเคลื่อนที่ครั้งที่สองคือ 0.1 ไม่ใช่ศูนย์
  • AlphaGo ได้รับการสนับสนุนให้ลองเคลื่อนไหวที่ไม่ได้รับการสำรวจมากนัก ในบทความนี้ทำโดยสมการนี้:

ป้อนคำอธิบายรูปภาพที่นี่

โปรดทราบว่าNเป็นจำนวนการเคลื่อนไหวที่ค้นหาการย้ายและอยู่ในตัวส่วน การย้ายครั้งแรกของเรามีโอกาสมากขึ้นที่ถูกค้นหาuฟังก์ชั่นที่มีขนาดเล็ก ดังนั้นความน่าจะเป็นสำหรับการเลือกการย้ายครั้งที่สองของเรานั้นดีขึ้นเนื่องจาก AlphaGo เลือกการเคลื่อนที่ตามสมการนี้:

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

นี่คือสมการสำคัญ โปรดดูอย่างระมัดระวัง:

  • มันมีคำศัพท์Pสำหรับความน่าจะเป็นก่อนหน้านี้ (ที่กำหนดโดยเครือข่ายนโยบาย)
  • มันมีคำศัพท์Qสำหรับคะแนนการประเมิน (กำหนดโดยเครือข่ายค่า)

ตอนนี้เรารู้ว่าการเลือกครั้งที่สองของเราจะถูกเลือก เมื่อมันเกิดขึ้นเครือข่ายค่าจะให้ +1000 สิ่งนี้จะเพิ่มขึ้นQซึ่งทำให้การย้ายครั้งที่สองมีโอกาสมากขึ้นที่จะถูกเลือกในการจำลองในภายหลัง

เมื่อมีการจำลองเพียงพอจำนวนครั้งที่การย้ายครั้งที่สองถูกเลือกสำหรับการจำลองควรมากกว่าจำนวนครั้งการย้ายครั้งแรกที่เลือก

ในที่สุดการย้ายที่ AlphaGo ตัดสินใจทำคือ (อ้างอิงจากกระดาษ):

เมื่อการค้นหาเสร็จสิ้นอัลกอริทึมจะเลือกการย้ายที่เยี่ยมชมมากที่สุดจากตำแหน่งรูท

เล่นกับเครือข่ายนโยบายที่สอง

เครือข่ายนโยบายที่สองของเราจะต้องการการวนซ้ำน้อยลงเพื่อเลือกการย้าย 2 เนื่องจากความน่าจะเป็นก่อนหน้านี้ที่กำหนดโดยเครือข่ายนโยบายนั้นถูกต้องตั้งแต่แรก

หมายเหตุ

ทุกอย่างที่นี่คล้ายกันมากกับBayesianการวิเคราะห์ เราเริ่มด้วยความน่าจะเป็นก่อนหน้านี้ (ที่กำหนดโดยเครือข่ายนโยบาย) จากนั้นเราสร้างข้อมูลเพื่อย้ายการกระจายความน่าจะเป็น (ที่กำหนดโดยเครือข่ายค่า)

สรุป

  • เครือข่ายนโยบายใช้เพื่อสร้างความน่าจะเป็นก่อนหน้าเพื่อเป็นแนวทางในการเลือกการค้นหา Monte-Carlo ที่ควรเลือก
  • เครือข่ายค่าใช้ในการสร้างข้อมูลเพื่อตรวจสอบความถูกต้องของเครือข่ายนโยบาย หากเครือข่ายนโยบายไม่ดี AlphaGo จะต้องใช้ทรัพยากรการคำนวณเพิ่มเติมเพื่อมาบรรจบกัน (ถ้าเคย)
  • คุณคิดเหมือนการวิเคราะห์แบบเบย์

ฉันคิดว่าสิ่งนี้ให้ข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้นต่อกลไกภายใน ฉันยังไม่แน่ใจว่าจะอธิบายว่าทำไมทั้งสองเครือข่าย ปัญหาที่ฉันมีคือ "ถือว่าเครือข่ายการประเมินผล ... สมบูรณ์แบบ" หากเป็นเช่นนั้นจริง ๆ แล้วเครือข่ายนโยบายซ้ำซ้อน เพียงแค่มองไปข้างหน้าหนึ่ง (สำหรับการเคลื่อนไหวที่เป็นไปได้ทั้งหมด) และเลือกหนึ่งที่มีการประเมินเครือข่ายที่คุ้มค่าที่สุด แน่นอนว่าเครือข่ายคุณค่านั้นไม่สมบูรณ์แบบและฉันคิดว่ามันจะแม่นยำมากขึ้นเมื่อมีความคืบหน้าในเกมมากขึ้น . . แต่ฉันไม่รู้ว่าจริง / มีประโยชน์หรือไม่หรือว่ามันตอบคำถามนี้ได้หรือไม่
Neil Slater

@NeilSlater Ok เครือข่ายไม่สมบูรณ์แบบ แต่เหตุผลที่ฉันมีที่นี่ยังดีอยู่เพียงว่าเราต้องการการจำลอง MC มากขึ้น
SmallChess

@StudentT คำอธิบายที่ดีของสมการหลักบางข้อ ฉันจะทำการเปลี่ยนแปลงเพียงเล็กน้อย: มันไม่สมเหตุสมผลเลยที่จะพูดว่า "คุณจำเป็นต้องเห็นการเคลื่อนไหวสิบก้าวไปข้างหน้า" เพื่อทำความเข้าใจตำแหน่งในการค้นหาต้นไม้มอนติคาร์โล MCTS คือการค้นหาหมายเลขพิสูจน์เชิงลึกครั้งแรกและเราไม่เคยไปถึงที่ระดับความลึกคงที่อย่างที่เราต้องการด้วยการเล่นหมากรุกซ้ำลึกลงไป แม้จะมีเครือข่ายค่าที่ช่วยให้เราสามารถประเมินโหนดก่อนสิ้นสุดเกมเรายังไม่สามารถเข้าถึงสิ่งเหล่านี้ได้ในลักษณะที่กว้างและไม่มีการประเมินขั้นต่ำสุดของโหนด ฯลฯ
Imran

@Imran รู้สึกอิสระที่จะแก้ไขโพสต์ของฉัน
SmallChess

3

นโยบายเครือข่าย : เครือข่ายที่เรียนรู้ที่จะให้ผลลัพธ์ที่ชัดเจนโดยการป้อนข้อมูลเฉพาะให้กับเกมนั้นเรียกว่านโยบายเครือข่าย

ค่าเครือข่าย : ค่ากำหนดเครือข่ายค่า / sคะแนนให้กับรัฐของเกมโดยการคำนวณคะแนนสะสมที่คาดหวังสำหรับสถานะปัจจุบัน ทุกรัฐต้องผ่านเครือข่ายค่า รัฐที่ได้รับรางวัลมากกว่าเห็นได้ชัดว่าได้รับคุณค่ามากขึ้นในเครือข่าย

ความเข้าใจที่ดีขึ้นกับภาพเคลื่อนไหวไปที่นี่: เครือข่ายนโยบายกับเครือข่ายคุณค่าในการเรียนรู้เสริม

ป้อนคำอธิบายรูปภาพที่นี่


0

จากสิ่งที่ฉันเข้าใจความแตกต่างอยู่ในผลลัพธ์ ในกรณีที่เครือข่ายนโยบายให้การแจกแจงความน่าจะเป็นมากกว่าการย้ายที่เป็นไปได้เครือข่ายค่าจะส่งกลับมูลค่าที่แท้จริงซึ่งสามารถตีความได้ว่าเป็นความน่าจะเป็นที่จะได้รับรางวัลเมื่อกำหนดค่าบอร์ดนี้ จากที่นั่นการค้นหาต้นไม้ Monte-Carlo จะดำเนินการผ่านการย้าย K อันดับต้น ๆ จากนั้นทำการย่อทรีการค้นหาอีกครั้งโดยการเอาท์พุทเครือข่ายค่า K สูงสุด

รู้สึกว่าจำเป็นต้องแก้ไขฉันถ้าฉันผิด


2
คุณไม่ผิด AFAIK แต่ฉันไม่คิดว่านี่จะตอบคำถามได้ OP ดูเหมือนจะตระหนักถึงความแตกต่างระหว่างรูปแบบตามมูลค่าหรือตามนโยบายใน RL ทั้งสองวิธีมีผลลัพธ์ที่แตกต่างกัน อย่างไรก็ตามมันเป็นเรื่องธรรมดามากที่จะเห็นคนใดคนหนึ่งไม่ใช่ทั้งคู่และทั้งสองรุ่นมักจะซ้ำซ้อนใน "Value_maxarg (S ') == Policy_maxarg (S, A)" โดยที่ S คือสถานะปัจจุบัน A เป็นการกระทำเพื่อ take และ S 'เป็นสถานะผลลัพธ์ นั่นคือทั้งสองเครือข่ายในการตั้งค่า RL ที่ปกติกว่าจะให้ผลลัพธ์ที่เหมือนกันแม้ว่าเอาต์พุตจะแตกต่างกัน
Neil Slater
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.