นโยบายการเปิดตัว ... เป็นนโยบาย softmax เชิงเส้นที่ขึ้นอยู่กับคุณลักษณะของรูปแบบโลคัลที่คำนวณเพิ่มขึ้นอย่างรวดเร็ว ...
ฉันไม่เข้าใจว่านโยบายการเปิดตัวคืออะไรและเกี่ยวข้องกับเครือข่ายนโยบายในการเลือกย้ายอย่างไร มีคำอธิบายที่ง่ายกว่านี้ไหม?
นโยบายการเปิดตัว ... เป็นนโยบาย softmax เชิงเส้นที่ขึ้นอยู่กับคุณลักษณะของรูปแบบโลคัลที่คำนวณเพิ่มขึ้นอย่างรวดเร็ว ...
ฉันไม่เข้าใจว่านโยบายการเปิดตัวคืออะไรและเกี่ยวข้องกับเครือข่ายนโยบายในการเลือกย้ายอย่างไร มีคำอธิบายที่ง่ายกว่านี้ไหม?
คำตอบ:
ปรากฏว่าเครือข่ายนโยบายกำหนดกระจายมากกว่าการเคลื่อนไหวที่เป็นไปได้เมื่ออยู่ในรัฐเกมsเมื่อโปรแกรมค้นหาแผนผังเกมมันจะทำแบบสุ่มและจะกำหนดวิธีการค้นหานี้ ความหวังก็คือฟังก์ชั่นนี้จะ "ชี้แนะ" โปรแกรมเพื่อการเคลื่อนไหวที่ดีที่ผู้เล่นที่แข็งแกร่งน่าจะทำ เรื่องนี้สมเหตุสมผลเพราะเมื่อคุณค้นหาทรีเกมสาขาที่เริ่มต้นด้วยความผิดพลาดจะมีความเกี่ยวข้องน้อยลงเมื่อประเมินตำแหน่งกระดานปัจจุบันกับคู่ต่อสู้ที่ชาญฉลาดa s p
เมื่อพวกเขากล่าวว่านโยบายการเปิดตัว (ฉันเชื่อว่าพวกเขายืมคำว่า "การเปิดตัว" จากแบ็คแกมมอน) เป็นฟังก์ชัน softmax เชิงเส้นที่พวกเขาอ้างถึงลักษณะทั่วไปของฟังก์ชั่น sigmoid ที่ใช้ในการถดถอยโลจิสติก ฟังก์ชั่นนี้ใช้รูปแบบ
โดยที่คือเวกเตอร์ที่เป็นหน้าที่ของตำแหน่งกระดานปัจจุบัน (อ้างอิงจากเอกสารระบุว่า softmax เชิงเส้นใช้เฉพาะในขั้นตอนสุดท้ายของนโยบายเครือข่าย) และเป็นเวกเตอร์ของน้ำหนักซึ่งร่วมกันกำหนดความน่าจะเป็นที่นโยบาย เครือข่ายจะเลือกกระทำÄ_iβ ฉันเป็นฉัน