นโยบายการเปิดตัวในกระดาษของ AlphaGo คืออะไร?


11

กระดาษเป็นที่นี่

นโยบายการเปิดตัว ... เป็นนโยบาย softmax เชิงเส้นที่ขึ้นอยู่กับคุณลักษณะของรูปแบบโลคัลที่คำนวณเพิ่มขึ้นอย่างรวดเร็ว ...

ฉันไม่เข้าใจว่านโยบายการเปิดตัวคืออะไรและเกี่ยวข้องกับเครือข่ายนโยบายในการเลือกย้ายอย่างไร มีคำอธิบายที่ง่ายกว่านี้ไหม?


ดูเหมือนว่ากระดาษจะอยู่ด้านหลัง paywall ...
Vladislavs Dovgalecs

@ xeon ฉันไม่สามารถช่วยได้ ฉันสามารถเข้าถึงเอกสารได้อย่างสมบูรณ์ แต่ฉันไม่สามารถอัปโหลดได้ที่นี่ (กฎหมายลิขสิทธิ์) อาจเป็น google ถ้าใครมีสำเนา?
HelloWorld

คำตอบ:


11

ปรากฏว่าเครือข่ายนโยบายกำหนดกระจายมากกว่าการเคลื่อนไหวที่เป็นไปได้เมื่ออยู่ในรัฐเกมsเมื่อโปรแกรมค้นหาแผนผังเกมมันจะทำแบบสุ่มและจะกำหนดวิธีการค้นหานี้ ความหวังก็คือฟังก์ชั่นนี้จะ "ชี้แนะ" โปรแกรมเพื่อการเคลื่อนไหวที่ดีที่ผู้เล่นที่แข็งแกร่งน่าจะทำ เรื่องนี้สมเหตุสมผลเพราะเมื่อคุณค้นหาทรีเกมสาขาที่เริ่มต้นด้วยความผิดพลาดจะมีความเกี่ยวข้องน้อยลงเมื่อประเมินตำแหน่งกระดานปัจจุบันกับคู่ต่อสู้ที่ชาญฉลาดa s pp(as)asp

เมื่อพวกเขากล่าวว่านโยบายการเปิดตัว (ฉันเชื่อว่าพวกเขายืมคำว่า "การเปิดตัว" จากแบ็คแกมมอน) เป็นฟังก์ชัน softmax เชิงเส้นที่พวกเขาอ้างถึงลักษณะทั่วไปของฟังก์ชั่น sigmoid ที่ใช้ในการถดถอยโลจิสติก ฟังก์ชั่นนี้ใช้รูปแบบ

eβiTxj=1keβjTx

โดยที่คือเวกเตอร์ที่เป็นหน้าที่ของตำแหน่งกระดานปัจจุบัน (อ้างอิงจากเอกสารระบุว่า softmax เชิงเส้นใช้เฉพาะในขั้นตอนสุดท้ายของนโยบายเครือข่าย) และเป็นเวกเตอร์ของน้ำหนักซึ่งร่วมกันกำหนดความน่าจะเป็นที่นโยบาย เครือข่ายจะเลือกกระทำÄ_iβ ฉันเป็นฉันxβiai

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.