ในเอกสาร AlphaGo ZeroและAlphaZeroของ DeepMind พวกเขาอธิบายการเพิ่มสัญญาณรบกวนDirichletให้กับความน่าจะเป็นก่อนหน้าของการกระทำจากโหนดรูท (สถานะกระดาน) ใน Monte Carlo Tree Search:
การสำรวจเพิ่มเติมทำได้โดยการเพิ่มเสียง Dirichlet ให้กับความน่าจะเป็นก่อนหน้านี้ในรูทโหนดโดยเฉพาะโดยที่และ ; เสียงรบกวนนี้ทำให้มั่นใจได้ว่าการเคลื่อนไหวทั้งหมดอาจถูกลองใช้ แต่การค้นหาอาจยังคงเป็นการลบล้างการเคลื่อนไหวที่ไม่ดี
(AlphaGo Zero)
และ:
เพิ่ม Dirichlet noiseในความน่าจะเป็นก่อนหน้านี้ในโหนดรูท นี่เป็นสัดส่วนในสัดส่วนผกผันกับจำนวนการเคลื่อนไหวทางกฎหมายโดยประมาณในตำแหน่งทั่วไปค่าของสำหรับหมากรุกโชกิและโกตามลำดับ
(AlphaZero)
สองสิ่งที่ฉันไม่เข้าใจ:
P(s, a)
เป็นเวกเตอร์มิติคือชวเลขการกระจาย Dirichlet กับพารามิเตอร์แต่ละคนมีค่า ?ฉันเพิ่งเจอ Dirichlet เป็น conjugate ก่อนการกระจาย multinomial ทำไมถึงเลือกที่นี่?
สำหรับบริบทP(s, a)
เป็นเพียงส่วนประกอบหนึ่งของการคำนวณ PUCT (พหุนามความเชื่อมั่นบนพหุนามตัวแปรในขอบเขตความเชื่อมั่นสูงสุด) สำหรับสถานะ / การกระทำที่กำหนด มันถูกปรับขนาดด้วยค่าคงที่และตัวชี้วัดสำหรับจำนวนครั้งที่การกระทำที่กำหนดได้รับการคัดเลือกในหมู่พี่น้องในช่วง MCTS และเพิ่มลงในค่าการดำเนินการโดยประมาณQ(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
.- A)}