5
ความแตกต่างระหว่างเครือข่ายนโยบายของ AlphaGo และเครือข่ายค่า
ฉันกำลังอ่านสรุประดับสูงเกี่ยวกับ AlphaGo ของ Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) ของ Google และฉันได้พบกับคำว่า "นโยบาย เครือข่าย "และ" เครือข่ายค่า " ในระดับสูงฉันเข้าใจว่ามีการใช้เครือข่ายนโยบายเพื่อแนะนำการเคลื่อนย้ายและใช้เครือข่ายค่าเพื่อ "ลดความลึกของโครงสร้างการค้นหา [และประเมิน] ผู้ชนะในแต่ละตำแหน่งแทนการค้นหาไปจนถึง จบเกม " เครือข่ายทั้งสองนี้ดูเหมือนจะซ้ำซ้อนกับฉัน เครือข่ายนโยบายกำลังทำอะไรหากไม่ได้ใช้เครือข่ายค่าเพื่อตัดนโยบาย ดูเหมือนว่าค่อนข้างชัดเจนว่าเครือข่ายค่าเป็นเครือข่ายประสาทการเรียนรู้ลึก เครือข่ายนโยบายเป็นเพียงนามธรรมในเชิงทฤษฎีไม่ใช่เครือข่ายประสาทจริงหรือ ตัวแปรเป้าหมายสำหรับเครือข่ายค่าดูเหมือนว่าจะเป็นชนะ / แพ้ มีตัวแปรเป้าหมายสำหรับเครือข่ายนโยบายหรือไม่ ถ้าเป็นเช่นนั้นมันคืออะไร? เครือข่ายนโยบายพยายามเพิ่มประสิทธิภาพอะไร ไฟล์ PDF ฉบับเต็มของ Google ที่เผยแพร่ใน Nature สามารถดูได้ที่นี่: https://vk.com/doc-44016343_437229031?dl=56ce06e325d42fbc72