คำถามติดแท็ก negamax

1
ข้อสงสัยเล็กน้อยเกี่ยวกับการประยุกต์ใช้การเรียนรู้การเสริมแรงกับเกมเช่นหมากรุก
ฉันคิดค้นเกมกระดานเหมือนหมากรุก ฉันสร้างเครื่องยนต์เพื่อให้สามารถเล่นได้อย่างอิสระ เครื่องยนต์นั้นเป็นต้นไม้ตัดสินใจ มันประกอบด้วย: ฟังก์ชั่นการค้นหาที่แต่ละโหนดพบความเคลื่อนไหวที่ถูกกฎหมาย ฟังก์ชั่นการประเมินผลที่กำหนดค่าตัวเลขให้กับตำแหน่งกระดาน (บวกหมายถึงผู้เล่นคนแรกได้ไพ่ที่สูงกว่าหมายถึงผู้เล่นที่สองชนะแทน) อัลกอริทึม negamax การตัดตัวอักษร ปัญหาหลักเกี่ยวกับเอ็นจิ้นนี้คือการยกเลิกฟังก์ชั่นการประเมินผลนั้นยุ่งยากมาก ฉันไม่รู้ว่าปัจจัยใดที่ควรพิจารณาและน้ำหนักที่ควรใส่ วิธีเดียวที่ฉันเห็นการปรับปรุงเครื่องยนต์คือการทำซ้ำเกมที่พยายามแต่ละครั้งรวมกันของปัจจัยและน้ำหนัก อย่างไรก็ตามการคำนวณดูเหมือนว่าจะเป็นเพลงที่ยากมาก (ฉันสามารถ backpropagate ได้โดยไม่ต้องใช้ deeplearning หรือเปล่า) ฉันต้องการใช้การเรียนรู้การเสริมแรงเพื่อทำให้เครื่องยนต์ดีขึ้นโดยการเล่นกับตัวเอง ฉันได้อ่านเกี่ยวกับหัวข้อ แต่ฉันยังค่อนข้างสับสน มีรางวัลอื่นอีกบ้างในเกมที่เป็นส่วนหนึ่งของผลลัพธ์แบบชนะหรือแพ้ (1 หรือ 0) ถ้าฉันใช้รางวัลอื่น ๆ เช่นผลลัพธ์จากฟังก์ชั่นการประเมินผลในแต่ละเทิร์นฉันจะใช้มันได้อย่างไร ฉันจะแก้ไขฟังก์ชั่นการประเมินผลเพื่อให้ได้ผลตอบแทนที่ดีขึ้นหลังจากทำซ้ำได้อย่างไร
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.