ฉันกำลังอ่านเกี่ยวกับการเรียนรู้ของเครื่องและสงสัยว่าจะนำไปใช้กับการเล่นConnect Fourได้อย่างไร
ความพยายามในปัจจุบันของฉันคือตัวแยกประเภทมัลติคลาสแบบง่ายโดยใช้โมเดลฟังก์ชัน sigmoid และวิธี one-vs-all
ในความคิดของฉันฟีเจอร์อินพุตจะต้องเป็นสถานะ (แผ่นดิสก์ของผู้เล่น 1 แผ่นดิสก์ของผู้เล่น 2 ว่าง) ของเขตข้อมูลตาราง 7x6 = 42
ผลลัพธ์จะเป็นจำนวนของแถวที่ใส่ดิสก์เข้าไป เนื่องจากนั่นเป็นตัวเลขที่ไม่ต่อเนื่องระหว่าง 1 ถึง 7 ฉันจึงคิดว่านี่เป็นปัญหาการจำแนกประเภทหลายคลาสได้
แต่ฉันจะสร้างตัวอย่างการฝึกอบรมที่ใช้งานได้ในการเรียนรู้แบบมีผู้สอนได้อย่างไร
เป้าหมายหลักคือการชนะเกม แต่ผลลัพธ์ไม่ชัดเจนเมื่อทำทุกอย่างยกเว้นเทิร์นสุดท้าย หากฉันให้ผู้เล่นสองคนที่ตัดสินใจสุ่มว่าจะเล่นอย่างไรกับคนอื่นเป็นพัน ๆ ครั้งมันจะเพียงพอหรือไม่ที่จะได้ผลัดกันโดยผู้ชนะในแต่ละเกมเป็นตัวอย่างการฝึกซ้อม? หรือฉันต้องทำสิ่งนี้ในวิธีที่แตกต่างอย่างสิ้นเชิง?
แก้ไข: ตามที่แนะนำในความคิดเห็นที่ฉันอ่านเพียงเล็กน้อยเกี่ยวกับการเรียนรู้การเสริมแรง จากสิ่งที่ฉันรู้เข้าใจ Q-Learning ควรทำเคล็ดลับเช่นฉันต้องประมาณฟังก์ชั่น Q ของสถานะปัจจุบันและการดำเนินการเพื่อให้เป็นรางวัลสะสมสูงสุดที่เริ่มต้นในรัฐนั้น จากนั้นแต่ละขั้นตอนจะต้องเลือกการกระทำที่ส่งผลให้มีค่าสูงสุดของ Q อย่างไรก็ตามเกมนี้มีสถานะมากเกินไปในการทำเช่นในตารางการค้นหา ดังนั้นวิธีที่มีประสิทธิภาพในการจำลอง Q-Function นี้คืออะไร?