เวอร์ชันสมดุลของการคำนวณสมดุลของแนช?


14

ฉันสงสัยว่ามีแนวคิดสมดุลแบบสมดุลของ Nash ที่คำนวณได้หรือไม่

ลองนึกภาพชนิดของสองผู้เล่นเกมข้อมูลที่สมบูรณ์แบบที่เล่นในบางคณะกรรมการและที่มีความซับซ้อนในแง่ที่ว่าการเล่นที่ดีที่สุดคือ EXPTIME ยาก สมมติว่าความเรียบง่ายที่ดึงไม่ได้เช่นกัน ลองนึกภาพคู่( A , B )ของเครื่องทัวริงแบบสุ่มพหุนามเวลาเล่นเกมนี้กับแต่ละอื่น ๆ สำหรับแต่ละnให้พี, B ( n )จะเป็นไปได้ว่าเต้นBในการสั่งnเกม (สำหรับรูปธรรมสมมุติว่าAn×n(A,B)nพีA,B(n)ABnAได้รับการเล่นครั้งแรกด้วยความน่าจะเป็น 0.5) สิ่งที่ฉันคิดว่าจะเจ๋งคือถ้าใครสามารถพิสูจน์การมีอยู่ของคู่กับคุณสมบัติที่ไม่มีเครื่องทัวริงเวลาพหุนามแบบสุ่มA ครองA (โดยที่ " A ปกครองA "หมายถึงP A , B ( n ) > p A , B ( n )สำหรับขนาดใหญ่พอn ทั้งหมด ) และในทำนองเดียวกันไม่มีการสุ่มตัวอย่างแบบพหุนามแบบเวลาพหุนามB (A,B)A' AA'AพีA',B(n)>พีA,B(n)nB'ครอบงำ (ที่ " B 'ครอบงำB " หมายถึงหน้า, B ' ( n ) < P , B ( n )สำหรับทุกขนาดใหญ่พอn )BB'BพีA,B'(n)<พีA,B(n)n

อย่างใดฉันสงสัยว่านี่เป็นสิ่งที่เกินความคาดหวัง แต่มีความหวังว่าสิ่งนี้จะเป็นจริงหรือบางทีอาจจะเป็นเกมที่มีข้อ จำกัด ?

หนึ่งแรงจูงใจสำหรับคำถามนี้คือฉันกำลังมองหาวิธีที่จะทำให้ความคิดที่เป็นทางการว่าตำแหน่งหมากรุกที่กำหนดคือ "ได้เปรียบสำหรับสีขาว" คลาสสิกตำแหน่งเป็นทั้งชนะสำหรับสีขาวหรือไม่ อย่างไรก็ตามผู้เล่นหมากรุกทั้งมนุษย์และคอมพิวเตอร์มีความเข้าใจอย่างถ่องแท้เกี่ยวกับความหมายของการที่ White ได้เปรียบ ดูเหมือนว่าจะมีบางสิ่งที่เกี่ยวข้องกับความน่าจะเป็นที่ White จะชนะเนื่องจากผู้เล่นถูก จำกัด ขอบเขตการคำนวณและต้องเดาว่าจะไปได้ดีที่สุด สำหรับอัลกอริธึมการสุ่มที่เฉพาะเจาะจงเราสามารถพูดถึงความน่าจะเป็นที่ White จะชนะได้ แต่สิ่งที่ฉันสงสัยคือถ้ามีในแง่หนึ่งก็เป็นที่ยอมรับ ผู้เล่นที่มีขอบเขตการคำนวณคู่ซึ่งมีความน่าจะเป็นที่ได้รับรางวัลจะได้รับมูลค่าสำหรับตำแหน่งที่ขึ้นอยู่กับตัวเกมเองเท่านั้นและไม่ใช่ความเป็นไปได้ของผู้เล่น


แนวคิดสมดุลที่ จำกัด ขอบเขตการคำนวณที่ฉันรู้ว่ามีรสชาติที่แตกต่าง - คิดถึง Halpern, Pass, และ Seeman เหมือนในความจริงเบื้องหลังตำนานของทฤษฎีพื้นบ้าน , 2014. เราไม่คิดว่าการหากลยุทธ์สมดุลสำหรับเกมที่กำหนด มันยาก (เพราะสำหรับเกมที่กำหนดมันอาจจะใช่หรือไม่ใช่ก็ได้) แต่เราอนุญาตให้กลยุทธ์ใด ๆ ตั้งค่าให้เป็นดุลยภาพหากมันยากสำหรับผู้เล่นที่จะคำนวณส่วนเบี่ยงเบนที่ทำกำไรได้ (หมายเหตุนี่ถือว่าเป็นพื้นที่กลยุทธ์เอ็กซ์โปแนนเชียลมิฉะนั้นเราสามารถตรวจสอบความเบี่ยงเบนทั้งหมด)
usul

คำตอบ:


1

ฉันไม่สามารถคิดวิธีใด ๆ ที่อาจจะมีคำตอบที่ง่ายสง่างาม / น่าพอใจอย่างสมบูรณ์สำหรับคำถามนี้โดยเฉพาะอย่างยิ่งเนื่องจากผลตอบแทนที่สิ้นสุดนั้นยากที่จะคำนวณ อย่างไรก็ตามความคิดของฉันยาวเกินกว่าจะโพสต์เป็นความคิดเห็นได้

ความคิดที่ดีที่สุดที่ฉันมีคือ: ในกรณีของหมากรุกลองประมาณความน่าจะเป็นที่ White จะชนะโดยพิจารณาจากความได้เปรียบเชิงวัตถุของ White (เช่นเบี้ยพิเศษอัศวิน ฯลฯ ) สำหรับตำแหน่งที่กำหนดโดยการสุ่มเลือกตำแหน่งด้วยจำนวนที่แน่นอน - การกำหนดค่าของวัสดุ บางทีในกรณีของ "all-rooks Chess" เราอาจพูดได้ว่า "มีโอกาสมากที่ White จะชนะด้วย 8 rooks ต่อ 17's rooks?" บางทีความน่าจะเป็นนี้คือ 4%; ในการคำนวณเราจะต้องตรวจสอบ (พูด) ตำแหน่งหมากรุกที่สร้างแบบสุ่มแตกต่างกัน 1,000 ตำแหน่งที่มี white rooks 8 อันและ black rooks 17 อันจากนั้นมองไปข้างหน้า (พูด) 10 การเคลื่อนไหวในทุก ๆ กรณีและดูว่า . จากนั้นนำราคาที่คาดหวังตามการกำหนดค่าวัสดุในตอนท้าย

แน่นอนว่าจำเป็นต้องหาการกำหนดค่าวัสดุสำหรับความเป็นไปได้ที่เกี่ยวข้อง ( M , N ) ของM white rooks ไปยังN rooks ดำ ... สันนิษฐานว่าเริ่มต้นจากคู่ที่สั่งต่ำสุด ( M = 1, N = 1) และการทำงาน ขึ้นจากที่นั่น

สำหรับตำแหน่งเดิมอย่าเพิ่งไปกับสถิติที่คุณได้รับ (เช่นถ้าตำแหน่งเดิมมี ( M = 6, N = 7) rooks อย่าเพิ่งคิดว่า White มีโอกาสชนะ 25% เพราะนั่นเป็น อัตราต่อรองที่คาดหวังของชัยชนะสำหรับ (6,7)); แต่เนื่องจากคุณสามารถแม่นยำมากขึ้นให้ดู 10 การเคลื่อนไหวที่ลึกกว่าปกติด้วยตำแหน่งนี้เพียงตำแหน่งเดียวและค้นหาตำแหน่งสิ้นสุดที่เป็นไปได้ทั้งหมด จากนั้นค้นหาเส้นทางที่ถูกต้อง (ที่เกี่ยวข้องกับการเล่นที่ดีที่สุดของทั้งสองฝ่าย) ไปยังการกำหนดค่า 10-moves-deep-deep และเลือกอัตราต่อรองที่คาดหวังของเส้นทางนี้เป็นอัตราต่อรองที่คาดหวังของตำแหน่งเดิม

ฉันคิดว่ากระบวนการนี้สามารถทำได้ในเวลาพหุนาม มองkย้ายลึกสำหรับการแก้ไขkในเกมหมากรุกเป็นพหุนามในขนาดของคณะกรรมการและจำนวนรวมของอีกาสีขาวและสีดำจะแสดงในเอก (ในความรู้สึก) เพราะตัวเลขที่ต้องมีขนาดเล็กกว่าขนาดของคณะกรรมการ

ถ้ามันฟังดูซับซ้อนและยากที่จะอธิบายนั่นเป็นเพราะ ข้อมูลสรุปสั้น ๆ เพิ่มเติมเกี่ยวกับสิ่งที่ฉันอธิบายคือใช้การเรียกซ้ำและสถิติพื้นฐานเพื่อคำนวณอัตราต่อรองของชัยชนะสำหรับชุดขาวM- rooks MและROOKs ดำNบนกระดาน จากนั้นใช้ค่าเหล่านี้เพื่อดูการเคลื่อนไหวk ที่ลึกและตรวจสอบราคาที่สีขาวจะชนะในตำแหน่งเดิม

ความคิดเห็นสุดท้าย: ฉันคิดว่าปัญหานี้เป็นที่น่าสนใจสำหรับเกมที่ไม่สมบูรณ์เช่น EXTIME เช่น Tic Tac Toe ซึ่งตาม Wikipedia นั้น PSPACE สมบูรณ์ นอกจากนี้ฉันเชื่อว่ากระบวนการเช่นเดียวกับที่ฉันอธิบายไว้ข้างต้นอาจมีประโยชน์เช่นกันแม้ว่าจะเห็นได้ชัดว่ามันเป็นไปไม่ได้ที่จะได้ประโยชน์จาก "วัตถุ" ในทิค - แทค - โทด จะต้องมีพื้นฐานอื่น ๆ เพื่อตัดสินความเหนือกว่าของตำแหน่งของ X หรือ O

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.