Osborne, Nash equilibria และความถูกต้องของความเชื่อ


12

ใน Osborne's An An Introduction to Game Theory Nash ดุลยภาพได้อธิบายไว้ดังนี้ (หน้า 21–22):

ครั้งแรกผู้เล่นแต่ละคนเลือกการกระทำของเธอตามรูปแบบของการเลือกที่มีเหตุผลให้ความเชื่อของเธอเกี่ยวกับการกระทำของผู้เล่นคนอื่น ประการที่สองความเชื่อของผู้เล่นทุกคนเกี่ยวกับการกระทำของผู้เล่นคนอื่นนั้นถูกต้อง

ดูเหมือนว่าสำหรับฉันแล้วคำจำกัดความนี้ไม่เทียบเท่ากับคำจำกัดความของสมดุลของแนชอย่างสมบูรณ์ในฐานะโปรไฟล์กลยุทธ์ที่กลยุทธ์ของผู้เล่นแต่ละคนเป็นการตอบสนองที่ดีที่สุดต่อกลยุทธ์ของผู้อื่น

คำจำกัดความทั่วไปไม่ได้เกี่ยวกับความเชื่อดังนั้นจึงอนุญาตให้มีความเป็นไปได้ที่ความเชื่ออาจไม่ถูกต้อง

เพื่อเป็นไปได้เล็กน้อยพิจารณา Dilemma ของนักโทษ สมมติว่าผู้เล่นแต่ละคนเชื่อว่าผู้เล่นคนอื่นจะไม่ยอมรับ เนื่องจากการรับสารภาพเป็นกลยุทธ์ที่โดดเด่นผู้เล่นแต่ละคนจะยังคงสารภาพ ดังนั้นการกระทำจึงเป็นดุลยภาพของแนชแม้ว่าความเชื่อของผู้เล่นจะตรงกันข้ามกับการกระทำที่เกิดขึ้นจริง

ฉันถูกต้องในความเข้าใจนี้หรือไม่ว่าคำจำกัดความของออสบอร์นนั้นมีลักษณะอื่นที่ไม่ใช่ดุลยภาพของแนช?


ไม่ได้"คำจำกัดความทั่วไปไม่ได้บอกอะไรเกี่ยวกับความเชื่อดังนั้นจึงอนุญาตให้เป็นไปได้ว่าความเชื่ออาจไม่ถูกต้อง" เพียงแค่บานพับความจริงที่ว่าคุณมีข้อสมมติฐานที่เป็นเหตุเป็นผลเสมอในคำจำกัดความเหล่านี้หรือไม่
Thorst

คำตอบ:


9

การแนะนำภาษาแห่งความเชื่อที่นี่แปลกเล็กน้อยเนื่องจากความเชื่อนั้นมีความหมายที่เฉพาะเจาะจงมากในส่วนอื่น ๆ ของทฤษฎีเกม

อันที่จริงคำอธิบายของออสบอร์นเป็นการระลึกถึงความสมดุลย์ของ Bayes Nash เราสามารถนำความคิดของความเชื่อลงในรูปแบบปกติของเกมข้อมูลที่สมบูรณ์ดังนี้สมมติว่ามีความน่าจะผู้เล่นแต่ละคนเป็น "กลยุทธ์" ชนิดที่จะเล่นตาม (แนช) สมดุลและมีความน่าจะเป็นเขาจะเลือกกลยุทธ์แบบสุ่มอย่างสม่ำเสมอ (เพราะพูดว่าเขาไม่สนใจทุกการกระทำ) เราจึงมีเกมแบบเบย์ที่คิดเกี่ยวกับความเชื่อเป็นธรรมชาติมากขึ้นฉัน1 - ฉันaii1ai

แนวคิดการแก้ปัญหาเบส์แนชแล้วบอกว่ายุทธศาสตร์ที่ดีที่สุดจะต้องได้รับการเล่นที่คาดว่าจะเกิดจากผู้เล่นอื่น ๆ 'กลยุทธ์และความเชื่อของพวกเขามากกว่าประเภทโดยนัยi} ถ้าเราดูที่ขีด จำกัด เป็นสำหรับทั้งหมดแล้วความสมดุลของ Bayes Nash ของเกมนี้จะตรงกับแนวคิดการแก้ปัญหาที่อธิบายโดย Osbornei a i1 i{aj}jiai1i


ฉันคิดว่าเหตุผลที่ออสบอร์นเขียนไว้เช่นนี้เป็นสิ่งที่สอนได้เพราะนี่คือข้อความเบื้องต้น เมื่อเราแนะนำนักเรียนเกี่ยวกับเกมแบบคงที่เราจะบอกพวกเขาว่าผู้เล่นตอบสนองการกระทำของผู้เล่นคนอื่นได้ดีที่สุด นักเรียนต้องการรู้ว่า "พวกเขาจะตอบสนองต่อกลยุทธ์ที่เลือกพร้อมกันได้อย่างไรโดยไม่รู้ว่ากลยุทธ์นั้นจะเป็นอย่างไร" นี่คือคำถามเชิงปรัชญาหลายประการ คำตอบทั่วไปคือi

  • หากเกมเป็นเกมที่เล่นบ่อย ๆ (วางประเด็นอื่น ๆ ของผลลัพธ์ที่สามารถคงอยู่ในเกมซ้ำ) เราสามารถคิดว่าแนชเป็นดุลยภาพในแง่ที่ว่าถ้าเรามาบรรจบกันเราสามารถพัฒนาบรรทัดฐานโดยที่ผู้คนยังคงดำเนินต่อไป เพื่อเล่นดุลยภาพนั้นไปเรื่อย ๆ (และคาดว่าคนอื่นจะทำแบบเดียวกัน)
  • หากเกมเป็นแบบยิงครั้งเดียวเรามักจะเรียกความคิดที่ว่าผู้เล่นจะพยายามคาดเดาว่าคนอื่นจะทำอะไรและความคิดของเราจะทำให้ความคิดนั้นถูกต้อง

ดูเหมือนว่าคำทำนายในจุดที่สองนั้นตรงกับ "ความเชื่อ" ที่ออสบอร์นเรียกใช้ อย่างไรก็ตามมันเป็นสิ่งสำคัญที่จะเน้นว่าการคาดการณ์เหล่านี้ / "ความเชื่อ" เป็นเพียงเครื่องมือที่ไม่เป็นทางการ / ใช้งานง่ายเพื่อช่วยให้เราสามารถกำหนดสิ่งที่เกิดขึ้นในสภาวะสมดุลและไม่ได้เป็นส่วนหนึ่งของคำนิยามของความสมดุลดังกล่าว แนวคิดของแนชดุลเองก็ไม่เชื่อเรื่องพระเจ้าในความเชื่อของความเชื่อ (ตามที่คุณบันทึกไว้ในความคิดเห็นมันถูกกำหนดเฉพาะการกระทำ) ซึ่งเป็นเหตุผลว่าทำไมเมื่อออสบอร์นไปอย่างเป็นทางการกำหนดแนชดุลเขาทำเช่นนั้นโดยไม่เรียก ความคิดของความเชื่อเลย


4

การแนะนำความเชื่อทำให้แนวคิดของ NE เทียบเคียงกับแนวคิดการปรับแต่งอื่น ๆ เช่น PBE และดุลยภาพตามลำดับ แต่ความหมายของ NE ไม่เปลี่ยนแปลง

หนังสือเรียนเล่มเล็กระดับบัณฑิตโดย Mas-Colell, Whinston และ Green (MWG) มีผลกับเรื่องนี้

ข้อเสนอ 9.C.1 โปรไฟล์กลยุทธ์คือความสมดุลของ Nash ในรูปแบบเกมถ้าหากมีระบบความเชื่อเช่นนั้นแกมมาE μσΓEμ

  1. รายละเอียดกลยุทธ์เป็นเหตุผลตามลำดับที่กำหนดระบบความเชื่อที่ข้อมูลทุกชุดดังกล่าวว่า 0σμ HPr(H|σ)>0
  2. ระบบความเชื่อนั้นได้มาจากโปรไฟล์กลยุทธ์ผ่านกฎของ Bayes ทุกครั้งที่ทำได้μσ

ดังนั้นตัวอย่างภาวะที่กลืนไม่เข้าคายไม่ออกของนักโทษที่คุณให้ซึ่งผู้เล่นมีความเชื่อตรงข้ามกับกลยุทธ์ที่แท้จริงของคู่ต่อสู้ล้มเหลวในเงื่อนไขที่สองซึ่งจำเป็นต้องมีความเชื่อที่จะได้รับจากกฎของเบย์เมื่อทำได้ ในความเป็นจริงนี่คือการคำนวณทางคณิตศาสตร์ของข้อกำหนดที่สองของคำจำกัดความของออสบอร์น: ความเชื่อของผู้เล่นเกี่ยวกับการกระทำของผู้เล่นคนอื่นนั้นถูกต้อง


ฉันคิดว่ามีความแตกต่างระหว่าง MWG และออสบอร์น MWG กำลังบอกว่าสำหรับสมดุลของแนช "มี" ระบบความเชื่อที่ทำให้มันมีเหตุผล เราเงียบในสิ่งที่ผู้เชื่อเชื่อถ้ามี Osborne กล่าวว่าผู้เล่นมีความเชื่อจริงและเป็นคนที่ถูกต้อง ฉันคิดว่าสมัยหลังเปลี่ยนความหมายทางความคิดของ NE เนื่องจากคำจำกัดความตามปกติไม่ได้กล่าวถึงความเชื่อเลยและตัวอย่าง Dilemma ของนักโทษแสดงให้เห็นว่ากลยุทธ์ไม่ได้กำหนดความเชื่อโดยเฉพาะ
Jyotirmoy Bhattacharya

@JyotirmoyBhattacharya: ฉันไม่คิดว่า MWG จะ "เงียบในสิ่งที่เชื่อถ้ามีผู้เล่นจริง ๆ " เงื่อนไขที่ 2 ของข้อเสนอต้องการให้ความเชื่อนี้มาจากโปรไฟล์กลยุทธ์ดุลยภาพโดยใช้กฎของเบย์ทุกครั้งที่ทำได้ ดังนั้นในตัวอย่าง PD เมื่อผู้เล่นคนหนึ่งเลือกข้อบกพร่องด้วยความน่าจะเป็น 1 ความเชื่อของผู้เล่นคนอื่นจะต้องใส่ความน่าจะเป็น 1 ในข้อบกพร่องของการกระทำและตอบสนองอย่างดีที่สุดเมื่อได้รับความเชื่อดังกล่าว
Herr K.

@JyotirmoyBhattacharya: ความเชื่อที่มีต่อ NE นั้นไม่จำเป็นต้องไม่ซ้ำกัน นี่เป็นเพราะถ้าให้สมดุลเส้นทางบนต้นไม้เกมจะถูกนำมาด้วยศูนย์ความน่าจะเป็นแล้วกฎของเบย์จะไม่นำมาใช้ดังนั้นความเชื่อใด ๆ ในเส้นทางนั้นจะถูกพิจารณาว่า "ถูกต้อง" ใน NE นี่คือเหตุผลที่ทำให้มีการแนะนำการปรับสมดุลเช่นลำดับเพื่อที่จะตัดความเชื่อที่ไม่มีเหตุผลออกจากเส้นทางสมดุล
Herr K.

@JyotirmoyBhattacharya: เพราะเป็นตำราเรียนระดับปริญญาตรีออสบอร์นอาจเลือกภาษาที่ใช้งานง่ายกว่าวิชาคณิตศาสตร์อย่างเข้มงวดด้วยเหตุผลทางการสอน สำหรับฉันสองเงื่อนไขในคำจำกัดความของออสบอร์นเป็นเงื่อนไขที่แน่นอนในข้อเสนอของ MWG
Herr K.

3

ตัวอย่างภาวะที่กลืนไม่เข้าคายไม่ออกของนักโทษของคุณใช้งานได้เพียงเพราะเป็นเกมที่มีกลยุทธ์ที่โดดเด่น ออสบอร์นนั้นถูกต้อง

เพื่อให้ตอบสนองต่อกลยุทธ์ของผู้เล่นอื่นได้ดีที่สุดดังที่นิยามไว้ฉันจะต้องรู้กลยุทธ์ของพวกเขา กล่าวอีกนัยหนึ่งฉันต้องมีความเชื่อเกี่ยวกับสิ่งที่พวกเขากำลังทำและความเชื่อเหล่านั้นจะต้องถูกต้อง นี่คือการเสริมสร้างแนวคิดของการหาเหตุผลเข้าข้างตนเอง

คุณทำให้เป็นจุดที่น่าสนใจเกี่ยวกับวิธีการที่จะได้รับ "สมดุล" ที่แปลกในเกมที่มีกลยุทธ์ที่โดดเด่น มันมีค่าเท่ากับผลลัพธ์ที่เทียบเท่าและโดยที่อาจผิดและวางน้ำหนักบวกในกลยุทธ์ที่ไม่สามารถปรับเปลี่ยนได้ แต่ฉันไม่เคยเห็นดุลยภาพของแนชที่รวมถึงความเชื่อ คำจำกัดความที่ฉันจำได้ไปคือ "โปรไฟล์กลยุทธ์คือดุลยภาพของแนชถ้า(σ,μ1)(σ,μ2)μ2σΣσiBi(σi)... "ฉันเชื่อว่านี่หมายถึงว่าการกำหนดความเชื่อนั้นไม่จำเป็นเพราะความเชื่อนั้นเป็นการประเมินที่ถูกต้องของรายละเอียดกลยุทธ์การอ้างอิงหนึ่งในหนังสือของฉันมันให้คำจำกัดความตามปกติพร้อมการอ้างอิงของ Nash (1950) และ จากนั้นไปเพื่อหารือเกี่ยวกับสมมติฐานพื้นฐานสองข้อข้อที่หนึ่งคือความเชื่อที่ถูกต้องและอีกข้อคือบทละครที่มีเหตุผลให้ความเชื่อที่ถูกต้อง


แต่การพิสูจน์หักล้างบางสิ่งหนึ่งนับตัวอย่างอย่างเพียงพอ หากคุณใช้ออสบอร์นโดยอ้างว่าคำจำกัดความของเขานั้นเทียบเท่ากับ Nash แล้วใครจะจัดการกับตัวอย่าง Dilemma counter ของนักโทษได้อย่างไร ฉันเข้าใจว่าคำจำกัดความของออสบอร์นเป็นการเสริมสร้างความมีเหตุผลให้มากขึ้นฉันยอมรับว่ามันไม่ใช่ดุลยภาพของแนชด้วยเหตุผลง่ายๆว่านี่คือดุลยภาพที่กำหนดไว้เหนือการกระทำและความเชื่อในขณะที่สมดุลของแนช
Jyotirmoy Bhattacharya

1
มันเป็นคำนิยามไม่ใช่ข้อพิสูจน์
Pburg

ยุติธรรมพอสมควร แต่มันเป็นคำจำกัดความของแนวคิดที่มีคำจำกัดความที่เป็นที่ยอมรับกันอยู่แล้ว ดังนั้นฉันคาดหวังว่าหากผู้เขียนไม่ได้กล่าวถึงอย่างอื่นเขาอ้างว่าคำจำกัดความทั้งสองนั้นเทียบเท่ากัน
Jyotirmoy Bhattacharya

เพื่อความชัดเจนเขาได้รวมความคิดเห็นเหล่านั้นไว้ในคำจำกัดความหรือในการอภิปรายหรือไม่? ป.ล. ฉันแก้ไขคำตอบของฉัน
Pburg

ส่วนที่ฉันยกมาคือการสนทนา ทันทีหลังจากนั้นเขาก็พูดว่า (p.22) "ทั้งสององค์ประกอบเป็นตัวเป็นตนในคำจำกัดความต่อไปนี้" และจากนั้นให้คำนิยามมาตรฐานในแง่ของการตอบสนองที่ดีที่สุดกับกลยุทธ์ที่ไม่ได้พูดถึงความเชื่อเลย ดังนั้นความเชื่อที่เป็นตัวเป็นตนในคำจำกัดความคืออะไร? และปัญหาไม่ได้เป็นเพียงในเกมที่มีกลยุทธ์ที่โดดเด่น มันค่อนข้างเป็นไปได้ที่จะสร้างตัวอย่างที่ไม่มีกลยุทธ์ที่โดดเด่น แต่กลยุทธ์สมดุลของแนชคือการตอบสนองต่อความเชื่อที่ดีที่สุดจากการเล่นสมดุล
Jyotirmoy Bhattacharya

2

ฉันอาจจะทำซ้ำสิ่งที่ได้รับการกล่าวก่อน แต่นี่คือสิ่งที่ฉันใช้เวลานี้

ฉันคิดว่าเราประสบปัญหาปกติเมื่อเปรียบเทียบสองรุ่นที่แตกต่างกัน "ความเท่าเทียมกัน" หมายถึงอะไรที่ไม่ชัดเจนอย่างสมบูรณ์เพราะคำจำกัดความทั้งสองอยู่ในโลกที่แตกต่างกันหรือแบบจำลองที่แตกต่างกัน อย่างไรก็ตามหาก "ความเท่าเทียมกัน" ถูกกำหนดอย่างถูกต้องฉันคิดว่าใคร ๆ ก็สามารถเข้าใจถึงคำจำกัดความของออสบอร์นและแสดงว่ามัน "เทียบเท่า" กับ NE

แนวคิดวิธีการแก้ปัญหาพื้นฐานส่วนที่ยกมาจะเป็นดังนี้:

Belief equilibrium (BE):> โปรไฟล์กลยุทธ์และโปรไฟล์ความเชื่อสำหรับผู้เล่นทุกคนsbi

ui(si | si=bi)ui(s | si=bi) for all sSi
และ
bi=si

ทีนี้ปัญหาถ้าเราจะได้คำแถลง "ความเท่าเทียม" ก็คือในอีกด้านหนึ่งเรามีสิ่งที่ "มีชีวิต" ในโลกที่มี ... ความเชื่อและอีกความคิด NE ที่มีชีวิตอยู่ในโลก ... ยกเว้นความเชื่อ ดังนั้นคำแถลงความเท่าเทียมเช่น "NE BE" อาจหมายถึงอะไร

1) BE NE

ทิศทางของความหมายนี้อาจไม่มีข้อโต้แย้งเพราะเราเปลี่ยนจากความซับซ้อนเป็นแบบจำลองที่ง่ายกว่า "ทุก ๆ BE เป็น NE" ควรหมายความว่าถ้าเราดูที่กลยุทธ์ดุลยภาพของ BE เพียงอย่างเดียว (นั่นคือโดยไม่มีการสนับสนุนความเชื่อ ) มันควรจะเป็น NE หนึ่งสามารถตรวจสอบว่าเป็นกรณีนี้p

2) NEพ.ศ.

นี่คือส่วนที่ยุ่งยาก มันหมายความว่า "ทุก ๆ NE เป็น BE"? ไม่แน่นอนว่า "NE บวกกับโปรไฟล์ความเชื่อใด ๆเป็น BE" ตามที่ OP แสดงพร้อมกับตัวอย่างเคาน์เตอร์ของเขา ยังเป็นกรณีที่ "NE ใด ๆ ที่สามารถทำ BE สำหรับความเชื่อบางอย่าง " ฉันคิดว่าในแง่นี้เราควรเข้าใจการเรียกร้อง "ความเท่าเทียม" ของออสบอร์น

โปรดสังเกตว่าเรายังมีคำสั่ง "คล้าย - คล้ายกันมากขึ้น" ต่อไปนี้: " ผลลัพธ์ของเกมคือผลลัพธ์ NE ถ้าหากมันเป็นผลลัพธ์ BE" เท่านั้น


แต่ BE ทุกคนไม่ได้เป็น NE เนื่องจากแนวคิด BE เป็นความอ่อนแอของความมีเหตุผลซึ่งเราอ่อนแอกว่า NE อย่างเข้มงวด
Jyotirmoy Bhattacharya

อย่างที่ฉันเขียนฉันมีปัญหาในการทำความเข้าใจความหมายของ BE ว่า "ไม่ควร" NE เพราะพวกเขาดูเหมือนจะอยู่ในรูปแบบที่แตกต่างกัน คุณหมายถึงว่ากลยุทธ์บางอย่างที่เล่นใน BE ไม่เป็น NE หรือไม่? ฉันคิดว่าไม่ถูกต้อง แต่ฉันอาจพลาดบางสิ่ง ถ้านั่นคือสิ่งที่คุณหมายถึงคุณสามารถชี้ให้ฉันไปที่เคาน์เตอร์ตัวอย่าง? นั่นจะเป็นประโยชน์มาก
Martin Van der Linden

ฉันไม่แน่ใจว่า BE เป็นความอ่อนแอของความมีเหตุผล ในความเข้าใจของฉัน BE เป็นเหตุผลเข้าคู่กับเงื่อนไขที่การคาดเดานั้นถูกต้องใช่มั้ย หากถูกต้องแล้วเราจะไม่แข็งแกร่งกว่าการหาเหตุผลเข้าข้างตนเองหรือไม่ (แน่นอนมันอาจขึ้นอยู่กับสิ่งที่เรียกว่าแนวคิดการแก้ปัญหา "อ่อนแอ / แข็งแกร่ง")
Martin Van der Linden
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.