นี่คือวิธีการ "เพิ่มประสิทธิภาพยูทิลิตี้ / ทฤษฎีเกม" ที่คาดว่าจะเกิดขึ้นกับเรื่องนี้ ในกรอบดังกล่าวคำตอบปรากฏชัดเจน
อาคาร
เราได้รับการบอกกล่าวด้วยความซื่อสัตย์อย่างแท้จริงว่า x จำนวนเงินที่เป็นบวกอย่างเคร่งครัดตั๋วสองใบต่อไปนี้วางอยู่ในกล่อง: {A=x,B=2x} ด้วยหมายเลขประจำตัวที่ได้รับมอบหมาย 1 และ {A=2x,B=x} ด้วยหมายเลขประจำตัวที่ได้รับมอบหมาย 0. จากนั้นวาดจาก Bernoulli (p=0.5) ตัวแปรสุ่มถูกดำเนินการและขึ้นอยู่กับผลลัพธ์และเหตุการณ์ที่เกิดขึ้นจำนวน x และ 2x ถูกวางไว้ในซองจดหมาย A และ B. เราไม่ได้บอกว่าคุณค่าของx คือหรือจำนวนเท่าใดไปที่ซองจดหมาย
กรณีแรก: เลือกซองจดหมายพร้อมตัวเลือกเพื่อสลับโดยไม่เปิด
ปัญหาแรกคือเราจะเลือกซองจดหมายได้อย่างไร สิ่งนี้เกี่ยวข้องกับการตั้งค่า ดังนั้นสมมติว่าเราคาดหวังอรรถประโยชน์สูงสุดด้วยฟังก์ชั่นยูทิลิตี้u().
เราสามารถจำลองโครงสร้างความน่าจะเป็นที่นี่โดยพิจารณาตัวแปรสุ่มสองขั้ว A และ Bเป็นตัวแทนของซองจดหมายและจำนวนเงินในพวกเขา การสนับสนุนของแต่ละคนคือ{x,2x}. แต่พวกเขาไม่ได้เป็นอิสระ ดังนั้นเราต้องเริ่มต้นด้วยการกระจายข้อต่อ ในรูปแบบตารางการแจกแจงร่วมและการแจกแจงที่สอดคล้องกันคือ
A/B→x2xMarg Bx00.50.52x0.500.5Marg A0.50.51.00
สิ่งนี้บอกเราว่า A และ B มีการกระจายระยะขอบเท่ากัน
แต่นี่หมายความว่าไม่สำคัญว่าเราจะเลือกซองจดหมายอย่างไรเพราะเราจะได้รับยูทิลิตี้ที่คาดหวังไว้เสมอ
0.5⋅u(x)+0.5⋅u(2x)
สิ่งที่เรากำลังเผชิญอยู่ที่นี่คือการเดิมพันแบบผสม (วิธีเลือกซองจดหมาย) บนการเดิมพันที่เหมือนกันสองครั้ง (แต่ละซอง) เราสามารถเลือกA ด้วยความน่าจะเป็น 1, 0หรืออะไรก็ตามที่อยู่ในระหว่าง (และสมบูรณ์สำหรับ B) มันไม่สำคัญ เราจะได้รับยูทิลิตี้ที่คาดหวังเหมือนกันเสมอ โปรดทราบว่าทัศนคติของเราที่มีต่อความเสี่ยงไม่ได้มีบทบาทที่นี่
ดังนั้นเราจะเลือกซองจดหมายพูด Aและเรากำลังดูอยู่ ตอนนี้ยูทิลิตี้ที่เราคาดหวังคืออะไร? ตรงเช่นเดียวกับก่อนที่จะเลือก การหยิบซองจดหมายด้วยวิธีใดก็ตามจะไม่ส่งผลต่อความน่าจะเป็นของสิ่งที่อยู่ข้างใน
เราได้รับอนุญาตให้เปลี่ยน สมมติว่าเราทำและตอนนี้เรากำลังถือซองจดหมายB. ตอนนี้ยูทิลิตี้ที่คาดหวังคืออะไร? เหมือนเดิมทุกประการ
เหล่านี้เป็นสองสถานะที่เป็นไปได้ของโลกสำหรับเรา: เลือก A หรือเลือก B. ภายใต้ตัวเลือกใด ๆ ทั้งสองสถานะของโลกหมายถึงค่าเดียวกันกับแรงผลักดันที่เราเลือก / สันนิษฐาน (เช่นเพิ่มประโยชน์สูงสุดที่คาดหวัง)
ดังนั้นที่นี่เราไม่สนใจที่จะเปลี่ยน และที่จริงเราสามารถสุ่มเลือกได้
กรณีที่สอง: เปิดซองพร้อมตัวเลือกในการสลับหลังจาก
สมมติว่าเราได้เลือกแล้ว Aเปิดแล้วพบภายในจำนวนเงิน y∈{x,2x}. สิ่งนี้เปลี่ยนแปลงหรือไม่?
มาดูกัน. ฉันสงสัยว่าคืออะไร
P(A=x∣A∈{x,2x})=?
ดี, {x,2x} คือพื้นที่ตัวอย่างซึ่งตัวแปรสุ่ม Aถูกกำหนดไว้ การปรับสภาพในพื้นที่ตัวอย่างทั้งหมดเช่นบนซิกม่าพีชคณิตเล็กน้อยไม่ส่งผลกระทบต่อความน่าจะเป็นหรือค่าคาดหวัง ราวกับว่าเราสงสัยว่า "อะไรคือคุณค่าของA ถ้าเรารู้ว่าค่าที่เป็นไปได้ทั้งหมดอาจถูกทำให้เป็นจริง? "ไม่มีความรู้ที่มีประสิทธิภาพได้รับดังนั้นเราจึงยังคงอยู่ที่โครงสร้างความน่าจะเป็นดั้งเดิม
แต่ฉันก็สงสัยว่ามันคืออะไร
P(B=x∣A∈{x,2x})=?
คำสั่งการปรับสภาพดูอย่างถูกต้องว่าเป็นซิกม่า - พีชคณิตที่สร้างโดยเหตุการณ์ {A∈{x,2x}}เป็นพื้นที่ตัวอย่างทั้งหมดซึ่งสุ่มเวกเตอร์ (A,B)ได้รับการกำหนด จากตารางของการแจกแจงร่วมข้างต้นเราจะเห็นได้ว่าการจัดสรรความน่าจะเป็นของการร่วมนั้นเทียบเท่ากับการจัดสรรความน่าจะเป็นของระยะขอบ (คุณสมบัติ "เกือบจะแน่นอน" เนื่องจากการปรากฏตัวของเหตุการณ์สองศูนย์ ดังนั้นที่นี่เช่นกันเราจำเป็นต้องกำหนดความน่าจะเป็นสำหรับBบนพื้นที่ตัวอย่างทั้งหมด มันเป็นไปตามที่การกระทำของเราในการเปิดซองจดหมายไม่ได้ส่งผลกระทบต่อโครงสร้างความน่าจะเป็นสำหรับB ด้วย
เข้าสู่ทฤษฎีเกมควบคู่ไปกับการตัดสินใจ เราได้เปิดซองจดหมายและเราต้องตัดสินใจว่าจะสลับหรือไม่ ถ้าเราไม่เปลี่ยนเราได้รับประโยชน์u(y). หากเราเปลี่ยนเราก็จะอยู่ในสองสถานะที่เป็นไปได้ของโลก
y=x,u(A)=u(x)⟹u(B)=u(2x)
y=2x,u(A)=u(2x)⟹u(B)=u(x)
เราไม่ทราบว่ารัฐใดมีอยู่จริง แต่จากการอภิปรายข้างต้นเรารู้ว่าแต่ละรัฐมีความน่าจะเป็น p=0.5 ของที่มีอยู่
เราสามารถสร้างแบบจำลองนี้เป็นเกมที่คู่ต่อสู้ของเราคือ "ธรรมชาติ" และที่เรารู้ว่าธรรมชาติเล่นอย่างมั่นใจด้วยกลยุทธ์แบบสุ่ม : ด้วยp=0.5 y=x และด้วย p=0.5, y=2x. แต่ตอนนี้เราก็เช่นกันว่าหากเราไม่เปลี่ยนการจ่ายเงินของเราก็แน่นอน ดังนั้นนี่คือเกมของเราในรูปแบบปกติด้วยการจ่ายผลตอบแทนของเรา:
We/nature→SwitchDon't Switchy=xu(2x)u(y)y=2xu(x)u(y)
เราควรต้านทานสิ่งล่อใจที่จะทดแทน u(x) และ u(2x) สำหรับ u(y). u(y)เป็นผลตอบแทนที่รู้จักและแน่นอน การจ่ายเงินสำหรับกลยุทธ์ "Switch" ไม่เป็นที่รู้จักจริง ๆ (เนื่องจากเราไม่ทราบคุณค่าของx) ดังนั้นเราจึงควรย้อนกลับทดแทน ถ้าy=x แล้วก็ u(2x)=u(2y), และถ้า y=2x แล้วก็ u(x)=u(y/2). ดังนั้นนี่คือเกมของเราอีกครั้ง:
We/nature→SwitchDon't Switchy=xu(2y)u(y)y=2xu(y/2)u(y)
ตอนนี้การจ่ายผลตอบแทนทั้งหมดในเมทริกซ์เป็นที่รู้จัก มีกลยุทธ์ที่โดดเด่นบริสุทธิ์หรือไม่?
ผลตอบแทนที่คาดหวังของกลยุทธ์ "Switch" คือ
E(VS)=0.5⋅u(2y)+0.5⋅u(y/2)
ผลตอบแทนที่คาดหวังของกลยุทธ์ "Don't Switch" คือ
E(VDS)=u(y)
เราควรเปลี่ยนถ้า
E(VS)>E(VDS)⟹0.5⋅u(2y)+0.5⋅u(y/2)>u(y)
และตอนนี้ทัศนคติต่อความเสี่ยงกลายเป็นสิ่งสำคัญ ไม่ใช่เรื่องยากที่จะอนุมานได้ว่าภายใต้พฤติกรรมเสี่ยงและความเสี่ยงที่เป็นกลางเราควรเปลี่ยน
สำหรับพฤติกรรมที่เสี่ยงต่อความเกลียดชังฉันพบผลลัพธ์ที่ยอดเยี่ยม:
สำหรับฟังก์ชั่นยูทิลิตี้ "เว้าน้อย" (ด้านบนอย่างเคร่งครัด) กว่าลอการิทึม (พูด, สแควร์รูท), จากนั้นเราควรยังคงสลับ
สำหรับยูทิลิตี้ลอการิทึม u(y)=lnyเราไม่แยแสระหว่างการสลับหรือไม่
สำหรับ "เว้ามากขึ้น" มากกว่า (อย่างเคร่งครัดด้านล่าง) ฟังก์ชั่นยูทิลิตี้ลอการิทึมเราไม่ควรเปลี่ยน
ฉันปิดด้วยแผนภาพของกรณีลอการิทึม
สมมติ y=4. แล้วก็y/2=2,2y=8. เส้นΓ−Δ−Eคือบรรทัดที่ยูทิลิตี้ที่คาดหวังจาก "สวิตช์" จะอยู่ เนื่องจากธรรมชาติเล่น50−50 กลยุทธ์มันจะเป็นจริง ณ จุด Δซึ่งเป็นจุดกึ่งกลางของ Γ−Δ−E. เมื่อถึงจุดนั้นด้วยยูทิลิตี้ลอการิทึมเราได้รับยูทิลิตี้ตัวเดียวกันจาก "Don't Switch" เช่นln(4) สำหรับตัวอย่างตัวเลขนี้