การโยนเหรียญกระบวนการตัดสินใจและคุณค่าของข้อมูล


14

ลองนึกภาพการตั้งค่าต่อไปนี้: คุณมี 2 เหรียญ, เหรียญ A ซึ่งรับประกันว่าจะยุติธรรมและเหรียญ B ซึ่งอาจหรืออาจไม่ยุติธรรม คุณจะถูกขอให้โยนเหรียญ 100 ครั้งและเป้าหมายของคุณคือเพิ่มจำนวนหัวให้มากที่สุด

ข้อมูลก่อนหน้าของคุณเกี่ยวกับเหรียญ B คือพลิก 3 ครั้งและให้ 1 หัว หากกฎการตัดสินใจของคุณขึ้นอยู่กับการเปรียบเทียบความน่าจะเป็นที่คาดหวังของหัวของเหรียญ 2 เหรียญคุณจะพลิกเหรียญ 100 ครั้งและทำตามนั้น สิ่งนี้เป็นจริงแม้ว่าจะใช้การประมาณแบบเบย์ที่สมเหตุสมผล (ความหมายด้านหลัง) ของความน่าจะเป็นเนื่องจากคุณไม่มีเหตุผลที่จะเชื่อว่าเหรียญ B ให้ผลตอบแทนที่มากกว่า

อย่างไรก็ตามจะเกิดอะไรขึ้นถ้าเหรียญ B มีความเอนเอียงในความเป็นจริง แน่นอนว่า "หัวหน้าที่มีศักยภาพ" ที่คุณยอมแพ้โดยการโยนเหรียญ B สองครั้ง (และการได้รับข้อมูลเกี่ยวกับคุณสมบัติทางสถิติของมัน) จะมีค่าในบางแง่มุมดังนั้นจึงเป็นปัจจัยในการตัดสินใจของคุณ "คุณค่าของข้อมูล" นี้จะอธิบายทางคณิตศาสตร์ได้อย่างไร?

คำถาม:คุณสร้างกฎการตัดสินใจที่ดีที่สุดทางคณิตศาสตร์ในสถานการณ์นี้ได้อย่างไร


ฉันกำลังลบคำตอบของฉัน มีคนจำนวนมากที่บ่นว่าฉันใช้ก่อนหน้านี้อย่างชัดเจน (ซึ่งเป็นมาตรฐานในวรรณคดี) เพลิดเพลินไปกับคำตอบที่ไม่ถูกต้องของ Cam Davidson Pilon ที่ซึ่งเขายังถือว่าก่อนหน้านี้ (แต่ไม่มีวัตถุใด ๆ ) และอ้างว่าเป็นวิธีที่ดีที่สุดซึ่งต่ำกว่า 1.035
Douglas Zare

ฮะสิ่งนี้เกิดขึ้นเมื่อใด BTW ฉันจะเห็นด้วยกับดักลาสว่าการใช้ก่อนหน้าเป็นเรื่องปกติ ฉันถอยกลับยืนยันการมองในแง่ดีของฉันเช่นกัน
Cam.Davidson.Pilon

ฉันยอมรับวิธีแก้ปัญหาของ Cam เพราะมันช่วยฉันได้มาก ฉันยอมรับว่ามันไม่ดีที่สุด แต่ถ้าใครบางคนสามารถชี้ให้เห็นทางออกที่ดีที่สุดโดยทั่วไปซึ่งสามารถคำนวณได้อย่างง่ายดายมันเป็นทางออกที่ดีที่สุด
M. Cypher

เหตุใดจึงไม่ดีที่ฉันใช้ก่อนหน้า (ซึ่งฉันระบุไว้ชัดเจน) เพื่อตอบคำถามที่ติดแท็ก "Bayesian"
Douglas Zare

1
ฉันไม่ได้วิจารณ์การใช้งานก่อนหน้านี้ ฉันพูดถึง sidenote ว่าอาจมีนักบวชที่เหมาะสมมากกว่าคนที่สวมเครื่องแบบ (เช่นของ Jeffrey) แต่นี่เป็นเพียงเล็กน้อยที่เกี่ยวข้องกับคำถาม วิธีการแก้ปัญหาของคุณดีมากไม่เป็นประโยชน์กับฉันเลย
M. Cypher

คำตอบ:


7

โจรติดอาวุธหลายคน

นี้เป็นกรณีพิเศษของปัญหาสล็อตแมชชีน ฉันพูดกรณีเฉพาะเพราะโดยทั่วไปเราไม่รู้ความน่าจะเป็นของหัว (ในกรณีนี้เรารู้ว่าเหรียญหนึ่งมีความน่าจะเป็น 0.5)

ปัญหาที่คุณเพิ่มขึ้นเรียกว่าภาวะที่กลืนไม่เข้าคายไม่ออกสำรวจกับการแสวงหาผลประโยชน์ : คุณสำรวจตัวเลือกอื่น ๆ หรือคุณยึดติดกับสิ่งที่คุณคิดว่าดีที่สุด มีวิธีแก้ปัญหาที่ดีที่สุดทันทีโดยสมมติว่าคุณรู้ว่าความน่าจะเป็นทั้งหมด : เพียงแค่เลือกเหรียญที่มีโอกาสชนะสูงที่สุด ปัญหาดังที่คุณได้กล่าวพาดพิงถึงคือเราไม่แน่ใจเกี่ยวกับความน่าจะเป็นที่แท้จริง

มีวรรณกรรมมากมายในเรื่องนี้และมีอัลกอริธึมที่กำหนดขึ้นมากมาย แต่เมื่อคุณติดแท็ก Bayesian นี้ฉันอยากจะบอกคุณเกี่ยวกับวิธีแก้ปัญหาส่วนตัวที่ฉันชอบ: Bayesian Bandit !

ทางออกโจร Baysian

วิธีการแบบเบย์ต่อปัญหานี้เป็นเรื่องธรรมชาติมาก เราสนใจที่จะตอบ "ความเป็นไปได้ที่เหรียญ X ดีกว่าสำหรับทั้งสองคืออะไร"

ก่อนหน้านี้สมมติว่าเราไม่พบการโยนเหรียญ แต่เราไม่รู้เลยว่าความน่าจะเป็นของเหรียญกษาปณ์อาจจะเป็นแสดงถึงไม่รู้จักนี้ ดังนั้นเราควรกำหนดการกระจายตัวแบบสม่ำเสมอให้กับความน่าจะเป็นที่ไม่รู้จัก อีกทางเลือกหนึ่ง (และด้านหลัง) สำหรับเหรียญกษาปณ์ของเรานั้นมีความเข้มข้นเล็กน้อยที่ 1/2pB

ตามที่คุณระบุไว้เราสังเกต 2 ส่วนและ 1 หัวจากเหรียญ B เราจำเป็นต้องอัปเดตการกระจายหลังของเรา สมมติว่าชุดก่อนและพลิกเป็น Bernoulli เหรียญพลิกหลังของเราเป็น2) เปรียบเทียบการกระจายหลังหรือ A และ B ตอนนี้:Beta(1+1,1+2)

ป้อนคำอธิบายรูปภาพที่นี่

การค้นหากลยุทธ์ที่เหมาะสมที่สุดโดยประมาณ

ตอนนี้เรามีผู้โพสต์แล้วจะทำอย่างไร? เราสนใจที่จะตอบว่า "อะไรคือความน่าจะเป็นเหรียญ B ที่ดีกว่าของทั้งสอง" (โปรดจำไว้ว่าจากมุมมองแบบเบย์ของเราถึงแม้ว่าจะมีคำตอบที่ชัดเจนว่าสิ่งใดดีกว่า

wB=P(pb>0.5)

ทางออกที่ดีที่สุดโดยประมาณคือการเลือก B กับความน่าจะเป็นและที่มีความน่าจะเป็นw_B โครงการนี้จะเพิ่มผลกำไรที่คาดหวังให้สูงสุด สามารถคำนวณได้ในเชิงตัวเลขเนื่องจากเรารู้ว่าการแจกแจงหลัง แต่วิธีที่น่าสนใจคือ: 1 - w B w BwB1wBwB

1. Sample P_B from the posterior of coin B
2. If P_B > 0.5, choose coin B, else choose coin A.

ชุดรูปแบบนี้ยังปรับปรุงด้วยตนเอง เมื่อเราสังเกตเห็นผลลัพธ์ของการเลือกเหรียญ B เราจะอัปเดตด้านหลังด้วยข้อมูลใหม่นี้และเลือกอีกครั้ง ด้วยวิธีนี้ถ้าเหรียญ B แย่จริงๆเราจะเลือกให้น้อยลงและในความเป็นจริงเหรียญ B จริง ๆ เราจะเลือกให้บ่อยขึ้น แน่นอนเราคือชาวเบย์ดังนั้นเราจึงไม่มีทางแน่ใจได้เลยว่าเหรียญ B จะดีกว่า การเลือกความน่าจะเป็นแบบนี้เป็นวิธีแก้ปัญหาที่เป็นธรรมชาติที่สุดสำหรับปัญหาการสำรวจการเอารัดเอาเปรียบ

นี่คือตัวอย่างหนึ่งของอมป์สันสุ่มตัวอย่าง ข้อมูลเพิ่มเติมและการใช้งานที่เย็นเพื่อการโฆษณาออนไลน์สามารถพบได้ในงานวิจัยของ Googleและงานวิจัยของ Yahoo ฉันรักสิ่งนี้!


2
ฉันไม่คิดว่ากลยุทธ์นั้นถูกต้อง ฉันไม่คิดว่าคุณควรเลือกว่าจะเลือก A หรือ B ความน่าจะเป็น
Douglas Zare

2
ฉันไม่คิดว่าบทความนี้จะพูดถึงสิ่งที่คุณคิด หากคุณไม่เห็นด้วยโปรดคำนวณจำนวนหัวที่คุณคาดว่าจะได้รับภายใต้กลยุทธ์นั้น
Douglas Zare

5
ฉันไม่คิดว่านี่จะใกล้เคียงที่สุด มันแสดงให้เห็นว่าในครั้งแรกที่คุณเลือก B ที่มีความน่าจะเป็น 1/2 ควรชัดเจนว่าคุณจะไม่ได้รับข้อมูลหากคุณเลือก A ดังนั้นคุณควรเลือก B ตลอดเวลา จำนวนเงินที่คุณสูญเสียจากข้อผิดพลาดนี้จะอยู่ที่ประมาณ 0.12 เมื่อคุณทำดังนั้นจึงมีค่าใช้จ่ายประมาณ 0.06 ในขั้นตอนแรก คุณสูญเสียเงินจำนวนเท่ากันเมื่อคุณพลิกเหรียญเพื่อตัดสินใจว่าจะเก็บรวบรวมข้อมูลใด ๆ ในไม่กี่ขั้นตอนถัดไป การพลิกก่อนกำหนดหมายความว่าคุณมีเวลาน้อยลงในการใช้ประโยชน์จากข้อได้เปรียบที่คุณอาจพบ
Douglas Zare

3
อีกวิธีหนึ่งที่จะเห็นว่าวิธีนี้น่าจะไม่เหมาะสมที่สุดคือการพิจารณาพลิกครั้งสุดท้าย คุณไม่ควรลิ้มลองจากการกระจายสำหรับ B เพื่อตัดสินใจว่าจะพลิก B ในการโยนสุดท้ายคุณควรเปรียบเทียบค่าเฉลี่ยด้วย0.50.5
Douglas Zare

1
@DouglasZare หากการวัดเพียงอย่างเดียวของคุณคือจำนวนหัวที่คาดไว้เนื่องจากการโยนเหรียญของเราดังนั้นกลยุทธ์ที่ดีที่สุดคือการเลือกเหรียญ A. แต่สิ่งนี้ไม่สมบูรณ์เนื่องจากมันมุ่งเน้นไปที่การสำรวจมากเกินไปและไม่เพียงพอสำหรับการพลิกคว่ำการสำรวจ ข้อสรุปเชิงตรรกะของข้อเสนอแนะของคุณคือถ้าเรารีสตาร์ทการทดสอบเพื่อพลิกเหรียญ B หนึ่งครั้ง: ถ้าเป็นก้อยให้เลือก A; มิฉะนั้นจะพลิกอีกครั้งหากเป็น Heads เสมอเลือก B.
Cam.Davidson.Pilon

9

นี่เป็นกรณีง่าย ๆ ของปัญหาโจรติดอาวุธ ดังที่คุณทราบคุณต้องการสร้างความสมดุลให้กับข้อมูลที่คุณรวบรวมโดยการลองใช้เหรียญที่ไม่รู้จักเมื่อคุณคิดว่าไม่ดีในระยะสั้น ๆ จากการใช้ประโยชน์จากความรู้ที่คุณมี

ในปัญหาโจรติดอาวุธคลาสสิกคุณคงไม่แน่ใจว่าจะมีโอกาสเท่ากันสำหรับเหรียญ อย่างไรก็ตามที่นี่คุณจะได้รับทราบว่ามูลค่าของเหรียญ A ดังนั้นเมื่อคุณพลิก A คุณจะไม่ได้รับข้อมูล ในความเป็นจริงคุณอาจเพิกเฉยต่อธรรมชาติสุ่มของ A และสมมติว่าคุณได้รับแบนต่อการเลือกของ A ซึ่งหมายความว่าถ้าถูกต้องที่จะพลิกเหรียญ A คุณควรพลิก A. ดังนั้นคุณ เพียงแค่ต้องการค้นหากฎการหยุดที่ดีที่สุดเมื่อคุณควรยอมแพ้ใน B นี้ขึ้นอยู่กับการแจกแจงก่อนหน้าสำหรับพารามิเตอร์สำหรับ B และจำนวนการทดลอง ด้วยการทดลองจำนวนมากขึ้นการสำรวจมีค่ามากกว่าดังนั้นคุณจะทดสอบ B มากขึ้น1/2

โดยทั่วไปฉันคิดว่าคุณไม่สามารถหลีกเลี่ยงปัญหาการเขียนโปรแกรมแบบไดนามิกแม้ว่าอาจมีกรณีพิเศษที่สามารถพบและตรวจสอบกลยุทธ์ที่เหมาะสมที่สุดได้ง่ายขึ้น

ด้วยชุดก่อนหน้านี่คือที่ที่คุณควรหยุด:

(0 heads,3 tails),(1 head,5 tails),(2 heads,6 tails),(3,7),(4,8),...(31,35),(32,35),(33,36),(34,37),...(41,44),(42,44),...(46,48),(47,48),(48,49),(49,50)(49,50)

ภายใต้กลยุทธ์นี้คุณคาดว่าจะได้สะสมคน61.3299

ฉันใช้รหัส Mathematica ต่อไปนี้เพื่อคำนวณหลักทรัพย์:

Clear[Equity];
Equity[n_, heads_, tails_] := Equity[n, heads, tails] = 
    If[n == 0, heads, 
       Max[1/2 + Equity[n - 1, heads, tails], 
           (heads + 1)/(heads + tails + 2) Equity[n - 1, heads + 1, tails] + 
           (tails + 1)/(heads + tails + 2) Equity[n - 1, heads, tails + 1]
           ]
      ]

สำหรับการเปรียบเทียบการสุ่มตัวอย่างการสุ่มตัวอย่างของ Thompson (ซึ่ง Cam Davidson Pilon อ้างว่าเหมาะสมที่สุด) ให้ค่าเฉลี่ย 60.2907 หัวลดลง 1.03915 การสุ่มตัวอย่าง ธ อมป์สันมีปัญหาที่บางครั้งตัวอย่าง B เมื่อคุณมีข้อมูลเพียงพอที่จะรู้ว่ามันไม่ได้เป็นเดิมพันที่ดีและมันมักจะเป็นการเสียโอกาสที่จะสุ่มตัวอย่าง B เร็วขึ้นเมื่อข้อมูลมีค่ามากที่สุด ในปัญหาประเภทนี้คุณแทบไม่เคยสนใจเลยระหว่างตัวเลือกของคุณและมีกลยุทธ์ที่ดีที่สุดอย่างแท้จริง

tp[heads_, tails_] := tp[heads, tails] = 
    Integrate[x^heads (1 - x)^tails / Beta[heads + 1, tails + 1], {x, 0, 1/2}]


Clear[Thompson];
Thompson[flipsLeft_, heads_, tails_] := Thompson[flipsLeft, heads, tails] = 
    If[flipsLeft == 0, heads, 
       Module[{p = tp[heads, tails]}, 
           p (1/2 + Thompson[flipsLeft-1,heads,tails]) + 
           (1-p)((heads+1)/(heads+tails+2)Thompson[flipsLeft-1,heads+1,tails] + 
           ((tails+1)/(heads+tails+2)) Thompson[flipsLeft-1,heads,tails+1])]]

ฉันยอมรับว่าทางออกที่ดีที่สุดจะดีกว่าโซลูชันโดยประมาณ ฉันสงสัยว่ามีวิธีแก้ปัญหาทั่วไปที่ดีที่สุดซึ่งสามารถนำไปใช้อย่างมีประสิทธิภาพภายในเสี้ยววินาทีในสภาพแวดล้อมแบบไดนามิกที่มีหลายร้อย "เหรียญ" ถ้าไม่ฉันเดาว่าการสุ่มตัวอย่างทอมป์สันเป็นตัวเลือกที่ดีที่สุด
M. Cypher

การสุ่มตัวอย่าง ธ อมป์สันเป็นการประมาณที่ไม่ดี มีการประมาณที่ดีกว่าที่คุณสามารถใช้หากคุณไม่ต้องการที่จะผ่านปัญหาของการคำนวณที่แน่นอน ที่จริงแล้วการคำนวณที่แน่นอนอาจใกล้เคียงกับเชิงเส้นมากขึ้น
Douglas Zare

สิ่งใดที่อนุญาตให้เราสมมติว่ามีการเผยแพร่ก่อนหน้านี้ใน B ฉันยอมรับว่าข้อสันนิษฐานดังกล่าวทำให้เกิดปัญหาได้ง่ายขึ้น แต่การมีอยู่ของการประเมินความเป็นธรรมของ B อย่างเป็นรูปธรรมนั้นไม่น่าสงสัยสำหรับฉัน ใช่เราจะมีผลของการพลิกก่อนหน้าบาง แต่เหล่านี้จะยังคงสอดคล้องกับค่าใด ๆ สำหรับใน(0,1)ถ้าในความเป็นจริงว่าน่าจะน้อยกว่าแล้วฉันไม่สนใจสิ่งที่ก่อนที่คุณเลือกที่จะนำมาใช้: มันจะเป็นความจริงวัตถุประสงค์ว่าจำนวนที่คาดหวังของหัวด้วยวิธีการของคุณน้อยกว่า50( 0 , 1 )PrB(heads)(0,1)501/250
whuber

ฉันไม่รู้ Mathematica ดังนั้นฉันไม่สามารถทำตามวิธีที่คุณคำนวณจำนวนหัวที่คาดหวังของคุณ สนใจอธิบายส่วนนั้นหรือไม่ หากเราสันนิษฐานว่าความรู้ที่ว่าอคติของเหรียญ B นั้นมาจากการแจกแจงแบบสม่ำเสมอใน [0,1] ดังนั้นฉันไม่เห็นว่าคุณจะเอาชนะ 50/50 ได้อย่างไร
jerad

1
ดักลาส: เพราะฉันให้ความสำคัญกับคำตอบของคุณมากขึ้น :-) โปรดอย่าเข้าใจฉันผิดฉันชอบมันและฉันชอบกระทู้นี้ ฉันคิดว่าการชี้ให้เห็นว่าคุณต้องเพิ่มข้อสมมติเพื่อที่จะได้คำตอบของคุณนั่นคือทั้งหมด ในฐานะที่เป็นเรื่องจริงในหลาย ๆ สถานการณ์ - รวมทั้ง one-- นี้ไม่มีก่อน (ฉันแน่ใจว่าไม่ต้องการที่จะทำให้เป็นส่วนตัวก่อนแล้วต้องเดิมพันเงินใหญ่ในมัน!) แต่แน่นอนยังคงมีที่ดีที่สุดให้คุณระบุฟังก์ชั่นการสูญเสีย ("การเพิ่มประสิทธิภาพ" ความคาดหวังไม่ใช่ฟังก์ชันการสูญเสียทั้งหมด)
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.