การสร้างแบบจำลองคริกเก็ตเลอร์สรับ batsmen ออก


9

ฉันมีชุดข้อมูลที่มีรายละเอียดของเกมคริกเกตจำนวนมาก (ไม่กี่พันรายการ) ในคริกเก็ต "เลอร์ส" โยนลูกบอลซ้ำ ๆ อย่างต่อเนื่องของ "batsmen" คนขว้างลูกพยายามเอาลูกบอลออกไป ในแง่นี้มันค่อนข้างคล้ายกับเหยือกและแป้งในเบสบอล

ถ้าฉันใช้ชุดข้อมูลทั้งหมดและหารจำนวนลูกบอลที่ได้ลูกบอลออกมาด้วยจำนวนลูกบอลทั้งหมดที่กลิ้งไปฉันจะเห็นว่าฉันมีความน่าจะเป็นเฉลี่ยที่นักขว้างลูกบอลจะได้ประมาณ 0.03 ( หวังว่าฉันจะไม่ผิดพลาดไปแล้ว?)

สิ่งที่ฉันสนใจคือสิ่งที่ฉันสามารถทำได้เพื่อลองและคำนวณความน่าจะเป็นของผู้ตีลูกที่เฉพาะเจาะจงที่ถูกโยนออกโดยผู้เล่นลูกที่เฉพาะเจาะจงในลูกบอลหน้า

ชุดข้อมูลมีขนาดใหญ่พอที่ผู้ขว้างลูกใดก็ตามจะมีลูกบอลหลายพันลูกไปยังลูกบอลหลากหลายรูปแบบ ดังนั้นฉันเชื่อว่าฉันสามารถแบ่งจำนวนของนักเล่นโบว์ลิ่งที่ทำได้สำเร็จตามจำนวนลูกบอลที่เขาได้คลำเพื่อคำนวณความน่าจะเป็นใหม่สำหรับผู้เล่นที่เฉพาะเจาะจงนั้นที่ได้ออกมาจากลูกบอลถัดไป

ปัญหาของฉันคือชุดข้อมูลไม่ใหญ่พอที่จะรับประกันได้ว่าคนขว้างลูกที่ได้รับมีจำนวนลูกบอลที่มีนัยสำคัญทางสถิติที่ลูกบอลใดก็ตาม ดังนั้นหากฉันสนใจที่จะคำนวณความน่าจะเป็นของผู้ขว้างลูกที่เฉพาะเจาะจงหันหน้าไปทางลูกบอลที่เฉพาะเจาะจงฉันไม่คิดว่ามันจะไม่สามารถทำได้ในลักษณะที่เรียบง่ายแบบเดียวกัน

คำถามของฉันคือว่าวิธีการต่อไปนี้ถูกต้องหรือไม่:

  • ทั่วทั้งชุดข้อมูลความน่าจะเป็นของลูกบอลที่จะออกมาเป็น 0.03

  • หากฉันคำนวณว่าโดยเฉลี่ยคนขว้างลูก A มีความน่าจะเป็นที่จะออกจาก 0.06 (เช่นสองเท่าน่าจะเป็นกะลาเฉลี่ย)

  • และโดยเฉลี่ยแล้วลูก B มีความน่าจะเป็นที่จะออกจาก 0.01 (หนึ่งในสามที่น่าจะเป็นลูกบอลเฉลี่ย)

  • ถ้าเช่นนั้นถูกต้องหรือไม่ที่จะบอกว่าความน่าจะเป็นของลูกบอลที่เฉพาะเจาะจงนั้นออกไปในลูกบอลลูกถัดไปที่ลูกโบว์ลิ่งนั้นจะเท่ากับ 0.06 * (0.01 / 0.03) = 0.02?


หากผู้ขว้างลูกเลือกที่จะโยนลูกบอลซ้ำ ๆพวกเขาจะพบว่าตัวเองถูกถอดออกจากการแข่งขันอีกครั้งในเกม
Glen_b -Reinstate Monica

คำตอบ:


2

ถ้าฉันเอาชุดข้อมูลทั้งหมดและหารจำนวนลูกบอลที่ได้ลูกบอลออกมาตามจำนวนลูกบอลที่กลิ้งไปฉันจะเห็นว่าฉันมีความน่าจะเป็นเฉลี่ยที่นักโบว์ลิ่งจะได้ลูกบอลออกมา - จะอยู่ที่ประมาณ 0.03 (หวังว่า ฉันไม่ได้ผิดไปแล้ว?)

น่าเสียดายที่นี่อาจไม่ตรงกับที่คุณต้องการ

สมมติว่าเรามีกะลาเดียวและสอง batsmen: Don Bradmanและฉัน (ฉันรู้น้อยมากเกี่ยวกับคริกเก็ตดังนั้นถ้าฉันกำลังทำอะไรบางอย่างที่นี่แจ้งให้ฉันทราบ) เกมไปบางอย่างเช่น:

  • ดอนไปค้างคาวและออกไปบนชามที่ 99
  • ฉันไปที่แบ็ตและออกไปทันที
  • ดอนไปค้างคาวและออกไปบนชามที่ 99
  • ฉันไปที่แบ็ตและออกไปทันที

ในกรณีนี้มีสี่ลึกจาก 200 โบลิ่งดังนั้นความน่าจะเป็นเล็กน้อยของผู้ขว้างลูกออกลูกอยู่ที่ประมาณ 4/200 = 2% แต่ที่จริงแล้วความน่าจะเป็นของดอนอยู่ที่มากกว่า 1% ในขณะที่ของฉันเป็น 100% ดังนั้นถ้าคุณเลือกคนตีลูกและคนขว้างลูกโดยบังเอิญความน่าจะเป็นที่คนขว้างลูกคนนี้รับลูกบอลออกไปในครั้งนี้จะเป็นเหมือนมากขึ้น (โอกาส 50% ที่คุณเลือกดอน) * (โอกาส 1% ที่เขาจะออก) + (โอกาส 50% ที่คุณเลือก ฉัน) * (โอกาสที่ฉันจะออกไป 100%) = 50.05% แต่ถ้าคุณเลือกระดับเสียงโดยการสุ่มมันมีโอกาส 2% ที่มันจะออกมา ดังนั้นคุณต้องคิดให้รอบคอบเกี่ยวกับแบบจำลองตัวอย่างที่คุณกำลังคิด


อย่างไรก็ตามข้อเสนอของคุณไม่ได้บ้า เพิ่มเติมสัญลักษณ์ให้เป็นกะลาและลูก; ให้จะเป็นไปได้ว่าได้รับออก ถ้าอย่างนั้นคุณจะพูดว่า:bmf(b,m)bm

f(b,m)=Em[f(b,m)]Eb[f(b,m)]Eb,m[f(b,m)].

สิ่งนี้มีคุณสมบัติที่ต้องการที่: มันก็คงที่กันถ้าคุณใช้ความหมายมากกว่าหรือเท่านั้น

Eb,m[f(b,m)]=Eb,m[f(b,m)]Eb,m[f(b,m)]Eb,m[f(b,m)]=Eb,m[f(b,m)];
bm

โปรดทราบว่าในกรณีนี้เราสามารถกำหนด ข้อสันนิษฐานของคุณคือคุณสามารถสังเกตเห็นและได้ดีพอสมควรจากข้อมูล ตราบใดที่ (a) คุณมีเกมมากพอ (ซึ่งคุณเล่น) และ (b) ผู้เล่นทุกคนเล่นซึ่งกันและกันด้วยความถี่ที่คล้ายกันพอสมควร

C:=Eb,m[f(b,m)]g(b):=Em[f(b,m)]/Ch(m):=Eb[f(b,m)]/Cso that f(b,m)=g(b)h(m).
g(b)h(m)

หากต้องการอธิบายอย่างละเอียดเกี่ยวกับ (b) เล็กน้อย: ลองจินตนาการว่าคุณมีข้อมูลจากเกมระดับมืออาชีพและเกมที่ฉันเล่นกับเพื่อน ๆ หากไม่มีการเหลื่อมกันฉันอาจดูดีมากเมื่อเทียบกับเพื่อนของฉันดังนั้นคุณอาจคิดว่าฉันดีกว่าผู้เล่นมืออาชีพที่แย่ที่สุด เห็นได้ชัดว่าเป็นเท็จ แต่คุณไม่มีข้อมูลที่จะปฏิเสธ หากคุณมีการเหลื่อมกันเล็กน้อยที่ฉันเล่นกับผู้เล่นมืออาชีพหนึ่งครั้งและถูกทำลายข้อมูลก็จะสนับสนุนการจัดอันดับฉันและเพื่อน ๆ ของฉันในทางที่แย่กว่ามืออาชีพ แต่วิธีการของคุณจะไม่คำนึงถึงมัน ในทางเทคนิคปัญหาที่นี่คือคุณกำลังสมมติว่าคุณมีตัวอย่างที่ดีสำหรับแต่การกระจายของคุณมีความลำเอียงEb[f(b,m)]b

แน่นอนว่าข้อมูลของคุณจะไม่ดูแย่ขนาดนี้ แต่ขึ้นอยู่กับโครงสร้างลีกหรืออะไรก็ตามมันอาจมีองค์ประกอบบางอย่างของปัญหานั้น


คุณสามารถลองใช้วิธีอื่นได้ รูปแบบที่นำเสนอสำหรับเป็นจริงตัวอย่างของรุ่นต่ำยศเมทริกซ์ตัวประกอบที่พบบ่อยในการกรองการทำงานร่วมกันในขณะที่ปัญหา Netflix มีให้คุณเลือกฟังก์ชั่นและจะเป็นมิติ , และเป็นตัวแทนของ(เมตร) คุณสามารถตีความเป็นการทำให้โมเดลของคุณมีความซับซ้อนจากคะแนน "คุณภาพ" เดี่ยวไปจนถึงการมีคะแนนในหลายมิติ: บางทีเลอร์สบางตัวอาจทำได้ดีกว่ากับแบตเมนบางประเภท (สิ่งนี้ทำเช่นสำหรับเกม NBA )fg(b)h(m)rf(b,m)=g(b)Th(m)r>1

เหตุผลที่พวกเขาเรียกว่าเมทริกซ์การแยกตัวประกอบเป็นเพราะถ้าคุณสร้างเมทริกซ์มีแถวมากเท่าเลอร์สและคอลัมน์มากเท่ากับแบตเมนคุณสามารถเขียนสิ่งนี้ได้F

[(1,ม.1)(1,ม.2)...(1,ม.M)(2,ม.1)(2,ม.2)...(2,ม.M)(ยังไม่มีข้อความ,ม.1)(ยังไม่มีข้อความ,ม.2)...(ยังไม่มีข้อความ,ม.M)]F=[ก.(1)ก.(ยังไม่มีข้อความ)]G[ชั่วโมง(ม.1)ชั่วโมง(ม.M)]THT
ที่ซึ่งคุณได้รับสมการคูณเมทริกซ์เป็นคูณหนึ่งและคูณหนึ่ง .ยังไม่มีข้อความ×MFยังไม่มีข้อความ×RGM×RH

แน่นอนว่าคุณจะไม่ได้สังเกตโดยตรง รูปแบบปกติคือคุณจะต้องสังเกตการณ์รายการที่มีเสียงดังของโดยการสุ่ม ในกรณีของคุณคุณจะได้รับที่จะสังเกตวาดจากการกระจายทวินามกับจำนวนของการทดลองสุ่มสำหรับรายการของแต่ละFFFF

คุณสามารถสร้างแบบจำลองความน่าจะเป็นเช่น:

Gผมk~ยังไม่มีข้อความ(0,σG2)HJk~ยังไม่มีข้อความ(0,σH2)FผมJ=GผมTHJRผมJ~Bผมnโอม.ผมaล.(nผมJ,FผมJ)
ที่และจะสังเกตเห็นและ คุณอาจต้องการใส่ hyperpriors บางกว่า /และทำอนุมานเช่นในสแตนnผมJRผมJσGσH

นี่ไม่ใช่รูปแบบที่สมบูรณ์แบบ: สำหรับข้อใดข้อหนึ่งมันไม่สนใจว่ามีความสัมพันธ์กับคะแนน (ดังที่ฉันได้กล่าวถึงในส่วนแรก) และที่สำคัญกว่านั้นมันไม่ได้ จำกัดให้อยู่ใน (คุณอาจใช้ sigmoid โลจิสติกส์หรือคล้ายกันเพื่อให้บรรลุ) บทความที่เกี่ยวข้องกับนักบวชที่ซับซ้อนมากขึ้นสำหรับและ (แต่ที่ไม่ได้ใช้ความน่าจะเป็นทวินาม) คือ: Salakhutdinov และ Mnih, ตัวประกอบเมทริกซ์ความน่าจะเป็นแบบ Bayesian โดยใช้ Markov chain Monte Carlo , ICML 2008 ( PDF ของdoi / ผู้เขียน )nFผมJ[0,1]GH


1
@Ravi นี่เป็นเวลานานอาจไม่ได้อธิบายอย่างชัดเจนและฉันไม่ทราบระดับพื้นหลังของคุณด้วยปัญหาประเภทนี้ แต่อย่าลังเลที่จะถามคำถามเกี่ยวกับส่วนต่าง ๆ ที่ไม่ชัดเจน นอกจากนี้เนื่องจากข้อมูลของคุณเป็นแบบหนึ่งต่อหนึ่งคุณสามารถพิจารณาใช้Eloพูดได้
Dougal

ขอบคุณที่สละเวลาเขียนคำตอบที่มีคุณภาพสูงมากนี้ เป็นที่ยอมรับฉันเพิ่งรู้สถิติพื้นฐานในขณะนี้ดังนั้นสิ่งนี้เป็นเรื่องใหม่สำหรับฉัน อย่างไรก็ตามมันแสดงให้ฉันเห็นอย่างชัดเจนว่าควรอ่านอะไรเพื่อทำความเข้าใจปัญหานี้อย่างถูกต้องซึ่งเป็นสิ่งที่ฉันต้องการ หวังว่าหลังจากศึกษามาหลายวัน (หรือหลายปี!) ฉันจะสามารถเข้าใจคำตอบของคุณได้ดีขึ้น
Ravi

ขอบคุณ. ฉันมีคำถามเกี่ยวกับ Elo มันค่อนข้างนานแล้วที่ฉันเปิดคำถามใหม่ [ที่นี่] :( stats.stackexchange.com/questions/230518/ ...... )
Ravi

0

คุณไม่สามารถอนุมานความน่าจะเป็นที่ถูกต้องที่ B จะได้รับเนื่องจาก A เป็นผู้ขว้างถ้า A และ B ไม่เคยพบกันในสนามโดยยึดตามค่าเฉลี่ยกับผู้เล่นคนอื่น


3
แม้ว่าคุณอาจถูกต้องเกี่ยวกับคริกเก็ต แต่ความสามารถของระบบการให้คะแนนในเกมที่มีความสามารถเช่นหมากรุกเพื่อทำนายผลการแข่งขันระหว่างผู้ที่ไม่เคยเข้าร่วมการแข่งขันจะแนะนำอย่างอื่น
whuber

2
@whuber เห็นด้วย - ฉันคิดว่ามันจะเป็นจริงเกี่ยวกับคริกเก็ตเป็นเกือบทุกการแข่งขันอื่น ๆ คริกเก็ตไม่ได้ว่าแตกต่างกัน
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.