การวัดการถดถอยของค่าเฉลี่ยในการกดปุ่มในการวิ่งกลับบ้าน

11

ทุกคนที่ติดตามเบสบอลมีโอกาสได้ยินเกี่ยวกับการแสดง MVP นอกสมัยของ Jose Bautista ของโตรอนโต ในสี่ปีก่อนหน้านี้เขามีการวิ่งกลับบ้าน 15 ครั้งต่อฤดูกาล ปีที่แล้วเขาตี 54 ได้มีผู้เล่นมากกว่า 12 คนในประวัติศาสตร์เบสบอล

ในปี 2010 เขาได้รับเงิน 2.4 ล้านและเขาขอให้ทีม 10.5 ล้านคนในปี 2011 พวกเขาเสนอเงิน 7.6 ล้าน หากเขาสามารถทำซ้ำได้ในปี 2554 เขาจะมีมูลค่าทั้งสองอย่างง่ายดาย แต่โอกาสของเขาคือการทำซ้ำ? เราจะคาดหวังได้ยากแค่ไหนที่เขาจะถดถอย เราคาดหวังว่าการแสดงของเขาจะเกิดขึ้นได้เท่าไหร่เพราะโอกาส? เราคาดหวังได้อย่างไรว่ายอดรวม 2010 ที่ปรับแล้วของเขาการถดถอยจะเป็นอย่างไร ฉันจะทำงานออกมาได้อย่างไร

ฉันได้เล่นกับฐานข้อมูลเบสบอล Lahman และบีบเคียวรีที่ส่งคืนผลรวมการวิ่งกลับบ้านสำหรับผู้เล่นทั้งหมดในห้าฤดูกาลก่อนหน้านี้ซึ่งมีค้างคาวอย่างน้อย 50 ตัวต่อฤดูกาล

ตารางมีลักษณะเช่นนี้ (สังเกตเห็น Jose Bautista ในแถวที่ 10)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

และผลการเต็มรูปแบบ (232 แถว) มีให้บริการที่นี่

ฉันไม่รู้ว่าจะเริ่มจากตรงไหน ใครช่วยชี้ฉันในทิศทางที่ถูกต้องได้ไหม บางทฤษฎีที่เกี่ยวข้องและคำสั่ง R จะเป็นประโยชน์อย่างยิ่ง

ขอบคุณมาก

ทอมมี่

หมายเหตุ: ตัวอย่างมีการวางแผนเล็กน้อย การวิ่งกลับบ้านนั้นไม่ใช่ตัวบ่งชี้ที่ดีที่สุดสำหรับมูลค่าของผู้เล่นและผลรวมของการวิ่งกลับบ้านนั้นไม่ได้พิจารณาถึงจำนวนโอกาสที่แตกต่างกันในแต่ละฤดูกาลที่ผู้โจมตีมีโอกาสตีวิ่งกลับบ้าน และไม่ได้สะท้อนว่าผู้เล่นบางคนเล่นในสนามกีฬาที่เป็นที่นิยมมากขึ้นและบ้านโดยเฉลี่ยในลีกนั้นเปลี่ยนไปทุกปี อื่น ๆ หากฉันสามารถเข้าใจทฤษฎีที่อยู่เบื้องหลังการบัญชีสำหรับการถดถอยถึงค่าเฉลี่ยฉันสามารถใช้มันกับมาตรการที่เหมาะสมกว่า HRs

r regression modeling

— TMOD
แหล่งที่มา

2

เบสบอลเป็นแหล่งที่ชื่นชอบของนักสถิติของสหรัฐจำนวนมากของตัวอย่างเพื่อให้ Google (/ Scholar) ค้นหาจะนำมาขึ้นหลายบทความที่เกี่ยวข้องเช่นมอร์ริสันและ Schmittlein (1981) jstor.org/stable/2630890 ฉันจะปล่อยให้คนคุ้นเคยกับทั้งเบสบอลและ R เพื่อตอบคำถามของคุณ

— onestop

1

ฉันยังอยากจะขอแนะนำให้คุณตรวจสอบการทำงานของ JC Bradbury และบล็อกของเขา Sabernomics ที่sabernomics.com/sabernomics หนังสือของเขาเกี่ยวกับการวัดมูลค่าผู้เล่นมีแนวโน้มที่จะเป็นข้อมูลเชิงลึกเกี่ยวกับลักษณะที่คาดการณ์ของผลผลิตในอนาคต

— Andy W

2

ปัญหาตามที่ระบุไว้เป็นเพียงเล็กน้อยเช่นปัญหาค่าผิดปกติแต่ไม่ใช่ในวิธีปกติที่คิดว่าเป็นค่าผิดปกติ ในการรวมผลลัพธ์ที่น่าทึ่ง (เช่นค่าผิดปกติ) คุณจะต้องมี "การแจกแจงตัวอย่าง" ที่มีหางหนา (ผลลัพธ์ของโฮเซ่ดีกว่า 3 ส่วนเบี่ยงเบนมาตรฐานห่างจากค่าเฉลี่ยของเขากับข้อมูลที่ผ่านมา) ดังนั้นสิ่งนี้อาจช่วยคุณได้ดีขึ้น บัญชีสำหรับการทำนาย

— ความน่าจะเป็นที่เป็นไปได้

หากคุณจะพิจารณาทางลัดเล็กน้อยอย่างคร่าว ๆ นอกเหนือจากความเห็นที่ซับซ้อนยิ่งขึ้นทั้งหมดที่นี่มีการทดสอบของ Dixon สำหรับ Outliers ซึ่งคุณสามารถดำเนินการกับตัวอย่างที่มีขนาดเล็กเพียง 4 ดูcee.vt.edu/ewr/environmental/teach/smprimer / outlier / …

— rolando2

3

ฉันคิดว่ามีการหดตัวแบบเบย์หรือการแก้ไขก่อนหน้านี้อย่างแน่นอนที่สามารถช่วยในการทำนายได้ แต่คุณอาจต้องการพิจารณาวิธีการอื่น ...

ค้นหาผู้เล่นในประวัติศาสตร์ไม่ใช่เพียงไม่กี่ปีที่ผ่านมาซึ่งมีฤดูกาลแหกคุกหลังจากสองสามในสาขาวิชา (เพิ่มขึ้นอย่างมากอาจจะเป็น 2x) และดูว่าพวกเขาทำในปีต่อไป เป็นไปได้ที่ความน่าจะเป็นในการรักษาประสิทธิภาพนั้นมีตัวทำนายที่ถูกต้อง

มีหลายวิธีในการดูปัญหานี้ แต่อย่างที่ mpiktas พูดคุณจะต้องใช้ข้อมูลเพิ่มขึ้น หากคุณต้องการจัดการกับข้อมูลล่าสุดคุณจะต้องดูสถิติลีกโดยรวมของเหยือกที่เขาสู้มันเป็นปัญหาที่ซับซ้อน

แล้วมีเพียงการพิจารณาข้อมูลของ Bautista ใช่นั่นเป็นปีที่ดีที่สุดของเขา แต่มันก็เป็นครั้งแรกนับตั้งแต่ปี 2550 ที่เขามีมากกว่า 350 ABs (569) คุณอาจต้องการพิจารณาการแปลงเปอร์เซ็นต์การเพิ่มประสิทธิภาพ

— จอห์น
แหล่งที่มา

3

คุณสามารถปรับโมเดลให้เหมาะกับข้อมูลนี้เพียงอย่างเดียวและรับการคาดการณ์ที่อธิบายถึงการถดถอยของค่าเฉลี่ยโดยใช้โมเดล (หลายระดับ) การคาดการณ์จากแบบจำลองดังกล่าวทำให้เกิดการถดถอยสำหรับค่าเฉลี่ย แม้จะไม่รู้อะไรเลยเกี่ยวกับกีฬาเบสบอลฉันไม่พบผลลัพธ์ที่ฉันเชื่ออย่างน่าเชื่อถือเพราะอย่างที่คุณพูดแบบจำลองต้องคำนึงถึงปัจจัยอื่น ๆ เช่นรูปร่างหน้าตาของจาน

ฉันคิดว่ารูปแบบเอฟเฟกต์แบบปัวซองจะเหมาะสมกว่าแบบเชิงเส้นผสมเนื่องจากจำนวนของการวิ่งกลับบ้านเป็นจำนวน เมื่อดูข้อมูลที่คุณให้ไว้ฮิสโตแกรมของการhrแสดงจะเบ้ในเชิงบวกอย่างมากโดยแนะนำว่าโมเดลเชิงเส้นเชิงเส้นจะทำงานได้ไม่ดีและรวมศูนย์เป็นจำนวนมากโดยมีหรือไม่มีการแปลงบันทึกชั่วโมงก่อน

นี่คือโค้ดบางส่วนที่ใช้lmerฟังก์ชั่นจากแพ็คเกจlme4 ต้องสร้างตัวแปร ID เพื่อระบุผู้เล่นแต่ละคนและเปลี่ยนข้อมูลเป็นรูปแบบ 'ยาว' ตามที่ mpiktas ระบุไว้ในคำตอบของเขา (ฉันทำแบบนั้นใน Stata เพราะฉันไม่สามารถจัดการข้อมูลใน R ได้ดี แต่คุณสามารถทำได้ใน แพคเกจสเปรดชีต):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

สิ่งนี้เหมาะกับรูปแบบที่มีลิงค์บันทึกการเชื่อมโยงซึ่งให้การพึ่งพาอัตราการเข้าชมเป็นจำนวนมากในแต่ละปีซึ่งได้รับอนุญาตให้เปลี่ยนแปลงระหว่างผู้เล่น ฟังก์ชั่นการเชื่อมโยงอื่น ๆ นั้นเป็นไปได้แม้ว่าลิงก์ตัวตนจะให้ข้อผิดพลาดเนื่องจากค่าติดตั้งเชิงลบ แม้ว่าการเชื่อมโยง sqrt นั้นใช้งานได้ดีและมี BIC และ AIC ต่ำกว่ารุ่นที่มีลิงก์บันทึกดังนั้นมันอาจเหมาะสมกว่า การคาดการณ์สำหรับอัตราการเข้าชมในปี 2554 นั้นอ่อนไหวต่อฟังก์ชันลิงก์ที่เลือกโดยเฉพาะอย่างยิ่งสำหรับผู้เล่นเช่น Bautista ซึ่งอัตราการเข้าชมมีการเปลี่ยนแปลงอย่างมากเมื่อเร็ว ๆ นี้

ฉันกลัวฉันยังไม่ได้มีการจัดการเพื่อรับจริงคาดการณ์ดังกล่าวออกจากlme4แม้ว่า ฉันคุ้นเคยกับ Stata มากขึ้นซึ่งทำให้ง่ายต่อการคาดการณ์สำหรับการสังเกตด้วยค่าที่หายไปสำหรับผลลัพธ์แม้ว่าxtmelogitจะไม่เสนอตัวเลือกการเชื่อมโยงอื่น ๆ นอกเหนือจากบันทึกซึ่งให้คำทำนาย 50 สำหรับ Bautista วิ่งกลับบ้านในปี 2554 อย่างที่ฉันบอกไปฉันไม่พบว่าเชื่อถือได้มากนัก ฉันจะขอบคุณคนที่สามารถแสดงวิธีสร้างการทำนายสำหรับปี 2011 จากlmerโมเดลด้านบน

รุ่นอัตเช่น AR (1) สำหรับข้อผิดพลาดของผู้เล่นระดับอาจจะน่าสนใจมากเกินไป แต่ผมไม่ทราบว่าวิธีการรวมโครงสร้างดังกล่าวมีรูปแบบผสม Poisson

— OneStop
แหล่งที่มา

ใช้ฟังก์ชั่นละลายจากการปรับรูปร่างบรรจุภัณฑ์การแปลงเป็นรูปแบบยาวคือหนึ่งบรรทัดใน R, ละลาย (ข้อมูล, id = 1: 2)

— mpiktas

ส่วนขยาย / ทางเลือกที่น่าสนใจสำหรับสิ่งนี้คือเพื่อให้พอดีกับแบบจำลองลำดับชั้นที่มีการแจกแจงการสุ่มตัวอย่าง Possion พร้อมพารามิเตอร์อัตราตัวอย่าง (1 อัตราต่อปี) แต่เป็นการกระจายการสุ่มตัวอย่างCauchyสำหรับพารามิเตอร์อัตรา (แทนส่วนผสมปกติหรือผสมปกติ) การกระจาย Cauchy จะช่วยให้เหตุการณ์รุนแรงเกิดขึ้น (โดยการสุ่มตัวอย่างพารามิเตอร์อัตราขนาดใหญ่) ตัวพิมพ์กลาง (ระหว่างปกติและ Cauchy) คือการแจกแจงแบบ t (Cauchy ง่ายต่อการสุ่มตัวอย่างเนื่องจากสามารถใช้วิธีการผกผัน CDF)

— ความน่าจะเป็นที่เป็นไปได้

2

คุณต้องการข้อมูลเพิ่มเติมเกี่ยวกับผู้เล่นและคุณสมบัติของพวกเขาในช่วงเวลาที่คุณมีข้อมูลเกี่ยวกับการวิ่งกลับบ้าน สำหรับขั้นตอนแรกให้เพิ่มคุณสมบัติที่แตกต่างกันไปตามเวลาเช่นอายุผู้เล่นหรือประสบการณ์ จากนั้นคุณสามารถใช้ HLM หรือโมเดลข้อมูลพาเนล คุณจะต้องเตรียมข้อมูลในแบบฟอร์ม:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

รูปแบบที่ง่ายที่สุดแล้วจะเป็น (ฟังก์ชั่นLMEจากแพคเกจnlme )

lme(HR~Experience,random=~Experience|Year,data=your_data)

รุ่นนี้จะขึ้นอยู่กับการสันนิษฐานว่าจำนวนผู้เล่นในบ้านนั้นต้องอาศัยประสบการณ์ที่ได้รับอนุญาตเท่านั้น มันอาจจะไม่ถูกต้องมากนัก แต่อย่างน้อยคุณจะได้รับความรู้สึกว่าตัวเลขของ Jose Bautista เป็นไปได้ยากน้อยกว่าผู้เล่นทั่วไป รุ่นนี้สามารถปรับปรุงเพิ่มเติมได้โดยการเพิ่มคุณสมบัติของผู้เล่นคนอื่น

— mpiktas
แหล่งที่มา

ฉันจะไม่พูดว่า @TMOD ต้องการข้อมูลมากขึ้นเพียงว่าการคาดการณ์มีแนวโน้มที่จะแม่นยำมากขึ้นหาก @TMOD มีข้อมูลมากขึ้น มีข้อมูลเพียงพอในคำถามเพื่อสร้างการทำนาย

— ความน่าจะเป็นที่เป็นไปได้

@probabilityislogic ใช่มีข้อมูลเพียงพอที่จะสร้างการทำนาย แต่โมเดลจะมีการดักจับเท่านั้น

— mpiktas

ไม่จำเป็นว่าใครจะสามารถพอดีกับแบบจำลอง AR (1) หรือ AR (2) กับข้อมูลนี้

— ความน่าจะเป็นที่จะเกิดขึ้น

@probabilityislogic อ่าใช่คุณพูดถูก

— mpiktas

2

คุณอาจต้องการตรวจสอบบล็อกของหนังสือ

Tom Tango และผู้แต่งคนอื่นของ "The Book: Playing Percentages in Baseball" น่าจะเป็นแหล่งที่ดีที่สุดของ sabermetrics โดยเฉพาะอย่างยิ่งพวกเขารักการถดถอยของค่าเฉลี่ย พวกเขามาพร้อมกับระบบการคาดการณ์ที่ออกแบบมาให้เป็นระบบที่ได้รับการยอมรับขั้นพื้นฐานที่สุด (Marcel) และมันอาศัยการถดถอยที่มีความหมายเฉพาะ

จากด้านบนของหัวของฉันฉันคิดว่าวิธีหนึ่งคือการใช้การคาดการณ์เช่นนี้เพื่อประเมินความสามารถที่แท้จริงและจากนั้นหาการกระจายที่เหมาะสมรอบความสามารถพิเศษนั้น เมื่อคุณทราบแล้วการปรากฏตัวของแต่ละจานจะเป็นเหมือนการทดลองของ Bernoulli ดังนั้นการแจกแจงทวินามจึงสามารถนำคุณไปสู่หนทางที่เหลือ

— Michael McGowan
แหล่งที่มา

1

FYI จาก 2011 ถึง 2014 เขาตี 43, 27, 28 และ 35

มันค่อนข้างใกล้เคียงกับค่าเฉลี่ย 162 เกมของเขาที่ 32 (ซึ่งแน่นอนรวมถึงค่าเหล่านั้น) และประมาณ 1 SD ภายใต้ 54 ในปี 2010

ดูเหมือนว่าการถดถอยของค่าเฉลี่ยในการดำเนินการ: กลุ่มที่สร้างขึ้นโดยใช้อักษรตัวพิมพ์ใหญ่ที่มีเสียงดัง (1 ในกรณีนี้) เบี่ยงเบนจากค่าเฉลี่ยของกลุ่มโดยบังเอิญ

http://www.baseball-reference.com/players/b/bautijo02.shtml

— ทิม
แหล่งที่มา