รุ่นสั้นคือการแจกแจงแบบเบต้าสามารถเข้าใจได้ว่าเป็นตัวแทนของการแจกแจงความน่าจะเป็น - นั่นคือมันแสดงถึงค่าความน่าจะเป็นที่เป็นไปได้ทั้งหมดเมื่อเราไม่รู้ว่าความน่าจะเป็นนั้นคืออะไร นี่คือคำอธิบายที่ใช้งานง่ายที่ชื่นชอบของฉันนี้:
ใครก็ตามที่ติดตามเบสบอลจะคุ้นเคยกับการตีลูกโดยเฉลี่ย - จำนวนครั้งที่ผู้เล่นได้รับการตีฐานหารด้วยจำนวนครั้งที่เขาขึ้นไปตีค้างคาว (ดังนั้นจึงเป็นเพียงเปอร์เซ็นต์ระหว่าง0
และ1
) .266
โดยทั่วไปถือว่าเป็นค่าเฉลี่ยแม่นบอลในขณะที่.300
ถือเป็นยอดเยี่ยม
ลองนึกภาพเรามีนักเบสบอลและเราต้องการที่จะทำนายว่าแม่นแม่นตลอดฤดูกาลของเขาจะเป็นอย่างไร คุณอาจพูดว่าเราสามารถใช้ลูกบอลตีค่าเฉลี่ยของเขาได้ - แต่นี่จะเป็นการวัดที่แย่มากเมื่อเริ่มฤดูกาล! หากผู้เล่นไปถึงค้างคาวครั้งและได้รับการเดียวแม่นของเขาเป็นเวลาสั้น ๆในขณะที่ถ้าเขานัดออกแม่นของเขาก็คือ1.000
0.000
มันไม่ได้ดีไปกว่านี้ถ้าคุณขึ้นไปตีห้าหรือหกครั้ง - คุณอาจได้รับโชคดีและได้รับค่าเฉลี่ย1.000
หรือโชคไม่ดีและได้รับค่าเฉลี่ย0
ซึ่งไม่ได้เป็นตัวทำนายที่ดีจากระยะไกล คุณจะแบ็ตฤดูกาลนั้น
ทำไมค่าตีบอลของคุณในการเข้าชมไม่กี่ครั้งแรกนั้นไม่ใช่ตัวทำนายที่ดีของการตีบอลโดยเฉลี่ยในที่สุดของคุณ? เมื่อผู้เล่นคนแรกตีค้างคาวทำไมไม่มีใครคาดเดาได้ว่าเขาจะไม่มีวันชนะตลอดทั้งฤดูกาล? เพราะเราจะไปด้วยความคาดหวังก่อน เรารู้ว่าในประวัติศาสตร์การตีบอลโดยเฉลี่ยในแต่ละฤดูกาลนั้นมีลักษณะคล้าย ๆ กัน.215
และ.360
มีข้อยกเว้นบางอย่างที่หายากมากทั้งสองด้าน เรารู้ว่าหากผู้เล่นได้รับการปะทะสองสามครั้งในช่วงเริ่มต้นนั่นอาจบ่งบอกว่าเขาจะจบลงด้วยคะแนนที่แย่กว่าปกติเล็กน้อย แต่เรารู้ว่าเขาคงไม่เบี่ยงเบนไปจากช่วงนั้น
จากปัญหาค่าเฉลี่ยบอลของเราซึ่งสามารถแสดงด้วยการแจกแจงทวินาม (ชุดของความสำเร็จและความล้มเหลว) วิธีที่ดีที่สุดในการแสดงความคาดหวังก่อนหน้านี้ (สิ่งที่เราในสถิติเพิ่งเรียกก่อนหน้านี้) คือการกระจายเบต้า - มันกำลังพูดว่า ก่อนที่เราจะเห็นผู้เล่นทำการเหวี่ยงครั้งแรกสิ่งที่เราคาดหวังจากการตีบอลโดยเฉลี่ยของเขาจะเป็น โดเมนของการแจกแจงแบบเบต้านั้น(0, 1)
น่าจะเป็นเช่นนั้นดังนั้นเรารู้อยู่แล้วว่าเราอยู่ในเส้นทางที่ถูกต้อง - แต่ความเหมาะสมของเบต้าสำหรับงานนี้ยิ่งไปกว่านั้น
เราคาดหวังว่าผู้เล่นฤดูกาลยาวแม่นจะมีโอกาสมากที่สุดรอบ.27
แต่มันก็พอจะมีตั้งแต่การ.21
.35
สิ่งนี้สามารถแสดงด้วยการแจกแจงแบบเบต้าพร้อมพารามิเตอร์และ :α=81β=219
curve(dbeta(x, 81, 219))
ฉันมาพร้อมกับพารามิเตอร์เหล่านี้ด้วยเหตุผลสองประการ:
- ค่าเฉลี่ยคือαα+β=8181+219=.270
- ดังที่คุณเห็นในพล็อตการกระจายนี้อยู่เกือบทั้งหมด
(.2, .35)
- ช่วงที่เหมาะสมสำหรับการตีบอลโดยเฉลี่ย
คุณถามว่าแกน x คืออะไรในพล็อตการกระจายความหนาแน่นเบต้า - ที่นี่มันแสดงถึงค่าเฉลี่ยของลูกบอล ดังนั้นสังเกตว่าในกรณีนี้ไม่เพียง แต่แกน y จะเป็นความน่าจะเป็น (หรือความหนาแน่นของความน่าจะเป็นที่แม่นยำมากขึ้น) แต่แกน x ก็เป็นเช่นกัน (แม่นเฉลี่ยเป็นเพียงความน่าจะเป็นที่นิยม การแจกแจงเบต้าแสดงการกระจายความน่าจะเป็นของความน่าจะเป็น
แต่นี่คือเหตุผลที่การกระจายเบต้ามีความเหมาะสม ลองนึกภาพผู้เล่นได้รับความนิยมอย่างเดียว 1 hit; 1 at bat
ประวัติของเขาสำหรับฤดูกาลอยู่ในขณะนี้ จากนั้นเราต้องอัปเดตความน่าจะเป็นของเรา - เราต้องการเปลี่ยนเส้นโค้งทั้งหมดนี้ไปเพียงเล็กน้อยเพื่อสะท้อนข้อมูลใหม่ของเรา ขณะคณิตศาสตร์สำหรับการพิสูจน์นี้เป็นบิตที่เกี่ยวข้อง ( มันแสดงที่นี่ ) ผลที่ได้คือง่ายมาก การกระจายเบต้าใหม่จะเป็น:
Beta(α0+hits,β0+misses)
โดยที่และเป็นพารามิเตอร์ที่เราเริ่มต้นด้วย - นั่นคือ 81 และ 219 ดังนั้นในกรณีนี้ ได้เพิ่มขึ้น 1 (การโจมตีครั้งเดียวของเขา) ในขณะที่ยังไม่เพิ่มขึ้นเลย ) นั่นหมายถึงการกระจายใหม่ของเราคือหรือ:α0β0αβBeta(81+1,219)
curve(dbeta(x, 82, 219))
โปรดสังเกตว่ามันแทบจะไม่เปลี่ยนแปลงเลย - การเปลี่ยนแปลงนั้นไม่สามารถมองเห็นได้ด้วยตาเปล่าจริง ๆ ! (นั่นเป็นเพราะการโจมตีหนึ่งครั้งไม่ได้มีความหมายอะไรเลย)
อย่างไรก็ตามยิ่งผู้เล่นเข้าชมในฤดูกาลมากขึ้นเท่าไหร่เส้นโค้งจะเปลี่ยนเพื่อรองรับหลักฐานใหม่และยิ่งมันแคบลงตามความจริงที่ว่าเรามีหลักฐานมากขึ้น สมมติว่าครึ่งทางผ่านฤดูกาลที่เขามีค้างคาวมากถึง 300 ครั้งและตี 100 ครั้งจากนั้น การกระจายใหม่จะเป็นหรือ:Beta(81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
ขอให้สังเกตว่าตอนนี้ทั้งโค้งและบางไปทางขวา (แม่นสูงขึ้น) กว่าที่เคยเป็น - เรามีความรู้สึกที่ดีขึ้นว่าลูกบอลของผู้เล่นเฉลี่ยอยู่ที่ใด
หนึ่งในผลลัพธ์ที่น่าสนใจที่สุดของสูตรนี้คือค่าที่คาดหวังของการแจกแจงแบบเบต้าที่เกิดขึ้นซึ่งเป็นค่าประมาณใหม่ของคุณ จำได้ว่าค่าที่คาดหวังของการกระจายเบต้าจะเบต้า} ดังนั้นหลังจาก 100 ฮิตของค้างคาวจริงค่าคาดหวังของการกระจายเบต้าใหม่คือ - สังเกตว่ามันต่ำกว่าประมาณการไร้เดียงสา ของแต่สูงกว่าที่คุณคาดการณ์ไว้ในฤดูกาลด้วย (αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270) คุณอาจสังเกตเห็นว่าสูตรนี้เทียบเท่ากับการเพิ่ม "หัวเริ่ม" กับจำนวนการเข้าชมและการไม่เข้าเล่นของผู้เล่น - คุณกำลังพูดว่า "เริ่มต้นเขาในฤดูกาลที่มี 81 ครั้งและ 219 ครั้งที่ไม่ใช่การบันทึก" )
ดังนั้นการแจกแจงแบบเบต้านั้นดีที่สุดสำหรับการแสดงการกระจายความน่าจะเป็น - ในกรณีที่เราไม่ทราบว่ามีความน่าจะเป็นล่วงหน้า แต่เรามีการคาดเดาที่สมเหตุสมผล