ตัวประเมิน James-Stein: Efron และ Morris คำนวณ


18

ฉันมีคำถามเกี่ยวกับการคำนวณปัจจัยเจมส์สไตน์การหดตัวในส่วนกระดาษ 1,977 วิทยาศาสตร์อเมริกันโดยแบรดลีย์ Efron และคาร์ลมอร์ริส "สไตน์ Paradox สถิติ"

ฉันรวบรวมข้อมูลสำหรับผู้เล่นเบสบอลและได้รับด้านล่าง:

Name, avg45, avgSeason    
Clemente, 0.400, 0.346    
Robinson, 0.378, 0.298    
Howard, 0.356, 0.276    
Johnstone, 0.333, 0.222    
Berry, 0.311, 0.273    
Spencer, 0.311, 0.270    
Kessinger, 0.289, 0.263    
Alvarado, 0.267, 0.210    
Santo, 0.244, 0.269    
Swoboda, 0.244, 0.230    
Unser, 0.222, 0.264    
Williams, 0.222, 0.256    
Scott, 0.222, 0.303    
Petrocelli, 0.222, 0.264    
Rodriguez, 0.222, 0.226    
Campaneris, 0.200, 0.285    
Munson, 0.178, 0.316    
Alvis, 0.156, 0.200

avg45เป็นค่าเฉลี่ยหลังจากที่ค้างคาวและแสดงเป็นyในบทความ เป็นจุดสิ้นสุดของค่าเฉลี่ยฤดูกาล45yavgSeason

ตัวประเมินเจมส์ - สไตน์สำหรับค่าเฉลี่ย ( ) กำหนดโดย z = ˉ y + c ( y - ˉ y ) และค่าตัวย่อการหดตัวcมอบให้โดย (หน้า 5 ของบทความวิทยาศาสตร์อเมริกัน 2520) c = 1 - ( k - 3 ) σ 2z

z=y¯+c(yy¯)
c=1-(k-3)σ2Σ(Y-Y¯)2,

โดยที่คือจำนวนหมายถึงที่ไม่รู้จัก ที่นี่มีผู้เล่น 18 ดังนั้นk = 18 ฉันสามารถคำนวณ( y - ˉ y ได้kk=18โดยใช้ค่า แต่ผมไม่ทราบวิธีการคำนวณ σ 2 ผู้เขียนบอกว่า c = 0.212สำหรับชุดข้อมูลที่กำหนดΣ(Y-Y¯)2avg45σ2=0.212

ฉันพยายามใช้ทั้งและσ 2σx2สำหรับσ2แต่พวกเขาไม่ได้ให้คำตอบที่ถูกต้องของc=0.212σY2σ2=0.212

ใครช่วยให้ฉันทราบวิธีคำนวณสำหรับชุดข้อมูลนี้ได้ไหมσ2


1
ฉันรู้ว่า MAD ( en.wikipedia.org/wiki/Median_absolute_deviation ) ใช้มากในการลดขนาดเวฟเล็ต
robin girard

คำตอบ:


19

พารามิเตอร์คือความแปรปรวนทั่วไป (ไม่ทราบ) ของส่วนประกอบเวกเตอร์ซึ่งแต่ละค่าที่เราถือว่ามีการกระจายตามปกติ สำหรับข้อมูลเบสบอลเรามี45 Y ฉันb ฉันn O m ( 45 , p i )ดังนั้นการประมาณปกติของการแจกแจงทวินามให้ (โดย^ p i = Y i )σ245Yibinom(45,pi)pi^=Yi

p^inorm(mean=pi,var=pi(1pi)/45).

σ^2=p^(1p^)45,
p^
p^=11845i=11845Yi=Y¯.

คุณสามารถตรวจสอบได้ด้วยรหัส R ต่อไปนี้ นี่คือข้อมูล:

y <- c(0.4, 0.378, 0.356, 0.333, 0.311, 0.311, 0.289, 0.267, 0.244, 0.244, 0.222, 0.222, 0.222, 0.222, 0.222, 0.2, 0.178, 0.156)

σ2 :

s2 <- mean(y)*(1 - mean(y))/45

σ^20.004332392

1 - 15*s2/(17*var(y))

c0.2123905k2k3


คำอธิบายที่ยอดเยี่ยมฉันรักการประมาณค่าปกติของทวินาม
Chamberlain Foncha

14

=0.212แต่บทความต่อไปนี้ให้คำอธิบายโดยละเอียดเพิ่มเติมของข้อมูลเหล่านี้:

Efron, B. , & Morris, C. (1975) การวิเคราะห์ข้อมูลโดยใช้เครื่องประมาณของสไตน์และการสรุปทั่วไป วารสารสมาคมสถิติอเมริกัน 70 (350), 311-319 (ลิงก์ไปยัง pdf)

หรือรายละเอียดเพิ่มเติม

Efron, B. , & Morris, C. (1974) การวิเคราะห์ข้อมูลโดยใช้เครื่องประมาณของสไตน์และการสรุปทั่วไป R-1394 OEO, แรนด์คอร์ปอเรชั่นมีนาคม 1974 (เชื่อมโยงไปยัง PDF)

ในหน้า 312 คุณจะเห็นว่า Efron & Morris ใช้การแปลงอาร์ค - ซินของข้อมูลเหล่านี้เพื่อให้ความแปรปรวนของค่าเฉลี่ยการตีบอลนั้นมีความเป็นเอกภาพโดยประมาณ:

> dat <- read.table("data.txt", header=T, sep=",")
> yi  <- dat$avg45
> k   <- length(yi)
> yi  <- sqrt(45) * asin(2*yi-1)
> c   <- 1 - (k-3)*1 / sum((yi - mean(yi))^2)
> c
[1] 0.2091971

จากนั้นพวกเขาใช้ c = .209 สำหรับการคำนวณ Z ค่าซึ่งเราสามารถแปลงกลับได้อย่างง่ายดาย:

> zi  <- mean(yi) + c * (yi - mean(yi))
> round((sin(zi/sqrt(45)) + 1)/2,3) ### back-transformation
[1] 0.290 0.286 0.282 0.277 0.273 0.273 0.268 0.264 0.259
[10] 0.259 0.254 0.254 0.254 0.254 0.254 0.249 0.244 0.239

ดังนั้นนี่คือค่าของตัวประมาณสไตน์ สำหรับ Clemente เราได้รับ. 290 ซึ่งค่อนข้างใกล้เคียงกับ. 294 จากบทความ 1977

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.