ตัวประมาณที่ไม่ลำเอียงอื่น ๆ กว่า BLUE (โซลูชัน OLS) สำหรับแบบจำลองเชิงเส้น


15

สำหรับโมเดลเชิงเส้นโซลูชัน OLS ให้ตัวประมาณค่าแบบไม่เอนเอียงเชิงเส้นที่ดีที่สุดสำหรับพารามิเตอร์

แน่นอนว่าเราสามารถแลกเปลี่ยนอคติเพื่อลดความแปรปรวนได้เช่นการถดถอยของสัน แต่คำถามของฉันเกี่ยวกับการไม่มีอคติ มีตัวประมาณอื่น ๆ ที่ค่อนข้างใช้กันทั่วไปซึ่งไม่เอนเอียง แต่มีความแปรปรวนสูงกว่าพารามิเตอร์ประมาณ OLS หรือไม่

ถ้าฉันมีชุดข้อมูลขนาดใหญ่ฉันสามารถย่อยตัวอย่างและคาดการณ์พารามิเตอร์ด้วยข้อมูลน้อยลงและเพิ่มความแปรปรวน ฉันคิดว่านี่อาจเป็นประโยชน์ในเชิงสมมุติฐาน

นี่เป็นคำถามเกี่ยวกับวาทศิลป์มากกว่าเพราะเมื่อฉันอ่านเกี่ยวกับตัวประมาณค่าสีน้ำเงินแล้วไม่มีตัวเลือกที่แย่กว่านี้ ฉันเดาว่าการให้ทางเลือกที่แย่กว่านั้นอาจช่วยให้ผู้คนเข้าใจพลังของตัวประมาณค่า BLUE ได้ดีขึ้น


ตัวประมาณค่าความน่าจะเป็นสูงสุดคืออะไร เช่นถ้าคุณคิดว่าข้อมูลของคุณถูกสุ่มตัวอย่างจากการแจกแจงแบบด้วยค่าพารามิเตอร์อิสระที่ค่อนข้างต่ำ ( t ( 3 )หรือt ( 4 )อาจเป็นลักษณะของผลตอบแทนทางการเงิน) ตัวประมาณความน่าจะเป็นสูงสุดจะไม่ตรงกับ OLS แต่ฉันเดาว่า มันจะยังคงเป็นกลาง tt(3)t(4)
Richard Hardy

2
ที่เกี่ยวข้อง: andrewgelman.com/2015/05/11/…
kjetil b halvorsen

1
@RichardHardy ฉันลองใช้ MLE ด้วยผลลัพธ์ที่คุณคาดไว้
Christoph Hanck

คำตอบ:


19

ตัวอย่างหนึ่งที่มาถึงใจคือตัวประมาณ GLS บางตัวที่การสังเกตน้ำหนักแตกต่างกันแม้ว่าจะไม่จำเป็นเมื่อพบสมมติฐานของเกาส์ - มาร์คอฟ (ซึ่งนักสถิติอาจไม่ทราบว่าเป็นกรณีนี้

พิจารณากรณีของการถดถอยของyi , i=1,,nบนค่าคงที่สำหรับภาพประกอบ (พร้อมวางนัยทั่วไปกับตัวประมาณ GLS ทั่วไป) ที่นี่{yi}จะถือว่าเป็นตัวอย่างที่สุ่มจากประชากรที่มีค่าเฉลี่ยμและแปรปรวนσ2 2

จากนั้นเราจะรู้ว่าเป็นเพียง OLS β = ˉ Yค่าเฉลี่ยของกลุ่มตัวอย่าง เพื่อเน้นจุดที่สังเกตแต่ละจะมีน้ำหนักที่มีน้ำหนัก1 / n , เขียนนี้เป็น β = n Σฉัน= 1 1β^=y¯1/n

β^=i=1n1nyi.
มันเป็นที่รู้จักกันดีว่าVar(β^)=σ2/nn

ตอนนี้พิจารณาประมาณการซึ่งสามารถเขียนเป็นอีก

β~=i=1nwiyi,
ที่น้ำหนักเป็นเช่นที่iwi=1 1 สิ่งนี้ทำให้มั่นใจได้ว่าตัวประมาณค่านั้นไม่เอนเอียงเนื่องจาก
E(i=1nwiyi)=i=1nwiE(yi)=i=1nwiμ=μ.
/nสำหรับiทั้งหมด(ซึ่งในกรณีนี้จะลดลงเป็น OLS) ซึ่งสามารถแสดงได้ผ่านลากรองจ์: ความแปรปรวนจะเกินกว่า OLS ยกเว้นว่าwi=1/ni

L=V(β~)λ(iwi1)=iwi2σ2λ(iwi1),
wi2σ2wiλ=0iL/λ=0iwi1=0λwi=wjwi=1/n

นี่คือภาพประกอบกราฟิกจากการจำลองเล็กน้อยสร้างด้วยโค้ดด้านล่าง:

yiIn log(s) : NaNs produced

ป้อนคำอธิบายรูปภาพที่นี่

wi=(1±ϵ)/n

ที่สามหลังมีประสิทธิภาพสูงกว่าโดยวิธี OLS ไม่ได้บอกเป็นนัย ๆ โดยคุณสมบัติ BLUE (อย่างน้อยไม่ให้ฉัน) เพราะมันไม่ชัดเจนว่าพวกเขาเป็นตัวประมาณค่าเชิงเส้น (หรือฉันรู้ว่า MLE และ Huber เป็นกลาง)

library(MASS)
n <- 100      
reps <- 1e6

epsilon <- 0.5
w <- c(rep((1+epsilon)/n,n/2),rep((1-epsilon)/n,n/2))

ols <- weightedestimator <- lad <- mle.t4 <- huberest <- rep(NA,reps)

for (i in 1:reps)
{
  y <- rnorm(n)
  ols[i] <- mean(y)
  weightedestimator[i] <- crossprod(w,y)  
  lad[i] <- median(y)   
  mle.t4[i] <- fitdistr(y, "t", df=4)$estimate[1]
  huberest[i] <- huber(y)$mu
}

plot(density(ols), col="purple", lwd=3, main="Kernel-estimate of density of OLS and other estimators",xlab="")
lines(density(weightedestimator), col="lightblue2", lwd=3)     
lines(density(lad), col="salmon", lwd=3)     
lines(density(mle.t4), col="green", lwd=3)
lines(density(huberest), col="#949413", lwd=3)
abline(v=0,lty=2)
legend('topright', c("OLS","weighted","median", "MLE t, 4 df", "Huber"), col=c("purple","lightblue","salmon","green", "#949413"), lwd=3)

2
เรียบร้อย! ฉันคิดว่านี่เป็นตัวอย่างที่ง่ายมากทั่วไปกว่าที่ฉันคิดขึ้นมาเล็กน้อย เมื่อผู้คนเรียนรู้เกี่ยวกับตัวประมาณในการตั้งค่าบ่อยครั้งฉันรู้สึกว่าตัวอย่างประเภทนี้มักจะหายไปพวกเขาช่วยให้คุณเข้าใจแนวคิดได้ดีขึ้น
Gumeo

4
W=i=1nw(ei)eiww(0)=0

1
@kjetilbhalvorsen ตอนนี้ฉันยังรวมตัวประเมิน Huber ซึ่งทำได้ค่อนข้างดี
Christoph Hanck
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.