มีตัวอย่างที่ MLE สร้างการประมาณค่าเฉลี่ยแบบอคติหรือไม่?


17

คุณสามารถให้ตัวอย่างของตัวประมาณค่า MLE ของค่าเฉลี่ยที่มีอคติได้หรือไม่?

ฉันไม่ได้มองหาตัวอย่างที่ทำให้ตัวประมาณค่า MLE โดยทั่วไปละเมิดเงื่อนไขปกติ

ตัวอย่างทั้งหมดที่ฉันเห็นบนอินเทอร์เน็ตอ้างอิงถึงความแปรปรวนและฉันไม่สามารถหาสิ่งที่เกี่ยวข้องกับค่าเฉลี่ยได้

แก้ไข

@MichaelHardy ให้ตัวอย่างที่เราได้รับการประเมินความลำเอียงของค่าเฉลี่ยของการกระจายชุดโดยใช้ MLE ภายใต้รูปแบบที่เสนอบางอย่าง

อย่างไรก็ตาม

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

แสดงให้เห็นว่า MLE เป็นตัวประมาณค่าเฉลี่ยขั้นต่ำที่เท่าเทียมกันอย่างชัดเจนภายใต้รูปแบบที่เสนออื่น

ณ จุดนี้มันยังไม่ชัดเจนสำหรับฉันสิ่งที่ความหมายของการประเมิน MLE เป็นจริงนั้นขึ้นอยู่กับรูปแบบการตั้งสมมติฐานซึ่งต่างจากการพูดว่าตัวประมาณค่าเฉลี่ยตัวอย่างซึ่งเป็นแบบจำลองที่เป็นกลาง ในตอนท้ายฉันสนใจที่จะประเมินบางสิ่งเกี่ยวกับประชากรและไม่สนใจการประมาณค่าพารามิเตอร์ของแบบจำลองที่ตั้งสมมติฐาน

แก้ไข 2

ในฐานะที่เป็น @ChristophHanck แสดงให้เห็นรูปแบบที่มีข้อมูลเพิ่มเติมแนะนำอคติ แต่ไม่ได้จัดการเพื่อลด MSE

เรายังมีผลลัพธ์เพิ่มเติม:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (ภาพนิ่ง 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (สไลด์ 5)

"ถ้าผู้ประเมินที่เป็นกลางที่มีประสิทธิภาพมากที่สุด ˆθ ของθมีอยู่ (เช่น ˆθ นั้นไม่เอนเอียงและความแปรปรวนเท่ากับ CRLB) ดังนั้นวิธีการประมาณค่าสูงสุดจะทำให้เกิดขึ้น"

"ยิ่งไปกว่านั้นถ้ามีตัวประมาณประสิทธิภาพอยู่ก็คือตัวประมาณค่า ML"

เนื่องจาก MLE ที่มีพารามิเตอร์โมเดลอิสระไม่เอนเอียงและมีประสิทธิภาพตามนิยามนี่คือ "เครื่องมือประมาณการความน่าจะเป็นสูงสุด" หรือไม่

แก้ไข 3

@AlecosPapadopoulos มีตัวอย่างด้วยการกระจายแบบครึ่งปกติบนฟอรัมคณิตศาสตร์

/math/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao

มันไม่ได้ยึดพารามิเตอร์ใด ๆ เช่นในกรณีที่เหมือนกัน ฉันจะบอกว่าการตัดสินมันแม้ว่าเขาจะไม่ได้แสดงอคติของตัวประมาณค่าเฉลี่ย


10
ค่าเฉลี่ยของเครื่องแบบบนศูนย์และที
Christoph Hanck

1
ฉันไม่สามารถติดตามความแตกต่างระหว่าง "การประมาณค่าบางอย่างเกี่ยวกับประชากร" และ "พารามิเตอร์ของตัวแบบตั้งสมมติฐาน" ในสถิติพาราเมตริกทั้งหมดเรากำหนดพารามิเตอร์ของประชากรด้วยพารามิเตอร์บางตัว แน่นอนว่าเราอาจพบปัญหาการสะกดผิด แต่ดูเหมือนจะไม่เกี่ยวข้องกับปัญหาในมือ
Christoph Hanck

5
ตัวอย่างเช่นประชากรสามารถถูกกำหนดโดยพารามิเตอร์ / ช่วงเวลาของมันเช่นค่าเฉลี่ยและความแปรปรวน (ซึ่งจะเพียงพอสำหรับประชากรปกติเป็นต้น) และ: ฉันไม่คิดว่าคนอื่นจะพูดจาหยาบคายกับคุณมากกว่าคนอื่น ๆ ในฟอรัมนี้
Christoph Hanck

2
หากคุณรู้สึกไม่พอใจกับการเปลี่ยนแปลงของมืออย่างชัดเจนระหว่าง "พารามิเตอร์" และ "หมายถึง" ขอผมนิยามการกระจายแบบไม่ลบในแง่ของค่าเฉลี่ยด้วยความหนาแน่น1μจากการสนับสนุนของ[0,2μ]...12μ[0,2μ]
Silverfish

1
เกี่ยวกับการแก้ไขของคุณ 2 ผลลัพธ์เหล่านี้จำนวนมากได้มาภายใต้เงื่อนไขความสม่ำเสมอซึ่งไม่พอใจสำหรับตัวอย่างที่กล่าวถึงในหัวข้อนี้ซึ่งพื้นที่ตัวอย่างขึ้นอยู่กับพารามิเตอร์
Christoph Hanck

คำตอบ:


32

Christoph Hanck ไม่ได้โพสต์รายละเอียดของตัวอย่างที่เขาเสนอ ฉันจะเอามันเขาหมายถึงการกระจายชุดในช่วงขึ้นอยู่กับตัวอย่าง IID X 1 , ... , X nขนาดมากกว่าn = 1[0,θ],X1,,Xnn=1.

ค่าเฉลี่ยคือ 2θ/2

MLE ของค่าเฉลี่ยคือmax{X1,,Xn}/2.

นั่นคือลำเอียงตั้งแต่ดังนั้นE ( สูงสุด/ 2 ) < θ / 2Pr(max<θ)=1,E(max/2)<θ/2.

PS:บางทีเราควรทราบว่าประมาณการที่เป็นกลางที่ดีที่สุดของค่าเฉลี่ยคือไม่ได้หมายความว่าตัวอย่าง แต่เป็นn + 1θ/2ค่าเฉลี่ยตัวอย่างคือตัวประมาณค่าหมัดของθ/2เพราะสำหรับตัวอย่างบางตัวอย่างค่าเฉลี่ยน้อยกว่า1

n+12nmax{X1,,Xn}.
θ/2และมันก็เห็นได้ชัดว่าเป็นไปไม่ได้สำหรับθ/2จะน้อยกว่าสูงสุด/2.ท้ายของ PS12max{X1,,Xn},θ/2max/2.

ฉันสงสัยว่าการแจกจ่าย Pareto เป็นอีกกรณีเช่นนี้ นี่คือการวัดความน่าจะเป็น: ค่าที่คาดหวังคือα

α(κx)α dxx for x>κ.
MLE ของค่าที่คาดหวังคือ nαα1κ. ที่นาที=นาที{X1,...,Xn}
nni=1n((logXi)log(min))min
min=min{X1,,Xn}.

ฉันไม่ได้หาค่าที่คาดหวังของ MLE สำหรับค่าเฉลี่ยดังนั้นฉันจึงไม่รู้ว่าอคติคืออะไร


12
Cagdas ไม่ถูกต้องตามกฎหมายที่จะขอนับตัวอย่างจากนั้นปฏิเสธว่าคุณจะเสนออย่างอื่น! มันเหมือนกับการขอตัวอย่างผลไม้ที่ไม่ใช่สีแดงการแสดงบลูเบอร์รี่แล้วบอกว่ามันไม่นับเพราะคุณไม่ชอบบลูเบอร์รี่
whuber

7
นั่นไม่เกี่ยวข้องกับคำถามที่คุณถาม
whuber

8
@CagdasOzgenc: MLE นั้นมีอคติหรือไม่ขึ้นอยู่กับรุ่น ไม่มีสิ่งใดในฐานะ MLE ที่ไม่มีโมเดล และถ้าคุณดัดแปลงโมเดลคุณจะเปลี่ยน MLE
Michael Hardy

8
@CagdasOzgenc ต่อไปนี้เป็นคำถามแบบโสคราตีส: ค่าเฉลี่ยตัวอย่างคือตัวประมาณค่าที่เป็นกลาง คุณต้องมีโมเดลเพื่อให้พารามิเตอร์ประมาณ
Matthew Drury

9
ค่าเฉลี่ยของตัวอย่าง iid เป็นตัวประมาณค่าเฉลี่ยของค่าเฉลี่ยของประชากร แต่ไม่มีใครสามารถพูดถึงตัวประมาณค่าความน่าจะเป็นสูงสุดของสิ่งใดโดยไม่มีโครงสร้างมากกว่าสิ่งที่จำเป็นในการพูดถึงตัวประมาณค่าที่เป็นกลาง
Michael Hardy

18

นี่คือตัวอย่างที่ฉันคิดว่าบางคนอาจพบว่าน่าแปลกใจ:

ในการถดถอยแบบลอจิสติกสำหรับขนาดตัวอย่างใด ๆ ที่มีผลลัพธ์ที่ไม่ได้กำหนดไว้ (เช่น ) สัมประสิทธิ์การถดถอยใด ๆ ที่ประมาณไว้ไม่เพียง แต่ลำเอียงค่าเฉลี่ยของสัมประสิทธิ์การถดถอยนั้นไม่ได้กำหนดจริง0<พีผม<1

นี่เป็นเพราะขนาดตัวอย่าง จำกัด ใด ๆ มีความเป็นไปได้ในเชิงบวก (แม้ว่าจะมีขนาดเล็กมากถ้าจำนวนตัวอย่างมีขนาดใหญ่เมื่อเทียบกับจำนวนพารามิเตอร์การถดถอย) ในการแยกผลลัพธ์ที่สมบูรณ์แบบ เมื่อเกิดเหตุการณ์นี้ประมาณค่าสัมประสิทธิ์การถดถอยจะเป็นอย่างใดอย่างหนึ่งหรือ∞ การมีความน่าจะเป็นในเชิงบวกคือ- หรือแสดงถึงค่าที่คาดหวังนั้นไม่ได้กำหนด--

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้โดยเฉพาะอย่างยิ่งดูHauck-เนอร์ผลกระทบ


1
มันค่อนข้างฉลาด ฉันสงสัยว่า MLE ของค่าสัมประสิทธิ์การถดถอยโลจิสติกมีเงื่อนไขที่เป็นกลางในการไม่เกิดผลของ Hauck-Donner หรือไม่?
gung - Reinstate Monica

3
@ gung: คำตอบสั้น ๆ : ไม่สนใจผล Hauck-Donner ยังมีอคติในสัมประสิทธิ์การถดถอยแบบสัมบูรณ์ (เช่นสัมประสิทธิ์เชิงลบมีอคติลง, บวกมีอคติสูงขึ้น) ที่น่าสนใจคือมีความลำเอียงไปทาง 0.5 ในความน่าจะเป็นโดยประมาณ ฉันได้เริ่มเขียนเกี่ยวกับเรื่องนี้ในโพสต์นี้แต่ไม่ได้นำเสนอผลลัพธ์ของฉันเกี่ยวกับอคติของความน่าจะเป็นโดยประมาณ
หน้าผา AB

10

แม้ว่า @MichaelHardy ได้ให้คะแนนแล้วนี่เป็นข้อโต้แย้งที่มีรายละเอียดมากขึ้นว่าทำไม MLE ของค่าสูงสุด (และด้วยเหตุนี้ค่าเฉลี่ยโดยค่าคงที่) จึงไม่เป็นกลางแม้ว่าจะอยู่ในรูปแบบที่แตกต่างกัน (ดู การแก้ไขด้านล่าง)θ/2

เราประเมินที่ถูกผูกไว้บนของการกระจายชุด ] นี่ Y ( n )เป็น MLE สำหรับตัวอย่างที่สุ่มY เราแสดงว่าy ( n )ไม่เป็นกลาง cdf ของมันคือ F y ( n ) ( x )U[0,θ]y(n)yy(n) ดังนั้นความหนาแน่นของมันคือ fy(n)(x)={n

Fy(n)(x)=Pr{Y1x,,Ynx}=Pr{Y1x}n={0forx<0(xθ)nfor0xθ1forx>θ
ดังนั้น E [ Y ( n ) ]
fy(n)(x)={nθ(xθ)n1for0xθ0else
E[Y(n)]=0θxnθ(xθ)n1dx=0θn(xθ)ndx=nn+1θ

แก้ไข: แท้จริงแล้วเป็นกรณีที่ (ดูการอภิปรายในความคิดเห็น) MLE ไม่เอนเอียงสำหรับค่าเฉลี่ยในกรณีที่ทั้งขอบเขตล่างและขอบเขตbด้านบนไม่เป็นที่รู้จัก จากนั้นค่าต่ำสุดY ( 1 )คือ MLE สำหรับa , โดยมี (ละเว้นรายละเอียด) ค่าที่คาดหวัง E ( Y ( 1 ) ) = n a + babY(1)a ในขณะที่ E(Y(n))=nb+a

E(Y(1))=na+bn+1
E(Y(n))=nb+an+1
(a+b)/2
Y(1)+Y(n)2
E(Y(1)+Y(n)2)=na+b+nb+a2(n+1)=a+b2

แก้ไข 2: อธิบายอย่างละเอียดเกี่ยวกับประเด็นของ Henry นี่คือการจำลองเล็กน้อยสำหรับ MSE ของตัวประมาณค่าเฉลี่ยแสดงให้เห็นว่าในขณะที่ MLE ถ้าเราไม่ทราบว่าขอบเขตล่างเป็นศูนย์จะไม่เอนเอียง MSEs สำหรับสองตัวแปรนั้นเหมือนกัน แนะนำว่าตัวประมาณซึ่งรวมความรู้ของขอบเขตล่างช่วยลดความแปรปรวน

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968

เพราะวิกิพีเดียกำลังเสนอโมเดลที่แตกต่างเริ่มต้น นั่นคือสิ่งที่ความสับสนของฉันอยู่
Cagdas Ozgenc

ใช่ แต่เมื่อเราปรับเป็นกรณีพิเศษที่กล่าวถึงที่นี่คือ a=0เรากลับมาที่จตุรัส 1 ในกรณีนั้นเราไม่ต้องการตัวอย่างขั้นต่ำสำหรับการประเมินอีกต่อไปเพราะเรารู้ว่าขอบเขตล่างเป็นศูนย์ดังนั้น MLE ของจุดกึ่งกลาง (= ค่ามัธยฐาน = ค่าเฉลี่ย) จะกลายเป็น(ม.ax+0)/2อีกครั้ง
Christoph Hanck

2
ฉันยังไม่ได้ลงรายละเอียด แต่ MLE ในรูปแบบนั้นอาจไม่เอนเอียงหากขั้นต่ำประเมินค่าต่ำสุดของขอบเขตล่างด้วยจำนวนเดียวกันกับค่าสูงสุดประเมินค่าสูงสุดต่ำสุดเพื่อประเมินค่าจุดกึ่งกลางโดยไม่มีอคติ
Christoph Hanck

4
@CagdasOzgenc: unbiasedness ไม่ได้เป็นเพียงหรือแม้กระทั่งตัวชี้วัดที่สำคัญที่สุดของที่ดีกว่า โดยการรู้ว่าปลายด้านหนึ่งสนับสนุนอย่างแม่นยำคุณอาจสูญเสียความสมดุลระหว่างข้อผิดพลาดในการประมาณค่าเฉลี่ย แต่คุณก็จบลงด้วย (เช่น) การประมาณช่วงที่ดีกว่า
Henry

6
Maximum likelihood estimators are not always "best" across all criteria for small sample sizes. So what? They don't pretend to be, either. If you want to use a different estimator for your problem that has better properties according to some criterion for sample sizes that are in the neighborhood of your actual sample size, you're free to do so. I do so, and so do other people. No one is claiming that using MLE is justified in all situations just because it's MLE.
jbowman

5

Completing here the omission in my answer over at math.se referenced by the OP,

assume that we have an i.i.d. sample of size n of random variables following the Half Normal distribution. The density and moments of this distribution are

fH(x)=2/π1v1/2exp{x22v}E(X)=2/πv1/2μ,Var(X)=(12π)v

The log-likelihood of the sample is

L(vx)=nln2/πn2lnv12vi=1nxi2

The first derivative with respect to v is

vL(vx)=n2v+12v2i=1nxi2,v^MLE=1ni=1nxi2

so it is a method of moments estimator. It is unbiased since,

E(v^MLE)=E(X2)=Var(X)+[E(X)])2=(12π)v+2πv=v

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

μ^MLE=2/πv^MLEE(μ^MLE)=2/πE(v^MLE)<2/π[E(v^MLE)]=2/πv=μ

4

The famous Neyman Scott problem has an inconsistent MLE in that it never even converges to the right thing. Motivates the use of conditional likelihood.

Take (Xi,Yi)N(μi,σ2). The MLE of μi is (Xi+Yi)/2 and of σ2 is σ^2=i=1n1nsi2 with si2=(Xiμ^i)2/2+(Yiμ^i)2/2=(XiYi)2/4 which has expected value σ2/4 and so biased by a factor of 2.


2
While this example holds true, this actually defies one of the basic regularity conditions for asymptotic results of MLE's: that k/n0, where k is the number of parameters estimated and n is the sample size.
Cliff AB

1
@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of Θ goes to as n. I think that's what you're saying, but don't know what k means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate σ in this case.
AdamO

3

There is an infinite range of examples for this phenomenon since

  1. the maximum likelihood estimator of a bijective transform Ψ(θ) of a parameter θ is the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE);
  2. the expectation of the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE), E[Ψ(θ^MLE)] is not the bijective transform of the expectation of the maximum likelihood estimator, Ψ(E[θ^MLE]);
  3. most transforms Ψ(θ) are expectations of some transform of the data, h(X), at least for exponential families, provided an inverse Laplace transform can be applied to them.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.