การประมาณค่ามัธยฐานของค่ามัธยฐาน


16

สมมติว่าเรามีตัวแปรสุ่มXสนับสนุนบน[0,1]ซึ่งเราสามารถวาดตัวอย่างได้ เราจะหาค่ามัธยฐานของเป็นกลางได้Xอย่างไร

แน่นอนว่าเราสามารถสร้างกลุ่มตัวอย่างและใช้ค่ามัธยฐานตัวอย่างได้ แต่ฉันเข้าใจว่าสิ่งนี้จะไม่เอนเอียงโดยทั่วไป

หมายเหตุ: คำถามนี้เกี่ยวข้อง แต่ไม่เหมือนกันกับคำถามสุดท้ายของฉันซึ่งในกรณีXสามารถสุ่มตัวอย่างได้ประมาณเท่านั้น

คำตอบ:


13

ตัวประมาณดังกล่าวไม่มีอยู่จริง

สัญชาตญาณคือค่ามัธยฐานสามารถคงที่ได้ในขณะที่เราเปลี่ยนความหนาแน่นของความน่าจะเป็นรอบทั้งสองด้านอย่างอิสระดังนั้นตัวประมาณใด ๆ ที่มีค่าเฉลี่ยเป็นค่ามัธยฐานสำหรับการแจกแจงหนึ่งจะมีค่าเฉลี่ยที่แตกต่างกันสำหรับการแจกแจงที่เปลี่ยนแปลง นิทรรศการต่อไปนี้ให้ความเข้มงวดกับปรีชานี้เล็กน้อย


เรามุ่งเน้นการกระจายมีมีเดียที่ไม่ซ้ำกันmเพื่อให้ตามคำนิยามF ( เมตร) 1 / 2และF ( x ) < 1 / 2สำหรับทุกx <เมตร แก้ไขขนาดของกลุ่มตัวอย่างn 1และคิดว่าเสื้อ: [ 0 , 1 ] n[ 0 , 1 ]ประมาณการเมตร มันจะพอเพียงทีFmF(m)1/2F(x)<1/2x<mn1t:[0,1]n[0,1]mtถูก จำกัด ขอบเขตเท่านั้น แต่โดยทั่วไปเราจะไม่พิจารณาตัวประมาณที่สร้างค่าที่เป็นไปไม่ได้อย่างชัดเจน) เราไม่ได้ตั้งสมมติฐานเกี่ยวกับ ; มันไม่จำเป็นต้องต่อเนื่องทุกที่t

ความหมายของเป็นที่เป็นกลาง (ขนาดตัวอย่างคงที่นี้) ก็คือว่าt

EF[t(X1,,Xn)]=m

สำหรับตัวอย่าง IID ใด ๆ กับ F "ความเป็นกลางประมาณการ" ทีเป็นหนึ่งที่มีคุณสมบัตินี้สำหรับทุกคนเช่นFXiFtF

สมมติว่ามีตัวประมาณที่เป็นกลาง เราจะได้รับความขัดแย้งโดยนำไปใช้กับชุดการแจกแจงที่เรียบง่ายเป็นพิเศษ พิจารณาการแจกแจงมีคุณสมบัติเหล่านี้:F=Fx,y,m,ε

  1. ;0x<y1

  2. ;0<ε<(yx)/4

  3. ;x+ε<m<yε

  4. ;Pr(X=x)=Pr(X=y)=(1ε)/2

  5. ; และPr(mεXm+ε)=ε

  6. เป็นเครื่องแบบ [ ม. - ε , ม. + ε ]F[mε,m+ε]

เหล่านี้น่าจะเป็นการกระจายสถานที่ในแต่ละxและy ที่และจำนวนเล็ก ๆ ของความน่าจะแฟ่อยู่รอบ ๆม.ระหว่างxและy ที่ นี้จะทำให้mมัธยฐานเอกลักษณ์ของF (หากคุณกังวลว่านี่ไม่ใช่การแจกแจงแบบต่อเนื่องให้ทำการโน้มน้าวเกาส์เซียนที่แคบมากและตัดผลลัพธ์เป็น[ 0 , 1 ] : การโต้แย้งจะไม่เปลี่ยนแปลง)(1ε)/2xymxymF[0,1]

ตอนนี้สำหรับตัวประมาณค่ามัธยฐานสมมุติใด ๆการประมาณแบบง่ายแสดงให้เห็นว่าE [ t ( X 1 , X 2 , , X n ) ]นั้นเคร่งครัดภายในεของค่าเฉลี่ยของค่าn 2ค่าt ( x 1 , x 2 , ... , x n )ที่x ฉันแตกต่างกันมากกว่าผสมเป็นไปได้ทั้งหมดของxและY อย่างไรก็ตามเราสามารถเปลี่ยนแปลงได้ระหว่างtE[t(X1,X2,,Xn)]ε2nt(x1,x2,,xn)xixymและ y - εการเปลี่ยนแปลงอย่างน้อย ε (โดยอาศัยเงื่อนไข 2 และ 3) ดังนั้นจึงมี mและการกระจายที่สอดคล้องกันคือ F x , y , m , εซึ่งความคาดหวังนี้ไม่เท่ากับค่ามัธยฐาน, QEDx+εyεεmFx,y,m,ε


(+1) หลักฐานดี คุณเกิดขึ้นกับมันหรือเป็นสิ่งที่คุณจำได้จากโรงเรียนระดับบัณฑิตศึกษา?
StasK

4
นี่คือหลักฐานอื่น: Bernoulli ส่วนใหญ่ตัวแปรสุ่มมีค่ามัธยฐานหรือ1 ประมาณการจากnทดลองขึ้นอยู่กับค่าเฉลี่ยของประมาณการในจุดของ[ 0 , 1 ] nกับkและน้ำหนักของค่าเฉลี่ยเหล่านี้เป็นพหุนามในหน้าของการศึกษาระดับปริญญาn ถ้าเป็นประมาณการที่เป็นกลางนั้นจะต้องมีค่าเฉลี่ย1สำหรับการใด ๆP > 1 / 2และมีมากกว่าn + 1ค่าดังกล่าวของพี01n[0,1]nkpn1p>1/2n+1pพหุนามนี้ต้องคงที่ ... แต่มันต้องเป็นด้วยค่าที่ต่ำกว่าของpดังนั้นมันจึงไม่ควรมีความเป็นกลางด้วยเช่นกัน 0p
Douglas Zare

1
@ ดักลาสนั่นเป็นข้อพิสูจน์ที่ดี ฉันสงสัยว่าบางคนอาจจะรู้สึกไม่สบายใจเล็ก ๆ น้อย ๆ เกี่ยวกับขอบเขตของการบังคับใช้ของตน แต่เนื่องจากค่าเฉลี่ยสำหรับตัวแปร Bernoulli ค่อนข้างพิเศษเป็นประจวบกับหนึ่งในสองจุดสนับสนุน (ยกเว้นเมื่อ ) ผู้อ่านอาจถูกล่อลวงให้ประกาศสิ่งนี้ว่าเป็น "พยาธิวิทยา" และพยายามกีดกันสัตว์ประหลาดเช่นนี้โดยดูจากการกระจายอย่างต่อเนื่องที่มีความหนาแน่นเชิงบวกทุกที่บนโดเมนของพวกเขา นั่นเป็นเหตุผลที่ฉันพยายามแสดงให้เห็นว่าความพยายามดังกล่าวจะล้มเหลว p=1/2
whuber

3

Finding an unbiased estimator without having a parametric model would be difficult! But you could use bootstrapping, and use that to correct the empirical median to get an approximately unbiased estimator.


If this is impossible, is it possible to prove it? For example, if X1,X2,,Xn are independent samples from X then can one prove that f(X1,,Xn) cannot be unbiased for any choice of f?
robinson

2
I think kjetil is saying that in a nonparametric framework there is no method that will give an unbiased estimate for every possible distribution. But in the parametric framework you probably could. Bootstrapping a biased sample estimate can allow you to estimate the bias and adjust it to get a bootstrap estimate that is nearly unbiased. That was his suggestion for handling the problem in the nonparametric framework. Proving that an unbiased estimate is not possible would also be difficult.
Michael R. Chernick

2
If you really want to try to prove that there do not exist an unbiased estimator, there is a book, Ferguson: "Mathematical Statistics - A Decision Theoretic Approach" which do have some examples of that kind of thing!
kjetil b halvorsen

I imagine that the regularity conditions for the bootstrap will be violated with the distribution functions that whuber considers in his answer. Michael, can you comment?
StasK

2
@Stas As I pointed out, my functions can be made to look very "nice" by mollifying them. They can also be generalized to mollifications of large finite mixtures of atoms. The class of such distributions is dense in all distributions on the unit interval, so I don't think bootstrap regularity would be involved here.
whuber

0

I believe quantile regression will give you a consistent estimator of the median. Given the model Y=α+u. And you want to estimate med(y)=med(α+u)=α+med(u) since α is a constant. All you need is the med(u)=0 which should be true so long as you have independent draws. However, as far as unbiasedness, I don't know. Medians are difficult.


See @whuber 's answer
Peter Flom - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.