ทำไมเราต้องใช้เครื่องมือประมาณเพื่อให้สอดคล้องกัน


15

ฉันคิดว่าฉันเข้าใจคำจำกัดความทางคณิตศาสตร์ของตัวประมาณที่สอดคล้องกันแล้ว ช่วยแก้ให้ด้วยนะถ้าฉันผิด:

Wnเป็นตัวประมาณค่าที่สอดคล้องกันสำหรับθถ้าϵ>0

limnP(|Wnθ|>ϵ)=0,θΘ

ที่ไหนคือพื้นที่พาราเมตริก แต่ฉันต้องการเข้าใจความต้องการของผู้ประมาณค่าให้สอดคล้องกัน เหตุใดเครื่องมือประมาณการที่ไม่สอดคล้องจึงไม่ดี คุณช่วยยกตัวอย่างให้ฉันได้ไหมΘ

ฉันยอมรับการจำลองใน R หรือหลาม


3
ตัวประมาณที่ไม่สอดคล้องกันไม่ได้เลวร้ายเสมอไป ยกตัวอย่างเช่นตัวประมาณค่าที่ไม่สอดคล้อง แต่ไม่เอนเอียง ดูบทความวิกิพีเดียเกี่ยวกับ Estimator ที่สอดคล้องกันen.wikipedia.org/wiki/Consistent_estimatorโดยเฉพาะในส่วนของ Bias กับ Consistency
compbiostats

ความสอดคล้องคือการพูดถึงพฤติกรรมเชิงเส้นกำกับที่เหมาะสมที่สุดของตัวประมาณ เราเลือกตัวประมาณที่ใกล้ถึงมูลค่าที่แท้จริงของในระยะยาว ตั้งแต่นี้เป็นเพียงการบรรจบกันในความน่าจะเป็นหัวข้อนี้อาจจะเป็นประโยชน์: stats.stackexchange.com/questions/134701/... θ
StubbornAtom

@ StubbornAtom ฉันจะระมัดระวังในการเรียกตัวประมาณที่เหมาะสมว่า "ดีที่สุด" เนื่องจากคำนั้นมักถูกสงวนไว้สำหรับตัวประมาณที่ยังมีประสิทธิภาพ
Christoph Hanck

คำตอบ:


22

หากตัวประมาณไม่สอดคล้องกันมันจะไม่รวมกันเป็นมูลค่าที่แท้จริงในความน่าจะเป็น กล่าวอีกอย่างหนึ่งคือความน่าจะเป็นที่ตัวประมาณค่าและค่าจริงของคุณจะมีความแตกต่างเสมอไม่ว่าคุณจะมีจุดข้อมูลเท่าใด นี้จะไม่ดีจริงเพราะแม้ว่าคุณเก็บจำนวนมหาศาลของข้อมูลประมาณการของคุณมักจะมีความน่าจะเป็นในเชิงบวกของการเป็นบางϵ>0ที่แตกต่างจากมูลค่าที่แท้จริง ในทางปฏิบัติคุณสามารถพิจารณาสถานการณ์นี้ราวกับว่าคุณกำลังใช้ตัวประมาณปริมาณซึ่งแม้แต่การสำรวจประชากรทั้งหมดแทนที่จะเป็นตัวอย่างเล็ก ๆ ก็ไม่สามารถช่วยคุณได้


21

พิจารณาn=10000การสังเกต 000ครั้งจากการแจกแจงแบบมาตรฐานของโคชีซึ่งเป็นแบบเดียวกับการแจกแจงแบบนักศึกษาที่มีอิสระในระดับ 1 หางของการกระจายนี้หนักพอที่มันจะไม่ได้หมายความว่า; การกระจายอยู่กึ่งกลางที่ค่ามัธยฐานของมันη=0.

ลำดับตัวอย่างหมายถึงAj=1ji=1jXiไม่สอดคล้องกับศูนย์กลางของการแจกแจง Cauchy พูดประมาณความยากลำบากก็คือว่าข้อสังเกตที่รุนแรงมากXi(บวกหรือลบ) เกิดขึ้นอย่างสม่ำเสมอพอว่ามีโอกาสไม่เจที่จะมาบรรจบกันเพื่อη=0(ในเจจะไม่เพียงแค่ช้าที่จะมาบรรจบกันที่พวกเขาสวม' ไม่เคยมาบรรจบกันการกระจายของAjเป็นมาตรฐานอีกครั้ง Cauchy [พิสูจน์].)Ajη=0.AjAj

ในทางตรงกันข้ามที่ใดขั้นตอนหนึ่งในกระบวนการการสุ่มตัวอย่างอย่างต่อเนื่องประมาณครึ่งหนึ่งของการสังเกตXiจะอยู่ที่ด้านข้างของทั้งη,เพื่อให้ลำดับHjของมีเดียตัวอย่างไม่บรรจบกันเพื่อηη.

การขาดการบรรจบกันของAjและการบรรจบกันของHjนี้แสดงให้เห็นจากการจำลองดังต่อไปนี้

set.seed(2019)  # for reproducibility
n = 10000;  x = rt(n, 1);  j = 1:n
a = cumsum(x)/j
h = numeric(n)
for (i in 1:n) {
  h[i] = median(x[1:i])  } 
par(mfrow=c(1,2))
 plot(j,a, type="l", ylim=c(-5,5), lwd=2,
    main="Trace of Sample Mean")
  abline(h=0, col="green2")
  k = j[abs(x)>1000] 
  abline(v=k, col="red", lty="dotted")
 plot(j,h, type="l", ylim=c(-5,5), lwd=2,
     main="Trace of Sample Median")
  abline(h=0, col="green2") 
par(mfrow=c(1,1))

ป้อนคำอธิบายรูปภาพที่นี่

นี่คือรายการของขั้นตอนที่|Xi|>1000.คุณสามารถเห็นผลกระทบของการสังเกตอย่างรุนแรงเหล่านี้ต่อค่าเฉลี่ยการวิ่งในพล็อตทางด้านซ้าย (ที่เส้นประสีแดงแนวตั้ง)

k = j[abs(x)>1000]
rbind(k, round(x[k]))
   [,1] [,2] [,3]  [,4] [,5]  [,6]   [,7]  [,8]
k   291  898 1293  1602 2547  5472   6079  9158
  -5440 2502 5421 -2231 1635 -2644 -10194 -3137

ความสอดคล้องในการประเมินที่สำคัญ:ในการสุ่มตัวอย่างจากประชากร Cauchy ค่าเฉลี่ยตัวอย่างของตัวอย่างของn=10000การสังเกตหลายพันครั้งไม่ได้ดีไปกว่าการประมาณจุดศูนย์กลางηมากกว่าการสังเกตเพียงครั้งเดียว โดยคมชัดตัวอย่างสอดคล้องลู่ค่ามัธยฐานη,เพื่อให้กลุ่มตัวอย่างขนาดใหญ่ผลิตประมาณการที่ดีขึ้น


1
Nitpicking นิดหน่อย แต่การจำลองของคุณแสดงให้เห็นถึงความล้มเหลวของตัวอย่างหมายถึงการบรรจบกันเกือบแน่นอนไม่ได้อยู่ในความน่าจะเป็นไปยังศูนย์ Cauchy (ความมั่นคงที่แข็งแกร่งและความมั่นคงต่ำ)
30718

9

ตัวอย่างที่เรียบง่ายจริง ๆ ว่าเหตุใดจึงสำคัญที่ต้องคำนึงถึงความมั่นคงซึ่งฉันไม่คิดว่าจะได้รับความสนใจมากพอคือโมเดลที่ง่ายเกินไป

เป็นตัวอย่างเชิงทฤษฎีสมมติว่าคุณต้องการให้พอดีกับตัวแบบการถดถอยเชิงเส้นในข้อมูลบางอย่างซึ่งผลที่แท้จริงนั้นไม่ใช่เชิงเส้น จากนั้นการทำนายของคุณจะไม่สอดคล้องกับค่าเฉลี่ยที่แท้จริงสำหรับการรวมตัวของโควาเรียต์ทั้งหมดในขณะที่ความยืดหยุ่นที่มากขึ้นอาจทำได้ ในคำอื่น ๆ แบบจำลองที่ง่ายจะมีข้อบกพร่องซึ่งไม่สามารถเอาชนะได้โดยใช้ข้อมูลมากขึ้น


yi=y^i+e^i

8

@BruceET ได้ให้คำตอบทางเทคนิคที่ยอดเยี่ยมแล้ว แต่ฉันต้องการเพิ่มประเด็นเกี่ยวกับการตีความทั้งหมด

หนึ่งในแนวคิดพื้นฐานในสถิติคือเมื่อขนาดตัวอย่างของเราเพิ่มขึ้นเราสามารถสรุปได้อย่างแม่นยำมากขึ้นเกี่ยวกับการกระจายพื้นฐานของเรา คุณอาจคิดว่ามันเป็นความคิดที่ว่าการเก็บตัวอย่างจำนวนมากกำจัดการกระวนกระวายใจแบบสุ่มในข้อมูลดังนั้นเราจึงได้แนวคิดที่ดีขึ้นเกี่ยวกับโครงสร้างพื้นฐาน

(Xi)iN E[X1]<

1nk=1nXkE[X]   a.s.

ตอนนี้หากต้องการให้ตัวประมาณต้องสอดคล้องกันคือต้องการให้มันเป็นไปตามกฎนี้: เนื่องจากหน้าที่ของมันคือการประมาณพารามิเตอร์ที่ไม่รู้จักเราจึงอยากให้มันมาบรรจบกับพารามิเตอร์นั้น (อ่าน: ประมาณพารามิเตอร์นั้นโดยพลการ) ขนาดมีแนวโน้มที่จะไม่มีที่สิ้นสุด

สมการ

limnP(|Wnθ|>ϵ)=0,ϵ>0 θ Θ

Wnθ , ตัวอย่างขนาดใหญ่จะได้รับเราใกล้ชิดและใกล้ชิดกับมูลค่าที่แท้จริง

ทีนี้ถ้าคุณต้องการคุณสามารถดูมันตรงกันข้าม: หากเงื่อนไขนั้นล้มเหลวแม้แต่กับขนาดตัวอย่างที่ไม่มีที่สิ้นสุดก็จะมี "ทางเดิน" ที่มีความกว้างเป็นบวก [θ-ε,θ+ε] รอบ θและความน่าจะเป็นที่ไม่ใช่ศูนย์ซึ่งถึงแม้จะมีขนาดตัวอย่างขนาดใหญ่โดยพลการ แต่ตัวประมาณของเราก็จะตกนอกทางเดินนั้น และนั่นจะเป็นการละเมิดความคิดดังกล่าวอย่างเห็นได้ชัดดังนั้นความมั่นคงจึงเป็นเงื่อนไขที่เป็นธรรมชาติมากในการประมาณความต้องการและการบังคับใช้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.