การประมาณ


14

ฉันมีแบบจำลองทางเศรษฐศาสตร์เชิงทฤษฎีซึ่งมีดังต่อไปนี้

y=a+b1x1+b2x2+b3x3+u

ดังนั้นทฤษฎีบอกว่ามี , x 2และx 3ปัจจัยในการประมาณการปีx1x2x3y

ตอนนี้ผมมีข้อมูลจริงและฉันต้องการที่จะประเมิน , 2 , B 3 ปัญหาคือชุดข้อมูลจริงมีเพียงข้อมูลสำหรับx 1และx 2เท่านั้น มีข้อมูลสำหรับการไม่มีx 3 ดังนั้นแบบจำลองที่ฉันสามารถใส่ได้คือ:b1b2b3x1x2x3

y=a+b1x1+b2x2+u
  • มันโอเคที่จะประเมินโมเดลนี้หรือไม่?
  • ฉันจะสูญเสียสิ่งที่ประเมินหรือไม่
  • ถ้าฉันประมาณ , b 2แล้วเทอมb 3 x 3จะไปที่ไหนb1b2b3x3
  • มันคิดโดยระยะผิดพลาด ?u

และเราต้องการที่จะคิดว่าไม่ได้มีความสัมพันธ์กับx 1และx 2x3x1x2


คุณสามารถให้รายละเอียดเกี่ยวกับชุดข้อมูลของคุณฉันหมายถึงและตัวแปรอิสระของคุณและตัวแปรอิสระx 1และx 2หรือไม่ yx1x2
Vara

คิดว่ามันเป็นตัวอย่างในเชิงสมมติฐานโดยไม่มีชุดข้อมูลที่เฉพาะเจาะจง ...
renathy

คำตอบ:


20

ปัญหาที่คุณจำเป็นต้องกังวลเกี่ยวกับการที่เรียกว่าendogeneity โดยเฉพาะอย่างยิ่งมันขึ้นอยู่กับว่ามีความสัมพันธ์ในประชากรที่มีx 1หรือx 2 หากเป็นเช่นนั้นค่าb j s ที่เกี่ยวข้องจะมีอคติ นั่นเป็นเพราะOLSวิธีการถดถอยบังคับคลาดเคลื่อน, U ฉันจะ uncorrelated กับตัวแปรของคุณx J s แต่ที่เหลือของคุณจะประกอบด้วยบางสุ่มลดลง, ε ฉัน , และสังเกต ( แต่ที่เกี่ยวข้อง) ตัวแปรx 3ซึ่งโดยข้อตกลงx3x1x2bjuixjεix3คือมีความสัมพันธ์กับและ / หรือx 2 ในทางกลับกันถ้าทั้งx 1และx 2ไม่มีความสัมพันธ์กับx 3ในประชากรbของพวกเขาจะไม่ลำเอียงจากสิ่งนี้ วิธีการหนึ่งที่ econometricians พยายามที่จะจัดการกับปัญหานี้คือการใช้ตัวแปร x1x2 x1x2x3b

เพื่อประโยชน์ของความชัดเจนมากขึ้นผมได้เขียนจำลองรวดเร็วในการวิจัยที่แสดงให้เห็นถึงการกระจายตัวอย่างของเป็นกลาง / ศูนย์กลางในมูลค่าที่แท้จริงของβ 2เมื่อมันเป็น uncorrelated กับx 3 ในระยะที่สองอย่างไรก็ตามโปรดทราบว่าx 3เป็น uncorrelated กับx 1แต่ไม่ได้x 2 ไม่บังเอิญb 1ไม่มีอคติ แต่b 2นั้นมีอคติ b2β2x3x3x1x2b1b2

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64

ดังนั้นคุณสามารถ exaplain อีกเล็กน้อย - เกิดอะไรขึ้นถ้าเราคิดว่า x3 ไม่สัมพันธ์กับ $ x_1 และ x2? ถ้าหากฉันประมาณ y = a + b1x1 + b2x2 + u
renathy

1
จะถูกรวมเข้ากับส่วนที่เหลือด้วยวิธีใดวิธีหนึ่ง แต่ถ้ามันไม่ได้มีความสัมพันธ์กันในประชากร bอื่น ๆ ของคุณจะไม่ลำเอียงจากการไม่มีตัวตนของ x 3แต่ถ้ามันไม่ได้ถูกตัดออกจากกันพวกมันจะเป็น b3x3bx3
gung - Reinstate Monica

หากต้องการระบุสิ่งนี้ให้ชัดเจนยิ่งขึ้น: หากไม่สัมพันธ์กับx 1หรือx 2 แสดงว่าคุณตกลง x3x1x2
gung - Reinstate Monica


3

ลองคิดถึงเรื่องนี้ในแง่เรขาคณิต คิดว่า "ลูกบอล" พื้นผิวของลูกบอล อธิบายว่ามันคือ ε ทีนี้ถ้าคุณมีค่าสำหรับx 2 , y 2 , z 2 , และคุณมีการวัด r 2คุณสามารถกำหนดค่าสัมประสิทธิ์ "a", "b" และ "c" ได้ (คุณสามารถเรียกมันว่าทรงรี แต่จะเรียกมันว่าลูกบอลนั้นง่ายกว่า)r2=ax2+by2+cz2+ϵx2y2z2r2

หากคุณมีเฉพาะ เทอมและy 2คุณสามารถสร้างวงกลมได้ แทนที่จะกำหนดพื้นผิวของลูกคุณจะอธิบายวงกลมที่เติมเต็ม สมการคุณแทนพอดีมีr 2x 2 + Y 2 + ε x2y2r2ax2+by2+ϵ

คุณกำลังฉาย "ลูกบอล" ไม่ว่าจะเป็นรูปร่างใดก็ตามลงในนิพจน์ของวงกลม มันอาจจะเป็น "ลูกบอล" ที่เน้นแนวทแยงมุมที่มีรูปร่างเหมือนเข็มเย็บผ้าและส่วนประกอบทำลายประมาณการของทั้งสองแกนอย่างสิ้นเชิง มันอาจจะเป็นลูกบอลที่ดูเหมือนว่า m & m ที่เกือบจะถูกบดขยี้ซึ่งแกนเหรียญเป็น "x" และ "y" และมีการฉายภาพเป็นศูนย์ คุณไม่สามารถรู้ได้ว่าข้อมูลตัวใดที่ไม่มีข้อมูล " z "zz

ย่อหน้าสุดท้ายนั้นกำลังพูดถึงกรณี "ข้อมูลบริสุทธิ์" และไม่ได้ส่งเสียงดัง การวัดในโลกแห่งความจริงมีสัญญาณที่มีเสียงดัง เสียงตามแนวเส้นรอบวงที่จัดเรียงตามแนวแกนจะส่งผลกระทบที่ดีกว่ากับคุณ แม้ว่าคุณจะมีตัวอย่างจำนวนเท่าเดิม แต่คุณจะมีความไม่แน่นอนในการประมาณค่าพารามิเตอร์ของคุณมากขึ้น ถ้าเป็นสมการที่แตกต่างกว่านี้ง่ายเชิงเส้นกรณีแกนเชิงแล้วสิ่งที่สามารถไป " ลูกแพร์ " สมการปัจจุบันของคุณเป็นรูปเครื่องบินดังนั้นแทนที่จะมีขอบเขต (พื้นผิวของลูกบอล) ข้อมูล z อาจไปทั่วแผนที่ - การฉายภาพอาจเป็นปัญหาร้ายแรง

มันโอเคกับโมเดลไหม? นั่นคือคำพิพากษา ผู้เชี่ยวชาญที่เข้าใจรายละเอียดของปัญหาอาจตอบคำถามนั้นได้ ฉันไม่รู้ว่าใครบางคนสามารถให้คำตอบที่ดีถ้าพวกเขาอยู่ห่างไกลจากปัญหา

คุณสูญเสียสิ่งดีๆหลายอย่างรวมถึงความแน่นอนในการประมาณค่าพารามิเตอร์และลักษณะของแบบจำลองที่ถูกแปลง

ค่าประมาณสำหรับหายไปใน epsilon และเป็นค่าประมาณพารามิเตอร์อื่น ๆ มันคือวิทยโดยสมการทั้งหมดขึ้นอยู่กับระบบพื้นฐานb3



f(x,y,z)

I am unable to follow your argument because I don't see anything that corresponds to a "filled in square."
whuber

0

The other answers, while not wrong, over complicate the issue a bit.

If x3 is truly uncorrelated with x1 and x2 (and the true relationship is as specified) then you can estimate your second equation without an issue. As you suggest, β3x3 will be absorbed by the (new) error term. The OLS estimates will be unbiased, as long as all the other OLS assumptions hold.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.