ระยะเวลาข้อผิดพลาดการถดถอยจะสัมพันธ์กับตัวแปรอธิบายได้อย่างไร


22

ประโยคแรกของหน้าวิกินี้อ้างว่า "ในเศรษฐมิติปัญหาเอ็นเอ็นจีนิตี้เกิดขึ้นเมื่อตัวแปรอธิบายมีความสัมพันธ์กับคำผิดพลาด1 "

คำถามของฉันคือสิ่งนี้จะเกิดขึ้นได้อย่างไร? การถดถอยแบบเบต้าไม่ได้ถูกเลือกเช่นนี้เพราะข้อผิดพลาดคือมุมฉากกับพื้นที่คอลัมน์ของเมทริกซ์การออกแบบหรือไม่


9
เบต้าการถดถอยถูกเลือกเพื่อให้ส่วนที่เหลือเป็นมุมฉากกับพื้นที่คอลัมน์ของเมทริกซ์การออกแบบ และนี่อาจให้ค่าประมาณที่น่ากลัวของเบต้าจริงหากคำผิดพลาดนั้นไม่ได้ตั้งฉากกับพื้นที่คอลัมน์ของเมทริกซ์การออกแบบ! (เช่นถ้าแบบจำลองของคุณไม่ตรงตามสมมติฐานที่จำเป็นในการประมาณค่าสัมประสิทธิ์โดยการถดถอย)
Matthew Gunn

3
ความตั้งฉากของข้อผิดพลาดและพื้นที่คอลัมน์ของเมทริกซ์การออกแบบไม่ใช่คุณสมบัติของวิธีการประมาณค่าของคุณ (เช่นการถดถอยกำลังสองน้อยที่สุดธรรมดา) มันเป็นสมบัติของโมเดล (เช่นyi=a+bxi+ϵi )
Matthew Gunn

ฉันคิดว่าการแก้ไขของคุณควรเป็นคำถามใหม่เพราะคุณดูเหมือนจะเปลี่ยนสิ่งที่คุณต้องการอย่างมาก คุณสามารถลิงค์กลับไปที่หน้านี้ได้ตลอดเวลา (ฉันคิดว่าคุณต้องใช้คำพูดให้ดีขึ้นเช่นกัน - เมื่อคุณเขียน "สิ่งที่จะเกิดผลกระทบ" แล้วฉันไม่ชัดเจนเกี่ยวกับผลกระทบของอะไร ?) โปรดทราบว่าการถามคำถามใหม่โดยทั่วไปจะสร้างความสนใจมากขึ้น สำหรับคุณมากกว่าการแก้ไขที่มีอยู่
Silverfish

คำตอบ:


28

คุณกำลังทำให้คำ "ข้อผิดพลาด" ทั้งสองประเภทแตกต่างกัน วิกิพีเดียมีบทความเกี่ยวกับความแตกต่างระหว่างข้อผิดพลาดและส่วนที่เหลือนี้

ในการถดถอย OLS ที่เหลือ มีการรับประกันที่แน่นอนที่จะ uncorrelated กับตัวแปรสมมติว่าการถดถอยมีระยะตัดε^

แต่ข้อผิดพลาด "true" ดีอาจจะมีความสัมพันธ์กับพวกเขาและนี่คือสิ่งที่นับเป็น endogeneityε

เพื่อให้สิ่งต่าง ๆ ง่ายขึ้นพิจารณาตัวแบบการถดถอย (คุณอาจเห็นสิ่งนี้อธิบายว่าเป็น " กระบวนการสร้างข้อมูล " หรือ "DGP" ซึ่งเป็นแบบจำลองทางทฤษฎีที่เราสมมติว่าจะสร้างมูลค่าของ ):y

yi=β1+β2xi+εi

ไม่มีเหตุผลในหลักการว่าทำไมไม่สามารถมีความสัมพันธ์กับεในรูปแบบของเรามาก แต่เราจะชอบมันจะไม่ละเมิด OLS มาตรฐานสมมติฐานในลักษณะนี้ ยกตัวอย่างเช่นมันอาจเป็นไปได้ว่าปีขึ้นอยู่กับตัวแปรอื่น ๆ ที่ได้รับการละเว้นจากแบบจำลองของเรานี้และได้รับการจดทะเบียนเป็นระยะรบกวน (คนεเป็นที่ที่เราก้อนในทุกสิ่งอื่น ๆ นอกเหนือจากxที่มีผลต่อปี ) หากตัวแปรที่ละเว้นนี้มีความสัมพันธ์กับxดังนั้นεจะสัมพันธ์กับxและเรามี endogeneity (โดยเฉพาะอคติที่ละเว้นตัวแปร )xεyεxyxεx

เมื่อคุณประเมินโมเดลการถดถอยของคุณกับข้อมูลที่มีอยู่เราจะได้รับ

yi=β^1+β^2xi+ε^i

เนื่องจากวิธีการ OLS งาน * คลาดเคลื่อนεจะ uncorrelated กับx แต่นั่นไม่ได้หมายความว่าเราต้องหลีกเลี่ยง endogeneity - มันก็หมายความว่าเราไม่สามารถตรวจสอบได้โดยการวิเคราะห์ความสัมพันธ์ระหว่างεและxซึ่งจะเป็น (ถึงข้อผิดพลาดตัวเลข) ศูนย์ และเนื่องจากสมมติฐานของ OLS ถูกละเมิดเราจึงไม่รับประกันคุณสมบัติที่ดีเช่นความไม่เอนเอียงอีกต่อไปเราจึงสนุกกับ OLS มาก เราคาดβ 2จะลำเอียงε^xε^xβ^2


ความจริงที่ว่า εเป็น uncorrelated กับ xดังนี้ทันทีจาก "สมการปกติ" เราใช้ในการเลือกประมาณการที่ดีที่สุดของเราสำหรับค่าสัมประสิทธิ์()ε^x

หากคุณไม่คุ้นเคยกับการตั้งค่าเมทริกซ์และฉันยึดติดกับรูปแบบ bivariate ที่ใช้ในตัวอย่างของฉันด้านบนผลรวมของกำลังสองที่เหลือคือและเพื่อหาสิ่งที่ดีที่สุด1 = β 1และ2 =S(b1,b2)=i=1nεi2=i=1n(yib1b2xi)2b1=β^1ที่ทำให้สิ่งนี้เล็กลงเราจะพบสมการปกติก่อนอื่นเงื่อนไขลำดับแรกสำหรับการสกัดกั้นโดยประมาณ:b2=β^2

Sb1=i=1n2(yib1b2xi)=2i=1nε^i=0

ซึ่งแสดงให้เห็นว่าผลรวม (และด้วยเหตุนี้ค่าเฉลี่ย) ของเหลือเป็นศูนย์ดังนั้นสูตรสำหรับความแปรปรวนระหว่างεและตัวแปรxแล้วลดไป1ε^xฉัน เราเห็นว่านี่เป็นศูนย์โดยพิจารณาเงื่อนไขการสั่งซื้อครั้งแรกสำหรับความชันโดยประมาณซึ่งก็คือ1n1i=1nxiε^i

Sb2=i=1n2xi(yib1b2xi)=2i=1nxiε^i=0

หากคุณกำลังใช้ในการทำงานร่วมกับเมทริกซ์ที่เราสามารถพูดคุยนี้เพื่อถดถอยพหุคูณด้วยการกำหนด ; เงื่อนไขแรกเพื่อลดS ( )ที่ดีที่สุด= βคือ:S(b)=εε=(yXb)(yXb)S(b)b=β^

dSdb(β^)=ddb(yybXyyXb+bXXb)|b=β^=2Xy+2XXβ^=2X(yXβ^)=2Xε^=0

ซึ่งหมายความว่าแต่ละแถวของและด้วยเหตุนี้คอลัมน์ของแต่ละXเป็นฉากกับε แล้วถ้าการออกแบบเมทริกซ์Xมีคอลัมน์ของคน (ซึ่งเกิดขึ้นถ้าแบบจำลองของคุณมีระยะตัด) เราต้องมีΣ n ฉัน= 1 εฉัน = 0ดังนั้นที่เหลือมีผลรวมศูนย์และศูนย์เฉลี่ย แปรปรวนระหว่างεและตัวแปรxเป็นอีกครั้งที่1XXε^Xi=1nε^i=0ε^xและตัวแปรxรวมอยู่ในรูปแบบของเราที่เรารู้ว่าจำนวนนี้เป็นศูนย์เพราะ εเป็นมุมฉากกับคอลัมน์ของเมทริกซ์ออกแบบทุก จึงมีความแปรปรวนเป็นศูนย์และศูนย์ความสัมพันธ์ระหว่าง εและตัวแปรใด ๆ ทำนายx1n1i=1nxiε^ixε^ε^x

หากคุณต้องการมุมมองทางเรขาคณิตมากขึ้นในสิ่งที่ปรารถนาของเราที่Yโกหกใกล้เคียงเป็นไปได้ที่จะYในชนิดพีทาโกรัสของวิธีการและความจริงที่ว่าYเป็นข้อ จำกัด ไปยังพื้นที่คอลัมน์ของการออกแบบเมทริกซ์X , บอกว่าyควรเป็นการประมาณการมุมฉากของy ที่สังเกตบนพื้นที่คอลัมน์นั้น ดังนั้นเวกเตอร์ของคลาดเคลื่อนε = Y - Yเป็นมุมฉากกับคอลัมน์ของทุกXรวมทั้งเวกเตอร์ของคนที่1 ny^y y^Xy^yε^=yy^X1nถ้าคำว่าดักรวมอยู่ในโมเดล เมื่อก่อนนี้หมายถึงผลรวมของค่าตกค้างเป็นศูนย์ดังนั้นมุมฉากของเวกเตอร์ที่เหลือกับคอลัมน์อื่น ๆ ของทำให้มั่นใจได้ว่ามันไม่ได้มีความสัมพันธ์กับตัวทำนายแต่ละตัวX

Vectors in subject space of multiple regression

แต่ไม่มีอะไรที่เราได้ทำที่นี่พูดอะไรเกี่ยวกับข้อผิดพลาดที่แท้จริงεสมมติว่ามีคำที่ตัดในรูปแบบของเราคลาดเคลื่อนεจะ uncorrelated เฉพาะกับxเป็นผลทางคณิตศาสตร์ของลักษณะที่เราเลือกที่จะประเมินค่าสัมประสิทธิ์การถดถอยβ วิธีที่เราเลือกของเราβส่งผลกระทบต่อค่าคาดการณ์ของเราปีและด้วยเหตุที่เหลือของเราε = Y - Y ถ้าเราเลือกβโดย OLS เราจะต้องแก้สมการปกติและบังคับใช้เหล่านี้ที่เหลือโดยประมาณของเราεε^xβ^β^y^ε^=yy^β^จะ uncorrelated กับx ทางเลือกของเราของ βส่งผลกระทบต่อปีแต่ไม่E(Y)และด้วยเหตุนี้การเรียกเก็บไม่มีเงื่อนไขในข้อผิดพลาดจริงε=Y-E(Y) มันจะเป็นความผิดพลาดที่จะคิดว่า εได้อย่างใด "ได้รับมรดก" uncorrelatedness กับxจากสมมติฐานที่ OLSεควรจะ uncorrelated กับx ความไม่สัมพันธ์กันเกิดขึ้นจากสมการปกติε^xβ^y^E(y)ε=yE(y)ε^xεx


1
ไม่คุณหมายถึงการถดถอยโดยใช้ข้อมูลประชากร? หรือมันหมายถึงอะไรอย่างแม่นยำ? yi=β1+β2xi+εi
พลเมืองของภาคเหนือ

@user1559897 Yes, some textbooks will call this the "population regression line" or PRL. It's the underlying theoretical model for the population; you may also see this called the "data generating process" in some sources. (I tend to be a bit careful about saying it is the "regression on the population"... if you have a finite population, e.g. 50 states of the USA, that you perform the regression on, then this isn't quite true. If you are actually running a population on some data in your software, you are really talking about the estimated version of the regression, with the "hats")
Silverfish

I think i see what you are saying. If i understand you correctly, the error term in the model yi=β1+β2xi+εi could have non-zero expectation as well because it is a theoretical generating process, not a ols regression.
denizen of the north

This is a great answer from statistical inference perspective. What do you think the effect would be if prediction accuracy is the primary concern? See the edit of the post.
denizen of the north

16

Simple example:

  • Let xi,1 be the number of burgers I buy on visit i
  • Let xi,2 be the number of buns I buy.
  • Let b1 be the price of a burger
  • Let b2 be the price of a bun.
  • Independent of my burger and bun purchases, let me spend a random amount a+ϵi where a is a scalar and ϵi is a mean zero random variable. We have E[ϵi|X]=0.
  • Let yi be my spending on a trip to the grocery store.

The data generating process is:

yi=a+b1xi,1+b2xi,2+ϵi

If we ran that regression, we would get estimates a^, b^1, and b^2, and with enough data, they would converge on a, b1, and b2 respectively.

(Technical note: We need a little randomness so we don't buy exactly one bun for each burger we buy at every visit to the grocery store. If we did this, x1 and x2 would be collinear.)

An example of omitted variable bias:

Now let's consider the model:

yi=a+b1xi,1+ui

Observe that ui=b2xi,2+ϵi. Hence

Cov(x1,u)=Cov(x1,b2x2+ϵ)=b2Cov(x1,x2)+Cov(x1,ϵ)=b2Cov(x1,x2)

Is this zero? Almost certainly not! The purchase of burgers x1 and the purchase of buns x2 are almost certainly correlated! Hence u and x1 are correlated!

What happens if you tried to run the regression?

If you tried to run:

yi=a^+b^1xi,1+u^i

Your estimate b^1 would almost certainly be a poor estimate of b1 because the OLS regression estimates a^,b^,u^ would be constructed so that u^ and x1 are uncorrelated in your sample. But the actual u is correlated with x1 in the population!

What would happen in practice if you did this? Your estimate b^1 of the price of burgers would ALSO pickup the price of buns. Let's say every time you bought a $1 burger you tended to buy a $0.50 bun (but not all the time). Your estimate of the price of burgers might be $1.40. You'd be picking up the burger channel and the bun channel in your estimate of the burger price.


I like your burger bun example. You explained the problem from the perspective of statistical inference, ie inferring the effect of burger on price. Just wondering what the effect would be if all I care about is prediction, i.e prediction MSE on a test dataset? The intuition is that it is not going to be as good, but is there any theory to make it more precise? (this introduced more bias, but less variance, so the overall effect is not apparent to me. )
denizen of the north

1
@user1559897 If you just care about predicting spending, then predicting spending using the number of burgers and estimating b^1 as around $1.40 might work pretty well. If you have enough data, using the number of burgers and buns would undoubtedly work better. In short samples, L1 regularlization (LASSO) might send one of the coefficients b1 or b2 to zero. I think you're correctly recognizing that what you're doing in regression is estimating a conditional expectation function. My point is for that that function to capture causal effects, you need additional assumptions.
Matthew Gunn

3

สมมติว่าเรากำลังสร้างการถดถอยของน้ำหนักสัตว์บนความสูงของมัน เห็นได้ชัดว่าน้ำหนักของปลาโลมาจะถูกวัดแตกต่างกัน (ในขั้นตอนที่แตกต่างกันและการใช้เครื่องมือที่แตกต่างกัน) จากน้ำหนักของช้างหรืองู ซึ่งหมายความว่าข้อผิดพลาดของโมเดลจะขึ้นอยู่กับความสูงเช่นตัวแปรอธิบาย พวกเขาสามารถพึ่งพาได้หลายวิธี ตัวอย่างเช่นบางทีเราอาจประเมินน้ำหนักช้างสูงเกินไปเล็กน้อยและประเมินค่างูต่ำเกินไปเล็กน้อย

ดังนั้นที่นี่เราสร้างขึ้นว่ามันง่ายที่จะจบลงด้วยสถานการณ์เมื่อข้อผิดพลาดมีความสัมพันธ์กับตัวแปรอธิบาย ตอนนี้ถ้าเราไม่สนใจเรื่องนี้และดำเนินการถดถอยตามปกติเราจะสังเกตเห็นว่าการถดถอยเหลือจะไม่มีความสัมพันธ์กับเมทริกซ์ออกแบบ นี่เป็นเพราะด้วยการออกแบบการถดถอยทำให้กองกำลังตกค้างไม่เกี่ยวข้องกัน โปรดทราบว่ายังเหลืออยู่ไม่ข้อผิดพลาดที่พวกเขากำลังประมาณการของข้อผิดพลาด ดังนั้นไม่ว่าข้อผิดพลาดนั้นจะมีความสัมพันธ์หรือไม่กับตัวแปรอิสระการประเมินข้อผิดพลาด (ส่วนที่เหลือ) จะไม่ได้ถูกนำมาคำนวณโดยการสร้างสมการถดถอย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.