แปลงที่เหลือ: ทำไมพล็อตกับค่าที่ติดตั้งไม่สังเกตค่า


20

ในบริบทของการถดถอย OLS ฉันเข้าใจว่าพล็อตที่เหลือ (เทียบกับค่าติดตั้ง) ถูกมองตามอัตภาพเพื่อทดสอบความแปรปรวนคงที่และประเมินรูปแบบของแบบจำลอง เหตุใดจึงมีการพล็อตสิ่งที่แนบมาพอดีและไม่ใช่ค่าข้อมูลแตกต่างจากทั้งสองแปลงอย่างไรY

ฉันกำลังทำงานกับแบบจำลองที่สร้างแผนการที่เหลือต่อไปนี้:

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นพล็อตกับค่าติดตั้งจึงดูดีอย่างรวดเร็ว แต่พล็อตที่สองเทียบกับค่ามีรูปแบบ ฉันสงสัยว่าทำไมรูปแบบเด่นชัดดังกล่าวจะไม่ปรากฏในพล็อตที่เหลือเทียบกับพอดี ....Y

ฉันไม่ได้ต้องการความช่วยเหลือในการวินิจฉัยปัญหาเกี่ยวกับตัวแบบ แต่เพียงแค่พยายามเข้าใจความแตกต่าง (โดยทั่วไป) ระหว่าง (1) ส่วนที่เหลือเทียบกับพอดีและ & (2) ส่วนที่เหลือเทียบกับพล็อต Y

สำหรับสิ่งที่คุ้มค่าฉันแน่ใจว่ารูปแบบข้อผิดพลาดในแผนภูมิที่สองนั้นเกิดจากตัวแปรที่ละเว้นซึ่งมีผลต่อ DV ขณะนี้ฉันกำลังหาข้อมูลซึ่งฉันคาดหวังว่าจะช่วยให้พอดีและโดยรวมได้ ฉันกำลังทำงานกับข้อมูลอสังหาริมทรัพย์: DV = ราคาขาย เกลือ: sq.ft ของบ้าน # พื้นที่โรงรถปีสร้างขึ้นในปีสร้างขึ้น 2 2


3
ฉันใช้เสรีภาพในการปรับแต่งชื่อเพื่อให้ตรงกับความตั้งใจของคุณมากขึ้น แม้แต่ในหมู่นักเศรษฐศาสตร์ (คุณอาจเป็นหนึ่งเดียว) "IV" มีความหมายอื่นของตัวแปรเครื่องมือแม้ว่าจะไม่มีความกำกวมในกรณีนี้ เพื่อการสื่อสารที่ดีขึ้นในหลาย ๆ ศาสตร์สถิติเราบางคนไม่สนับสนุนตัวย่อที่ใช้ในท้องถิ่นเช่น DV (ซึ่งสำหรับบางคนยังหมายถึงDeo volente ) และ IV เพื่อสนับสนุนเงื่อนไขที่นำมาซึ่งเช่นการตอบสนองหรือผลลัพธ์ในมือข้างหนึ่งและผู้ทำนายหรือ อื่น ๆ ฉันรู้ว่านี่เป็นรายละเอียดในคำถามของคุณ แต่ได้รับคำตอบอย่างดี
นิคค็อกซ์

คำตอบ:


11

โดยการสร้างคำผิดพลาดในแบบจำลอง OLS นั้นไม่มีความสัมพันธ์กับค่าที่สังเกตของ X covariates สิ่งนี้จะเป็นจริงสำหรับข้อมูลที่สังเกตแม้ว่าตัวแบบจะให้ค่าประมาณแบบเอนเอียงที่ไม่สะท้อนค่าที่แท้จริงของพารามิเตอร์เพราะข้อสันนิษฐานของแบบจำลองถูกละเมิด (เช่นปัญหาตัวแปรที่ละเว้นหรือปัญหาที่มีสาเหตุเชิงย้อนกลับ) ค่าที่ทำนายนั้นเป็นหน้าที่ของ covariates ทั้งหมดดังนั้นพวกมันจึงไม่ได้มีความสัมพันธ์กับเทอมที่ผิดพลาด ดังนั้นเมื่อคุณพล็อตส่วนที่เหลือเทียบกับค่าที่คาดการณ์พวกเขาควรดูแบบสุ่มเพราะพวกเขาไม่ได้ถูกจำแนกโดยการสร้างตัวประมาณ ในทางตรงกันข้ามมันเป็นไปได้ทั้งหมด (และน่าจะเป็นจริง) สำหรับคำผิดพลาดของโมเดลที่สัมพันธ์กับ Y ในทางปฏิบัติ ตัวอย่างเช่นเมื่อใช้ตัวแปร dichotomous X ยิ่งค่า Y ที่แท้จริงนั้นมาจากใดE(Y | X = 1)หรือE(Y | X = 0)ส่วนที่เหลือก็จะมากขึ้น นี่คือสัญชาตญาณเดียวกันกับข้อมูลจำลองใน R ที่เรารู้ว่าแบบจำลองนั้นไม่เอนเอียงเพราะเราควบคุมกระบวนการสร้างข้อมูล:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

เราได้ผลลัพธ์เดียวกันโดยไม่มีสหสัมพันธ์กับตัวแบบเอนเอียงตัวอย่างเช่นถ้าเราละเว้น x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero

2
มีประโยชน์ แต่สามารถเขียนประโยคแรกเพื่อความชัดเจน "การก่อสร้าง" ผลิตสิ่งตกค้าง คำว่าข้อผิดพลาดจะถูกพิจารณาว่าอยู่ที่นั่นและมีอยู่ก่อนการคำนวณ ในทำนองเดียวกันฉันจะบอกว่ามันเป็นประมาณการที่สร้างขึ้นไม่ใช่ตัวประมาณซึ่งเป็นวิธีที่ใช้ในการสร้างพวกเขา
นิคค็อกซ์

แต่ทำไมเราถึงดูแผนภูมิที่เหลือ (เทียบกับพอดี)? พล็อตนั้นมีวัตถุประสงค์ในการวินิจฉัยอะไร ฉันยังใหม่กับไซต์ ฉันต้องติดแท็ก Michael หรือเขาได้รับความคิดเห็นนี้โดยอัตโนมัติหรือไม่? ความคิดเห็นของฉันจะใช้กับ @Glen_b คำตอบด้านล่าง คำตอบทั้งสองช่วยฉันในการทำความเข้าใจ ขอบคุณ
Mac

... เพราะพวกเขาอาจเปิดเผยโครงสร้างอื่น ๆ การขาดความสัมพันธ์ระหว่างส่วนที่เหลือและความพอดีไม่ได้หมายความว่าสิ่งอื่นไม่สามารถเกิดขึ้นได้เช่นกัน หากคุณเชื่อว่าแบบจำลองของคุณสมบูรณ์แบบคุณจะไม่เชื่อว่าเป็นไปได้ .... ในทางปฏิบัติคุณต้องตรวจสอบโครงสร้างประเภทอื่น ๆ
Nick Cox

@Mac ฉันจะซื่อสัตย์และพูดว่าฉันไม่เคยดูแปลงเหล่านี้ หากคุณกำลังพยายามหาข้อสรุปเชิงสาเหตุคุณควรคิดถึงปัญหาเกี่ยวกับตัวแปรที่ถูกละเว้นและปัญหาเชิงย้อนกลับของแนวคิด อาจเกิดปัญหาอย่างใดอย่างหนึ่งและคุณจะไม่สามารถที่จะมองด้วยตาเปล่าจากแปลงเหล่านี้เนื่องจากเป็นปัญหาของความเท่าเทียมเชิงสังเกต หากสิ่งที่คุณใส่ใจคือการคาดการณ์คุณควรคิดและทดสอบตัวอย่างการคาดการณ์ของแบบจำลองของคุณทำได้ดีเพียงใด (มิฉะนั้นเป็นการคาดการณ์)
Michael

@NickCox ใช่ฉันหมายถึงข้อความแสดงข้อผิดพลาดตามที่ประมาณการโดยโมเดลไม่ใช่ค่าที่แท้จริงของพารามิเตอร์
Michael

20

ข้อเท็จจริงสองข้อที่ฉันคิดว่าคุณมีความสุขกับฉันเพียงแค่ระบุว่า:

Yผม=Y^ผม+อี^ผม

Cov(Y^ผม,อี^ผม)=0

แล้ว:

Cov(Yผม,อี^ผม)=Cov(Y^ผม+อี^ผม,อี^ผม)

=Cov(Y^ผม,อี^ผม)+Cov(อี^ผม,อี^ผม)

=0+σอี2

=σอี2

ดังนั้นในขณะที่ค่าติดตั้งไม่มีความสัมพันธ์กับที่เหลือสังเกตคือ

ในความเป็นจริงนี้เป็นเพราะทั้งการสังเกตและที่เหลือมีความเกี่ยวข้องกับข้อผิดพลาด

ซึ่งมักทำให้ยากต่อการใช้พล็อตที่เหลือเพื่อการวินิจฉัย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.