เมื่อใดที่สี่เหลี่ยมจัตุรัสน้อยสุดเป็นความคิดที่ไม่ดี


11

ถ้าฉันมีรูปแบบการถดถอย:

Y=Xβ+ε
โดยที่ V[ε]=IdRn×n และE[ε]=(0,,0) ,

เมื่อจะใช้βOLS , สามัญสี่เหลี่ยมน้อยประมาณการของβเป็นทางเลือกที่ดีสำหรับการประมาณการ?

ฉันกำลังพยายามหาตัวอย่างว่ากำลังสองน้อยที่สุดทำงานได้ไม่ดี ดังนั้นฉันกำลังมองหาการกระจายของข้อผิดพลาดที่เป็นไปตามสมมติฐานก่อนหน้า แต่ให้ผลลัพธ์ที่ไม่ดี หากครอบครัวของการกระจายจะถูกกำหนดโดยค่าเฉลี่ยและความแปรปรวนที่จะดี ถ้าไม่มันก็โอเค

ฉันรู้ว่า "ผลลัพธ์ที่ไม่ดี" นั้นค่อนข้างคลุมเครือ แต่ฉันคิดว่าแนวคิดนี้เป็นที่เข้าใจได้

เพียงเพื่อหลีกเลี่ยงความสับสนฉันรู้ว่ากำลังสองน้อยที่สุดไม่เหมาะสมและมีตัวประมาณที่ดีกว่าเช่นการถดถอยสัน แต่นั่นไม่ใช่สิ่งที่ฉันตั้งใจ ฉันต้องการตัวอย่างว่ากำลังสองน้อยที่สุดจะผิดธรรมชาติ

ฉันสามารถจินตนาการถึงสิ่งต่าง ๆ เช่นข้อผิดพลาดเวกเตอร์ϵอาศัยอยู่ในภูมิภาคที่ไม่มีการนูนของRnแต่ฉันไม่แน่ใจเกี่ยวกับสิ่งนั้น

แก้ไข 1: เป็นแนวคิดที่จะช่วยให้คำตอบ (ซึ่งฉันไม่สามารถคิดวิธีการเพิ่มเติม) βOLSเป็นสีน้ำเงิน ดังนั้นมันอาจช่วยให้คิดได้ว่าเมื่อตัวประมาณค่าที่ไม่เอนเอียงเชิงเส้นจะไม่เป็นความคิดที่ดี

แก้ไข 2: ตามที่ไบรอันชี้ให้เห็นหากXXนั้นมีเงื่อนไขที่ไม่ดีดังนั้นβOLSเป็นความคิดที่ไม่ดีเพราะความแปรปรวนมีขนาดใหญ่เกินไปและควรใช้การถดถอยแบบริดจ์แทน ฉันสนใจมากขึ้นในการรู้ว่าการกระจายใดควรεเพื่อให้สี่เหลี่ยมน้อยทำงานได้ไม่ดี

βOLSβ+(XX)1Xεมีการแจกแจงที่มีค่าเฉลี่ยศูนย์และเมทริกซ์ความแปรปรวนเอกลักษณ์สำหรับεที่ทำให้ตัวประมาณนี้ไม่มีประสิทธิภาพหรือไม่?


1
ฉันไม่ต้องการที่จะฟังดูรุนแรง แต่ฉันไม่แน่ใจว่าสิ่งที่คุณต้องการ มีหลายวิธีที่บางสิ่งอาจเป็นทางเลือกที่ไม่ดี โดยปกติเราประเมินประมาณค่าในแง่ของสิ่งที่ต้องการอคติ , แปรปรวน , ความทนทานและประสิทธิภาพ เช่นที่คุณทราบว่า OLS ประมาณการคือBLUE
gung - Reinstate Monica

1
OTOH ความแปรปรวนอาจมีขนาดใหญ่จนไร้ประโยชน์ทำให้ค่าความแปรปรวนต่ำกว่า อีกตัวอย่างหนึ่งคือ OLS ใช้ข้อมูลทั้งหมดในข้อมูลของคุณอย่างเต็มที่ที่สุด แต่สิ่งนี้ทำให้ผู้ที่อยู่นอกระบบอ่อนแอ มีฟังก์ชั่นการสูญเสียทางเลือกมากมายที่มีความแข็งแกร่งมากกว่าในขณะที่พยายามรักษาประสิทธิภาพไว้ มันอาจจะชัดเจนขึ้นถ้าคุณสามารถกำหนดกรอบคำถามของคุณใหม่ในลักษณะเช่นนี้ ฉันไม่รู้ว่าการประมาณค่าเป็น "ผิดธรรมชาติ" หมายความว่าอย่างไร
gung - Reinstate Monica

ขอบคุณสำหรับความคิดเห็นของคุณมันทำให้ฉันตระหนักถึงความคลุมเครือของคำถาม ฉันหวังว่ามันชัดเจนขึ้นตอนนี้
มานูเอล

ดูการถดถอยในคำตอบนี้ กล่าวโดยย่อ: ผู้ผิดที่มีอิทธิพลอาจเป็นปัญหาได้
Glen_b -Reinstate Monica

คำตอบ:


8

คำตอบของ Brian Borchers ค่อนข้างดี --- ข้อมูลที่มีค่าผิดปกติมักไม่ได้รับการวิเคราะห์โดย OLS ฉันเพิ่งจะขยายเรื่องนี้โดยการเพิ่มรูปภาพ Monte Carlo และRโค้ดบางส่วน

พิจารณารูปแบบการถดถอยที่ง่ายมาก:

Yi=β1xi+ϵi ϵi={N(0,0.04)w.p.0.99931w.p.0.000531w.p.0.0005

รุ่นนี้สอดคล้องกับการตั้งค่าของคุณด้วยค่าสัมประสิทธิ์ความชัน 1

พล็อตที่แนบมาแสดงชุดข้อมูลซึ่งประกอบด้วยการสังเกต 100 ครั้งในโมเดลนี้โดยที่ตัวแปร x รันจาก 0 ถึง 1 ในชุดข้อมูลที่มีการพล็อตมีหนึ่งการดึงข้อผิดพลาดซึ่งเกิดขึ้นกับค่าที่ผิดพลาด (+31 ในกรณีนี้) . พล็อตก็คือเส้นการถดถอย OLS เป็นสีน้ำเงินและเส้นการถดถอยเบี่ยงเบนสัมบูรณ์สัมบูรณ์เป็นสีแดง สังเกตว่า OLS แต่ไม่ใช่ LAD จะถูกบิดเบือนโดยค่าเริ่มต้น:

OLS vs LAD มีค่าผิดปกติ

xϵR

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

ทั้ง OLS และ LAD สร้างตัวประมาณที่ไม่เอนเอียง (ความลาดชันโดยเฉลี่ยอยู่ที่ 1.00 มากกว่า 10,000 ซ้ำ) OLS สร้างตัวประมาณค่าด้วยค่าเบี่ยงเบนมาตรฐานที่สูงกว่ามากแม้ว่า 0.34 เทียบกับ 0.09 ดังนั้น OLS จึงไม่ดีที่สุด / มีประสิทธิภาพมากที่สุดในการประมาณที่ไม่เอนเอียงนี่ มันยังคงเป็นสีฟ้าแน่นอน แต่ LAD ไม่เชิงเส้นดังนั้นจึงไม่มีความขัดแย้ง สังเกตว่าข้อผิดพลาด wild ที่ OLS สามารถทำได้ในคอลัมน์ Min และ Max ไม่เช่นนั้น

นี่คือรหัส R สำหรับทั้งกราฟและ Monte Carlo:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)

@ มานูเอลขอบคุณ ฉันพบข้อผิดพลาดในโปรแกรม R ของฉัน --- มี 0.04 ซึ่งควรจะเป็น sqrt (0.04) มันไม่ได้เปลี่ยนแรงขับของคำตอบ มันสร้างความแตกต่างเล็กน้อยกับผลลัพธ์ อย่างไรก็ตามหากคุณคัดลอกรหัสมาก่อนคุณควรคัดลอกอีกครั้งทันที
Bill

7

ตัวอย่างหนึ่งจะเป็นที่ที่คุณไม่ต้องการประเมินค่าเฉลี่ย สิ่งนี้เกิดขึ้นในการทำงานที่ฉันเคยทำเมื่อเราประเมินจำนวนคู่นอนของคนที่มีเพศสัมพันธ์ซึ่งเป็นส่วนหนึ่งของแบบจำลองการแพร่กระจายของเอชไอวี / เอดส์ มีความสนใจมากขึ้นในการกระจาย: ผู้คนที่มีพันธมิตรมากมาย

ในกรณีนี้คุณอาจต้องการควอไทล์ถดถอย ในความคิดของฉัน


β

Y

ใช่ฉันหมายถึงค่าเฉลี่ยของ Y นั่นคือความถดถอยของ OLS
Peter Flom

(xa)2+(xb)2L1

6

X

ϵ

ϵβ


ε

1
นอกจากนี้ Gauss-Markov ยังให้ความมั่นใจว่ากำลังสองน้อยที่สุดเป็นค่าความแปรปรวนขั้นต่ำแบบไม่เอนเอียงในกลุ่มเชิงเส้น อาจเป็นตัวประมาณเชิงเส้นซึ่งไม่สามารถ reazonable สำหรับการแจกแจงบางประเภท นั่นคือสิ่งที่ฉันต้องการจะเข้าใจ
Manuel

ϵi=0ϵi=1000.00005ϵi=1000.00005X=Iβϵ

X=1β=0β^

ฉันเชื่อว่าความคิดเห็นที่สองของคุณคือสิ่งที่ฉันกำลังมองหา มันเป็นสิ่งที่ทำให้ฉันมีโอกาสน้อยที่จะเกิดขึ้น นอกจากนี้จากตัวอย่างนั้นมันค่อนข้างชัดเจนว่าจะสร้างตัวประมาณที่ดีขึ้นอย่างไรเมื่อทราบการกระจายข้อผิดพลาด
Manuel
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.