เมื่อใดที่สี่เหลี่ยมจัตุรัสน้อยสุดเป็นความคิดที่ไม่ดี

ถ้าฉันมีรูปแบบการถดถอย:

Y = X β + ε

$Y = X\beta + \varepsilon$ โดยที่

V [ε] = I d \in R^{n \times n}

$\mathbb{V}[\varepsilon] = Id \in \mathcal{R} ^{n \times n}$ และ

E [ε] = (0, \dots, 0)

$\mathbb{E}[\varepsilon]=(0, \ldots , 0)$ ,

เมื่อจะใช้ $\beta_{\text{OLS}}$ , สามัญสี่เหลี่ยมน้อยประมาณการของ $\beta$ เป็นทางเลือกที่ดีสำหรับการประมาณการ?

ฉันกำลังพยายามหาตัวอย่างว่ากำลังสองน้อยที่สุดทำงานได้ไม่ดี ดังนั้นฉันกำลังมองหาการกระจายของข้อผิดพลาดที่เป็นไปตามสมมติฐานก่อนหน้า แต่ให้ผลลัพธ์ที่ไม่ดี หากครอบครัวของการกระจายจะถูกกำหนดโดยค่าเฉลี่ยและความแปรปรวนที่จะดี ถ้าไม่มันก็โอเค

ฉันรู้ว่า "ผลลัพธ์ที่ไม่ดี" นั้นค่อนข้างคลุมเครือ แต่ฉันคิดว่าแนวคิดนี้เป็นที่เข้าใจได้

เพียงเพื่อหลีกเลี่ยงความสับสนฉันรู้ว่ากำลังสองน้อยที่สุดไม่เหมาะสมและมีตัวประมาณที่ดีกว่าเช่นการถดถอยสัน แต่นั่นไม่ใช่สิ่งที่ฉันตั้งใจ ฉันต้องการตัวอย่างว่ากำลังสองน้อยที่สุดจะผิดธรรมชาติ

ฉันสามารถจินตนาการถึงสิ่งต่าง ๆ เช่นข้อผิดพลาดเวกเตอร์ $\epsilon$ อาศัยอยู่ในภูมิภาคที่ไม่มีการนูนของ $\mathbb{R}^n$ แต่ฉันไม่แน่ใจเกี่ยวกับสิ่งนั้น

แก้ไข 1: เป็นแนวคิดที่จะช่วยให้คำตอบ (ซึ่งฉันไม่สามารถคิดวิธีการเพิ่มเติม) $\beta_{\text{OLS}}$ เป็นสีน้ำเงิน ดังนั้นมันอาจช่วยให้คิดได้ว่าเมื่อตัวประมาณค่าที่ไม่เอนเอียงเชิงเส้นจะไม่เป็นความคิดที่ดี

แก้ไข 2: ตามที่ไบรอันชี้ให้เห็นหาก $XX'$ นั้นมีเงื่อนไขที่ไม่ดีดังนั้น $\beta_{\text{OLS}}$ เป็นความคิดที่ไม่ดีเพราะความแปรปรวนมีขนาดใหญ่เกินไปและควรใช้การถดถอยแบบริดจ์แทน ฉันสนใจมากขึ้นในการรู้ว่าการกระจายใดควร $\varepsilon$ เพื่อให้สี่เหลี่ยมน้อยทำงานได้ไม่ดี

$\beta_{\text{OLS}} \sim \beta+(X'X)^{-1}X'\varepsilon$ มีการแจกแจงที่มีค่าเฉลี่ยศูนย์และเมทริกซ์ความแปรปรวนเอกลักษณ์สำหรับ $\varepsilon$ ที่ทำให้ตัวประมาณนี้ไม่มีประสิทธิภาพหรือไม่?

regression distributions least-squares

— มานูเอล
แหล่งที่มา

ฉันไม่ต้องการที่จะฟังดูรุนแรง แต่ฉันไม่แน่ใจว่าสิ่งที่คุณต้องการ มีหลายวิธีที่บางสิ่งอาจเป็นทางเลือกที่ไม่ดี โดยปกติเราประเมินประมาณค่าในแง่ของสิ่งที่ต้องการอคติ , แปรปรวน , ความทนทานและประสิทธิภาพ เช่นที่คุณทราบว่า OLS ประมาณการคือBLUE

— gung - Reinstate Monica

OTOH ความแปรปรวนอาจมีขนาดใหญ่จนไร้ประโยชน์ทำให้ค่าความแปรปรวนต่ำกว่า อีกตัวอย่างหนึ่งคือ OLS ใช้ข้อมูลทั้งหมดในข้อมูลของคุณอย่างเต็มที่ที่สุด แต่สิ่งนี้ทำให้ผู้ที่อยู่นอกระบบอ่อนแอ มีฟังก์ชั่นการสูญเสียทางเลือกมากมายที่มีความแข็งแกร่งมากกว่าในขณะที่พยายามรักษาประสิทธิภาพไว้ มันอาจจะชัดเจนขึ้นถ้าคุณสามารถกำหนดกรอบคำถามของคุณใหม่ในลักษณะเช่นนี้ ฉันไม่รู้ว่าการประมาณค่าเป็น "ผิดธรรมชาติ" หมายความว่าอย่างไร

— gung - Reinstate Monica

ขอบคุณสำหรับความคิดเห็นของคุณมันทำให้ฉันตระหนักถึงความคลุมเครือของคำถาม ฉันหวังว่ามันชัดเจนขึ้นตอนนี้

— มานูเอล

ดูการถดถอยในคำตอบนี้ กล่าวโดยย่อ: ผู้ผิดที่มีอิทธิพลอาจเป็นปัญหาได้

— Glen_b -Reinstate Monica

คำตอบ:

คำตอบของ Brian Borchers ค่อนข้างดี --- ข้อมูลที่มีค่าผิดปกติมักไม่ได้รับการวิเคราะห์โดย OLS ฉันเพิ่งจะขยายเรื่องนี้โดยการเพิ่มรูปภาพ Monte Carlo และRโค้ดบางส่วน

พิจารณารูปแบบการถดถอยที่ง่ายมาก:

\begin{aligned} Y_{i} & = β_{1} x_{i} + ϵ_{i} \\ ϵ_{i} & = {\begin{array}{rcl} N (0, 0.04) & w . p . & 0.999 \\ 31 & w . p . & 0.0005 \\ - 31 & w . p . & 0.0005 \end{array} \end{aligned}

$\begin{align} Y_i &= \beta_1 x_i + \epsilon_i\\~\\ \epsilon_i &= \left\{\begin{array}{rcl} N(0,0.04) &w.p. &0.999\\ 31 &w.p. &0.0005\\ -31 &w.p. &0.0005 \end{array} \right. \end{align}$

รุ่นนี้สอดคล้องกับการตั้งค่าของคุณด้วยค่าสัมประสิทธิ์ความชัน 1

พล็อตที่แนบมาแสดงชุดข้อมูลซึ่งประกอบด้วยการสังเกต 100 ครั้งในโมเดลนี้โดยที่ตัวแปร x รันจาก 0 ถึง 1 ในชุดข้อมูลที่มีการพล็อตมีหนึ่งการดึงข้อผิดพลาดซึ่งเกิดขึ้นกับค่าที่ผิดพลาด (+31 ในกรณีนี้) . พล็อตก็คือเส้นการถดถอย OLS เป็นสีน้ำเงินและเส้นการถดถอยเบี่ยงเบนสัมบูรณ์สัมบูรณ์เป็นสีแดง สังเกตว่า OLS แต่ไม่ใช่ LAD จะถูกบิดเบือนโดยค่าเริ่มต้น:

OLS vs LAD มีค่าผิดปกติ

$x$ $\epsilon$ R

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

ทั้ง OLS และ LAD สร้างตัวประมาณที่ไม่เอนเอียง (ความลาดชันโดยเฉลี่ยอยู่ที่ 1.00 มากกว่า 10,000 ซ้ำ) OLS สร้างตัวประมาณค่าด้วยค่าเบี่ยงเบนมาตรฐานที่สูงกว่ามากแม้ว่า 0.34 เทียบกับ 0.09 ดังนั้น OLS จึงไม่ดีที่สุด / มีประสิทธิภาพมากที่สุดในการประมาณที่ไม่เอนเอียงนี่ มันยังคงเป็นสีฟ้าแน่นอน แต่ LAD ไม่เชิงเส้นดังนั้นจึงไม่มีความขัดแย้ง สังเกตว่าข้อผิดพลาด wild ที่ OLS สามารถทำได้ในคอลัมน์ Min และ Max ไม่เช่นนั้น

นี่คือรหัส R สำหรับทั้งกราฟและ Monte Carlo:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)

— บิล
แหล่งที่มา

@ มานูเอลขอบคุณ ฉันพบข้อผิดพลาดในโปรแกรม R ของฉัน --- มี 0.04 ซึ่งควรจะเป็น sqrt (0.04) มันไม่ได้เปลี่ยนแรงขับของคำตอบ มันสร้างความแตกต่างเล็กน้อยกับผลลัพธ์ อย่างไรก็ตามหากคุณคัดลอกรหัสมาก่อนคุณควรคัดลอกอีกครั้งทันที

— Bill

ตัวอย่างหนึ่งจะเป็นที่ที่คุณไม่ต้องการประเมินค่าเฉลี่ย สิ่งนี้เกิดขึ้นในการทำงานที่ฉันเคยทำเมื่อเราประเมินจำนวนคู่นอนของคนที่มีเพศสัมพันธ์ซึ่งเป็นส่วนหนึ่งของแบบจำลองการแพร่กระจายของเอชไอวี / เอดส์ มีความสนใจมากขึ้นในการกระจาย: ผู้คนที่มีพันธมิตรมากมาย

ในกรณีนี้คุณอาจต้องการควอไทล์ถดถอย ในความคิดของฉัน

— Peter Flom
แหล่งที่มา

β

$\beta$

Y

$Y$

ใช่ฉันหมายถึงค่าเฉลี่ยของ Y นั่นคือความถดถอยของ OLS

— Peter Flom

(x - a)^{2} + (x - b)^{2}

$(x-a)^{2}+(x-b)^{2}$

L_{1}

$L_{1}$

$X$

$\epsilon$

$\epsilon$ $\beta$

— Brian Borchers
แหล่งที่มา

ε

$\varepsilon$

นอกจากนี้ Gauss-Markov ยังให้ความมั่นใจว่ากำลังสองน้อยที่สุดเป็นค่าความแปรปรวนขั้นต่ำแบบไม่เอนเอียงในกลุ่มเชิงเส้น อาจเป็นตัวประมาณเชิงเส้นซึ่งไม่สามารถ reazonable สำหรับการแจกแจงบางประเภท นั่นคือสิ่งที่ฉันต้องการจะเข้าใจ

— Manuel

ϵ_{i} = 0

$\epsilon_{i}=0$

ϵ_{i} = 100

$\epsilon_{i}=100$

0.00005

$0.00005$

ϵ_{i} = - 100

$\epsilon_{i}=-100$

0.00005

$0.00005$

X = I

$X=I$

β

$\beta$

ϵ

$\epsilon$

X = 1

$X=1$

β = 0

$\beta=0$

\hat{β}

$\hat{\beta}$

ฉันเชื่อว่าความคิดเห็นที่สองของคุณคือสิ่งที่ฉันกำลังมองหา มันเป็นสิ่งที่ทำให้ฉันมีโอกาสน้อยที่จะเกิดขึ้น นอกจากนี้จากตัวอย่างนั้นมันค่อนข้างชัดเจนว่าจะสร้างตัวประมาณที่ดีขึ้นอย่างไรเมื่อทราบการกระจายข้อผิดพลาด

— Manuel