ละเว้นอคติของตัวแปรในการถดถอยโลจิสติกกับอคติของตัวแปรที่ละเว้นในการถดถอยกำลังสองน้อยสุดสามัญ

ฉันมีคำถามเกี่ยวกับการละเว้นความเอนเอียงของตัวแปรในการถดถอยโลจิสติกส์และเชิงเส้น

สมมติว่าฉันตัดตัวแปรบางตัวออกจากตัวแบบการถดถอยเชิงเส้น แกล้งทำเป็นว่าตัวแปรที่ละเว้นนั้นไม่สัมพันธ์กับตัวแปรที่รวมอยู่ในแบบจำลองของฉัน ตัวแปรที่ละเว้นเหล่านั้นไม่ได้ให้ค่าสัมประสิทธิ์ในแบบจำลองของฉัน

แต่ในการถดถอยโลจิสติกฉันเพิ่งรู้ว่านี่ไม่เป็นความจริง ตัวแปรที่ถูกละเว้นจะมีอคติกับค่าสัมประสิทธิ์ของตัวแปรที่รวมแม้ว่าตัวแปรที่ละเว้นจะไม่สัมพันธ์กับตัวแปรที่รวมอยู่ ฉันพบบทความในหัวข้อนี้ แต่ฉันไม่สามารถทำหัวหรือก้อยได้

นี่คือกระดาษและสไลด์ PowerPointบางอัน

อคตินั้นดูเหมือนจะเป็นศูนย์เสมอ มีใครอธิบายได้บ้างว่ามันทำงานอย่างไร?

— ConfusedEconometricsUndergrad
แหล่งที่มา

คุณคุ้นเคยกับรูปแบบการถดถอยโลจิสติกที่เกิดจากโมเดลการถดถอยเชิงเส้น "แฝงตัวแปร" พื้นฐานหรือไม่?

— Alecos Papadopoulos

@AlcosPapadopoulos ฉันเป็นหนึ่งไม่ได้ อาหารคืออะไร?

— อเล็กซิส

มีบทความอื่น ๆ ที่กล่าวถึงเรื่องนี้ แต่บทความที่คุณเชื่อมโยงไปนั้นเป็นวิธีที่ง่ายที่สุดที่ฉันรู้ ดังนั้นฉันไม่คิดว่าฉันจะสามารถปรับปรุงได้

— Maarten Buis

เรียนคุณ Papadopoulos: ฉันได้อ่านแนวคิดที่ซ่อนเร้น คุณถามทำไม?

— ConfusedEconometricsUndergrad

@ อเล็กซิสดูโพสต์เช่นนี้stats.stackexchange.com/questions/80611/...และบทความวิกิพีเดีย, en.wikipedia.org/wiki/... วิธีการนี้ให้ความกระจ่างด้วยว่ามันเป็นสมมติฐานที่เราทำกับข้อผิดพลาดของโมเดลต้นแบบที่กำหนดว่าเราจะได้รับโมเดลใดในระดับความน่าจะเป็น อีกตัวอย่างหนึ่งถ้าเราคิดว่าข้อผิดพลาดพื้นฐานนั้นมีลักษณะเหมือนกันเราจะได้แบบจำลองความน่าจะเป็นเชิงเส้นดู, stats.stackexchange.com/questions/81789

— Alecos Papadopoulos

กรณีของ "อคติการลดทอน" สามารถนำเสนอได้ชัดเจนยิ่งขึ้นถ้าเราตรวจสอบรูปแบบ "probit" - แต่ผลที่ได้จะนำไปสู่การถดถอยโลจิสติกด้วยเช่นกัน

ภายใต้โมเดลความน่าจะเป็นตามเงื่อนไข (Logistic (logit), "probit" และ "Linear Probability" รุ่น) เราสามารถกำหนดรูปแบบการถดถอยเชิงเส้นแฝง (ไม่สามารถสังเกตเห็นได้):

Y^{* * * *} = X β + ยู

$y^* = X\beta + u$

ที่เป็นตัวแปรสำรวจอย่างต่อเนื่อง (และเป็นเมทริกซ์ regressor) ที่ คำข้อผิดพลาดจะถือว่าเป็นอิสระจาก regressors และจะปฏิบัติตามการจัดจำหน่ายที่มีสมมาตรหนาแน่นรอบศูนย์และในกรณีของเราการกระจายปกติมาตรฐาน ) $y^*$ $X$ $F_U(u)= \Phi(u)$

เราคิดว่าสิ่งที่เราสังเกตคือตัวแปรไบนารีเป็นฟังก์ชั่นตัวชี้วัดของการสำรวจ : $y$ $y^*$

y = 1 if y^{*} > 0, y = 0 if y^{*} \leq 0

$y = 1 \;\;\text{if} \;\;y^*>0,\qquad y = 0 \;\;\text{if}\;\; y^*\le 0$

จากนั้นเราถาม "ความน่าจะเป็นที่จะรับค่าจาก regressors คืออะไร" (เช่นเรากำลังดูความน่าจะเป็นแบบมีเงื่อนไข) นี่คือ $y$ $1$

P (y = 1 ∣ X) = P (y^{*} > 0 ∣ X) = P (X β + u > 0 ∣ X) = P (u > - X β ∣ X) = 1 - Φ (- Χ β) = Φ (X β)

$P(y =1\mid X ) = P(y^*>0\mid X) = P(X\beta + u>0\mid X) = P(u> - X\beta\mid X) \\= 1- \Phi (-Χ\beta) = \Phi (X\beta)$

ความเท่าเทียมกันครั้งสุดท้ายเนื่องจากคุณสมบัติ "ไตร่ตรอง" ของฟังก์ชันการแจกแจงสะสมแบบมาตรฐานซึ่งมาจากสมมาตรของฟังก์ชันความหนาแน่นรอบศูนย์ โปรดทราบว่าแม้ว่าเราจะสันนิษฐานว่ามีความเป็นอิสระจากจำเป็นต้องใช้การ จำกัดบนเพื่อรักษาปริมาณเป็นแบบไม่สุ่ม $u$ $X$ $X$ $X\beta$

ถ้าเราสมมุติว่าเราก็จะได้แบบจำลองเชิงทฤษฎี $X\beta = b_0+b_1X_1 + b_2X_2$

\begin{matrix} (1) & P (Y = 1 | X) = Φ (ข_{0} + ข_{1} X_{1} + ข_{2} X_{2}) \end{matrix}

$P(y =1\mid X ) = \Phi (b_0+b_1X_1 + b_2X_2) \tag{1}$

ให้ตอนนี้เป็นอิสระจากและแยกออกจากสเปคของการถดถอยพื้นฐาน ดังนั้นเราจึงระบุ $X_2$ $X_1$

สมมติต่อไปว่ายังเป็นตัวแปรสุ่มปกติ )แต่นี่หมายความว่า

y^{*} = b_{0} + b_{1} X_{1} + ϵ

$y^* = b_0+b_1X_1 + \epsilon$

X_{2}

$X_2$

X_{2} \sim N (μ_{2}, σ_{2}^{2})

$X_2 \sim N(\mu_2,\sigma_2^2)$

ϵ = u + b_{2} X_{2} \sim N (b_{2} μ_{2}, 1 + b_{2}^{2} σ_{2}^{2})

$\epsilon = u + b_2X_2 \sim N(b_2\mu_2, 1+b_2^2\sigma_2^2)$

เนื่องจากการปิดภายใต้นอกเหนือจากการกระจายปกติ (และสมมติฐานที่เป็นอิสระ) ใช้ตรรกะเดียวกันกับที่นี่เรามี

P (y = 1 ∣ X_{1}) = P (y^{*} > 0 ∣ X_{1}) = P (b_{0} + b_{1} X_{1} + ϵ > 0 ∣ X_{1}) = P (ϵ > - b_{0} - b_{1} X_{1} ∣ X_{1})

$P(y =1\mid X_1 ) = P(y^*>0\mid X_1) = P(b_0+b_1X_1 + \epsilon>0\mid X_1) = P(\epsilon> - b_0-b_1X_1\mid X_1)$

$\epsilon$

P (y = 1 ∣ X_{1}) = 1 - P (\frac{ϵ - b_{2} μ_{2}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} \leq - \frac{(b_{0} + b_{2} μ_{2})}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} - \frac{b_{1}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} X_{1} ∣ X_{1})

$P(y =1\mid X_1 )= 1- P\left(\frac{\epsilon-b_2\mu_2}{\sqrt {1+b_2^2\sigma_2^2}}\leq - \frac {(b_0 + b_2\mu_2)}{\sqrt {1+b_2^2\sigma_2^2}}- \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}}X_1\mid X_1\right)$

\begin{matrix} (2) & \Rightarrow P (y = 1 ∣ X_{1}) = Φ (\frac{(b_{0} + b_{2} μ_{2})}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} + \frac{b_{1}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} X_{1}) \end{matrix}

$\Rightarrow P(y =1\mid X_1) = \Phi\left(\frac {(b_0 + b_2\mu_2)}{\sqrt {1+b_2^2\sigma_2^2}}+ \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}}X_1\right) \tag{2}$

and one can compare models $(1)$ and $(2)$ .

The above theoretical expression, tells us where our maximum likelihood estimator of $b_1$ is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):

{\hat{b}}_{1} \overset{p}{\to} \frac{b_{1}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} ⟹ | {\hat{b}}_{1} | < | b_{1} |

$\hat b_1 \xrightarrow{p} \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}} \implies |\hat b_1|< |b_1|$

which is the "bias towards zero" result.

We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of $\epsilon$ . The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).

— Alecos Papadopoulos
แหล่งที่มา