การตีความของ betas เมื่อมีหลายตัวแปรเด็ดขาด

ผมเข้าใจแนวคิดที่ว่าเป็นค่าเฉลี่ยสำหรับเมื่อตัวแปรเด็ดขาดจะมีค่าเท่ากับ 0 (หรือกลุ่มอ้างอิง) ทำให้การตีความท้ายว่าค่าสัมประสิทธิ์การถดถอยคือความแตกต่างในค่าเฉลี่ยของทั้งสองประเภท ถึงแม้จะมี> 2 ประเภทฉันจะถือว่าแต่ละอธิบายความแตกต่างระหว่างของประเภทที่ค่าเฉลี่ยและการอ้างอิง $\hat\beta_0$ $\hat\beta$

แต่จะเกิดอะไรขึ้นถ้ามีตัวแปรเพิ่มเติมเข้ามาในโมเดลหลายตัวแปร? ตอนนี้การสกัดกั้นหมายความว่าอะไรมันไม่สมเหตุสมผลที่จะเป็นค่าเฉลี่ยสำหรับการอ้างอิงของตัวแปรเด็ดขาดสองอัน ตัวอย่างเช่นหากเพศ (M (ref) / F) และ Race (white (ref) / black) ทั้งคู่อยู่ในแบบจำลอง เป็นค่าเฉลี่ยสำหรับผู้ชายสีขาวเท่านั้น? เราตีความความเป็นไปได้อื่น ๆ อย่างไร $\hat\beta_0$

ในฐานะที่เป็นข้อความแยกต่างหาก: คำสั่งที่ตรงกันข้ามนั้นทำหน้าที่เป็นวิธีในการตรวจสอบการดัดแปลงเอฟเฟกต์หรือไม่? หรือเพียงแค่เห็นเอฟเฟกต์ ( ) ในระดับที่ต่างกัน $\hat\beta$

— Renee
แหล่งที่มา

ในฐานะที่เป็นคำศัพท์ "multivariate" หมายถึงตัวแปรตอบสนองหลายตัวไม่ใช่ตัวแปรทำนายหลายตัว (ดูที่นี่ ) นอกจากนี้ฉันไม่ปฏิบัติตามคำถามสุดท้ายของคุณ

— gung - Reinstate Monica

ขอบคุณสำหรับคำชี้แจงนี้ การเข้าใจภาษาให้ถูกต้องเป็นสิ่งสำคัญสำหรับฉัน! ฉันคิดว่าฉันไม่สามารถเข้าใจได้ว่าทำไมจึงใช้คำสั่งที่ขัดแย้งกันเพราะคนหนึ่งสามารถตั้งค่าตัวแปรอ้างอิงให้กับสิ่งที่ตรงกันข้ามกับ?

— Renee

ฉันเดาว่าคุณคงสามารถปรับโมเดลให้สอดคล้องกับระดับการอ้างอิงที่แตกต่างกัน ฉันไม่แน่ใจว่าสะดวกกว่า ด้วยความแตกต่างคุณสามารถระบุชุดของความแตกต่างมุมฉากหรือความคมชัดโดยนัยในทางทฤษฎี (การรวมกันของ B&C) เพื่อทดสอบ

— gung - Reinstate Monica

คำตอบ:

คุณมีความถูกต้องเกี่ยวกับการตีความของ betas เมื่อมีตัวแปรเด็ดขาดเดียวที่มีระดับ $k$ ถ้ามีหลายตัวแปรเด็ดขาด (และไม่มีระยะปฏิสัมพันธ์) ตัด ( ) เป็นค่าเฉลี่ยของกลุ่มที่ถือว่าเป็นระดับอ้างอิงสำหรับทั้งสอง (ทั้งหมด) ตัวแปรเด็ดขาด ใช้สถานการณ์ตัวอย่างของคุณพิจารณากรณีที่ไม่มีการโต้ตอบจากนั้น betas คือ: $\hat\beta_0$

$\hat\beta_0$ : ค่าเฉลี่ยของเพศชายสีขาว
$\hat\beta_{\rm Female}$ คือความแตกต่างระหว่างค่าเฉลี่ยของเพศหญิงและค่าเฉลี่ยของเพศชาย
$\hat\beta_{\rm Black}$ คือความแตกต่างระหว่างค่าเฉลี่ยของคนผิวดำและผิวขาวเฉลี่ยของ

นอกจากนี้เรายังสามารถคิดถึงเรื่องนี้ในแง่ของวิธีการคำนวณกลุ่มต่างๆหมายถึง:

\begin{aligned} {\bar{x}}_{W h i t e M a l e s} & = {\hat{β}}_{0} \\ {\bar{x}}_{W h i t e F e m a ล. อี s} & = {\hat{β}}_{0} + {\hat{β}}_{F อี ม. a ล. อี} \\ {\bar{x}}_{B ล. a ค k M a ล. อี s} & = {\hat{β}}_{0} + {\hat{β}}_{B ล. a ค k} \\ {\bar{x}}_{B ล. a ค k F อี ม. a ล. อี s} & = {\hat{β}}_{0} + {\hat{β}}_{F อี ม. a ล. อี} + {\hat{β}}_{B ล. a ค k} \end{aligned}

$\begin{align} &\bar x_{\rm White\ Males}& &= \hat\beta_0 \\ &\bar x_{\rm White\ Females}& &= \hat\beta_0 + \hat\beta_{\rm Female} \\ &\bar x_{\rm Black\ Males}& &= \hat\beta_0 + \hat\beta_{\rm Black} \\ &\bar x_{\rm Black\ Females}& &= \hat\beta_0 + \hat\beta_{\rm Female} + \hat\beta_{\rm Black} \end{align}$

หากคุณมีคำศัพท์โต้ตอบมันจะถูกเพิ่มเข้ามาในตอนท้ายของสมการสำหรับผู้หญิงผิวดำ (การตีความคำศัพท์ที่มีปฏิสัมพันธ์เช่นนี้ค่อนข้างซับซ้อน แต่ฉันก็ผ่านมันมาที่นี่: การตีความคำศัพท์ที่มีปฏิสัมพันธ์ )

ปรับปรุงRชี้แจงจุดของฉันให้พิจารณาตัวอย่างกระป๋องเขียนใน

d = data.frame(Sex  =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
               Race =factor(rep(c("White","Black"),each=2),  levels=c("White","Black")),
               y    =c(1, 3, 5, 7))
d
#      Sex  Race y
# 1   Male White 1
# 2 Female White 3
# 3   Male Black 5
# 4 Female Black 7

ป้อนคำอธิบายรูปภาพที่นี่

วิธีการของyตัวแปรเด็ดขาดเหล่านี้คือ:

aggregate(y~Sex,  d, mean)
#      Sex y
# 1   Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
#    Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4

เราสามารถเปรียบเทียบความแตกต่างระหว่างค่าเฉลี่ยเหล่านี้กับค่าสัมประสิทธิ์จากโมเดลที่ได้รับการติดตั้ง:

summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)        1   3.85e-16 2.60e+15  2.4e-16 ***
# SexFemale          2   4.44e-16 4.50e+15  < 2e-16 ***
# RaceBlack          4   4.44e-16 9.01e+15  < 2e-16 ***
# ...
# Warning message:
#   In summary.lm(lm(y ~ Sex + Race, d)) :
#   essentially perfect fit: summary may be unreliable

สิ่งที่ต้องจดจำเกี่ยวกับสถานการณ์นี้คือถ้าไม่มีคำที่ใช้โต้ตอบกันเราจะถือว่าเป็นเส้นขนาน ดังนั้นEstimateสำหรับ(Intercept)คือค่าเฉลี่ยของเพศชายสีขาว EstimateสำหรับSexFemaleความแตกต่างระหว่างค่าเฉลี่ยของเพศหญิงและค่าเฉลี่ยของเพศชาย EstimateสำหรับRaceBlackความแตกต่างระหว่างค่าเฉลี่ยของคนผิวดำและค่าเฉลี่ยของคนผิวขาว อีกครั้งเนื่องจากแบบจำลองที่ไม่มีคำว่าการโต้ตอบถือว่าผลเป็นสารเติมแต่งอย่างเคร่งครัด (เส้นขนานอย่างเคร่งครัด) ค่าเฉลี่ยของเพศหญิงผิวดำจึงเป็นค่าเฉลี่ยของเพศชายผิวขาวบวกกับความแตกต่างระหว่างค่าเฉลี่ยของเพศหญิงและค่าเฉลี่ยของเพศชาย ความแตกต่างระหว่างค่าเฉลี่ยของคนผิวดำและค่าเฉลี่ยของคนผิวขาว

— gung - Reinstate Monica
แหล่งที่มา

ขอขอบคุณ! ชัดเจน & เป็นประโยชน์มาก ในตอนท้ายคุณพูดถึงข้อกำหนดในการโต้ตอบ ถ้ามีใครซักคนมีปฏิสัมพันธ์กันแล้วสิ่งนี้จะเปลี่ยนแปลง betas ได้อย่างไร (หมายถึง betas ใหม่จากรูปแบบของคำว่าปฏิสัมพันธ์)? ฉันรู้ว่าค่า p สำหรับคำศัพท์การโต้ตอบมีความสำคัญ แต่คำศัพท์สำหรับการโต้ตอบมีการตีความที่มีความหมายหรือไม่ ขอบคุณอีกครั้งสำหรับความช่วยเหลือของคุณ!

— Renee

{\hat{β}}_{F e m a l e}

$\hat\beta_{\rm Female}$

{\bar{x}}_{W h i t e M a l e}

$\bar x_{\rm White\ Male}$

{\bar{x}}_{W h i t e F e m a l e}

$\bar x_{\rm White\ Female}$

มีเหตุผล. ขอขอบคุณ! & มันจะถูกเปลี่ยนจากแบบจำลองโดยไม่มีการโต้ตอบเนื่องจากคำการโต้ตอบช่วยแก้ไขผลกระทบหลัก? หมายความว่าถ้าไม่มีปฏิสัมพันธ์คำที่มีผลกระทบทางทฤษฎีจะเหมือนกันหรือไม่?

— Renee

หากเอฟเฟกต์การโต้ตอบมีค่าเท่ากับ 0 (ถึงทศนิยมตำแหน่งไม่ จำกัด ) ไม่เพียง แต่ในประชากรเท่านั้น แต่ยังอยู่ในตัวอย่างของคุณเบตาเอฟเฟกต์หลักจะเหมือนกันในรูปแบบที่มีหรือไม่มีเงื่อนไขการโต้ตอบ

— gung - Reinstate Monica

@ hans0l0 นั่นคงจะดีกว่าเป็นคำถามใหม่แทนที่จะเป็นข้อมูลที่ฝังอยู่ในความคิดเห็น คุณสามารถเชื่อมโยงไปยังสิ่งนี้สำหรับบริบท สั้น ๆ มันเป็นค่าเฉลี่ยของระดับการอ้างอิงเมื่อตัวแปรต่อเนื่องทั้งหมดเป็น = 0

— gung - Reinstate Monica

$\hat{\beta}_0$ $\hat\beta$ มีความแตกต่างระหว่างค่าเฉลี่ยของระดับของการที่ หมวดหมู่และค่าเฉลี่ยของการอ้างอิง

หากเราขยายตัวอย่างของคุณให้ครอบคลุมระดับที่สามในหมวดการแข่งขัน (พูดภาษาเอเชีย ) และเลือกสีขาวเป็นข้อมูลอ้างอิงคุณจะมี:

$\hat{\beta}_0 = \bar{x}_{White}$
$\hat{\beta}_{Black} = \bar{x}_{Black} - \bar{x}_{White}$
$\hat{\beta}_{Asian} = \bar{x}_{Asian} - \bar{x}_{White}$

$\hat{\beta}$

$\bar{x}_{Asian} = \hat{\beta}_{Asian} + \hat{\beta}_0$

น่าเสียดายที่ในกรณีของตัวแปรเด็ดขาดหลายประเภทการตีความที่ถูกต้องสำหรับการสกัดกั้นนั้นไม่ชัดเจนอีกต่อไป (ดูหมายเหตุท้าย) เมื่อมีหมวดหมู่nหมวดหมู่ที่มีหลายระดับและระดับการอ้างอิงหนึ่งระดับ (เช่นสีขาวและชายในตัวอย่างของคุณ) รูปแบบทั่วไปสำหรับการสกัดกั้นคือ:

{\hat{β}}_{0} = \sum_{i = 1}^{n} {\bar{x}}_{r e f e r e n c e, i} - (n - 1) \bar{x},

$\hat{\beta}_0 =∑_{i=1}^{n}\bar{x}_{reference,i} -(n-1) \bar{x} ,$ where

{\bar{x}}_{r e f e r e n c e, i} is the mean of the reference level of the i-th categorical variable,

$\bar{x}_{reference,i}\small{\text{ is the mean of the reference level of the i-th categorical variable,}}$

\bar{x} is the mean of the whole data set

$\bar{x}\small{\text{ is the mean of the whole data set}}$

The other $\hat\beta$ are the same as with a single category: they are the difference between the mean of that level of the category and the mean of the reference level of the same category.

If we go back to your example, we would get:

$\hat{\beta}_0 = \bar{x}_{White} + \bar{x}_{Male} - \bar{x}$
$\hat{\beta}_{Black} = \bar{x}_{Black} - \bar{x}_{White}$
$\hat{\beta}_{Asian} = \bar{x}_{Asian} - \bar{x}_{White}$
$\hat{\beta}_{Female} = \bar{x}_{Female} - \bar{x}_{Male}$

You will notice that the mean of the cross categories (e.g. White males) are not present in any of the $\hat\beta$ . As a matter of fact, you cannot calculate these means precisely from the results of this type of regression.

The reason for this is that, the number of predictor variables (i.e. the $\hat\beta$ ) มีขนาดเล็กกว่าดังนั้นจำนวนหมวดหมู่ไขว้ (ตราบใดที่คุณมีมากกว่า 1 หมวดหมู่) ดังนั้นจึงเป็นไปไม่ได้ หากเรากลับไปที่ตัวอย่างของคุณจำนวนผู้ทำนายคือ 4 (เช่น $\hat{\beta}_0, ~\hat{\beta}_{Black}, ~\hat{\beta}_{Asian}$ และ $\hat{\beta}_{Female}$ ) ในขณะที่จำนวนหมวดหมู่ข้ามคือ 6

ตัวอย่างตัวเลข

ให้ฉันยืมจาก @Gung เพื่อเป็นตัวอย่างตัวเลข:

d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
    Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
    y    =c(0, 3, 7, 8, 9, 10))
d

#      Sex  Race  y
# 1   Male White  0
# 2 Female White  3
# 3   Male Black  7
# 4 Female Black  8
# 5   Male Asian  9
# 6 Female Asian 10

ในกรณีนี้ค่าเฉลี่ยต่างๆที่จะไปในการคำนวณของ $\hat\beta$ คือ:

aggregate(y~1,  d, mean)

#          y
# 1 6.166667

aggregate(y~Sex,  d, mean)

#      Sex        y
# 1   Male 5.333333
# 2 Female 7.000000

aggregate(y~Race, d, mean)

#    Race   y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5

เราสามารถเปรียบเทียบตัวเลขเหล่านี้กับผลลัพธ์ของการถดถอยได้:

summary(lm(y~Sex+Race, d))

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)   0.6667     0.6667   1.000   0.4226
# SexFemale     1.6667     0.6667   2.500   0.1296
# RaceBlack     6.0000     0.8165   7.348   0.0180
# RaceAsian     8.0000     0.8165   9.798   0.0103

อย่างที่คุณเห็นต่าง ๆ $\hat\beta$ ประมาณจากการถดถอยทั้งหมดสอดคล้องกับสูตรที่ระบุด้านบน ตัวอย่างเช่น, $\hat\beta_0$ มอบให้โดย:

{\hat{β}}_{0} = {\bar{x}}_{W h i t e} + {\bar{x}}_{M a l e} - \bar{x}

$\hat{\beta}_0 = \bar{x}_{White} + \bar{x}_{Male} - \bar{x}$ Which gives:

1.5 + 5.333333 - 6.166667
# 0.66666

Note on the choice of contrast

A final note on this topic, all the results discussed above relate to categorical regressions using contrast treatment (the default type of contrast in R). There are different types of contrast which could be used (notably Helmert and sum) and and it would change the interpretation of the various $\hat\beta$ . However, It would not change the final predictions from the regressions (e.g. the prediction for White males is always the same no matter which type of contrast you use).

My personal favourite is contrast sum as I feel that the interpretation of the $\hat\beta^{contr.sum}$ generalises better when there are multiple categories. For this type of contrast, there is no reference level, or rather the reference is the mean of the whole sample, and you have the following $\hat\beta^{contr.sum}$ :

$\hat\beta_0^{contr.sum}=\bar{x}$
$\hat\beta_i^{contr.sum}=\bar{x}_i-\bar{x}$

If we go back to the previous example, you would have:

$\hat{\beta}_0^{contr.sum} = \bar{x}$
$\hat{\beta}_{White}^{contr.sum} = \bar{x}_{White} - \bar{x}$
$\hat{\beta}_{Black}^{contr.sum} = \bar{x}_{Black} - \bar{x}$
$\hat{\beta}_{Asian}^{contr.sum} = \bar{x}_{Asian} - \bar{x}$
$\hat{\beta}_{Male}^{contr.sum} = \bar{x}_{Male} - \bar{x}$
$\hat{\beta}_{Female}^{contr.sum} = \bar{x}_{Female} - \bar{x}$

คุณจะสังเกตเห็นว่าเนื่องจากWhiteและMaleไม่ใช่ระดับการอ้างอิงอีกต่อไป $\hat\beta^{contr.sum}$ ไม่มี 0 อีกต่อไปความจริงที่ว่าสิ่งเหล่านี้เป็น 0 เฉพาะการรักษาความคมชัด

— GL
แหล่งที่มา