“ การควบคุมตัวแปรอื่น ๆ ” ได้อย่างไร?


141

นี่คือบทความที่กระตุ้นคำถามนี้: ความกระวนกระวายทำให้เราอ้วนหรือไม่?

ฉันชอบบทความนี้และแสดงให้เห็นอย่างชัดเจนถึงแนวคิดของ "การควบคุมตัวแปรอื่น ๆ " (IQ, อาชีพ, รายได้, อายุ, ฯลฯ ) เพื่อแยกความสัมพันธ์ที่แท้จริงระหว่างตัวแปร 2 ตัวที่มีปัญหา

คุณช่วยอธิบายให้ฉันฟังว่าคุณควบคุมตัวแปรในชุดข้อมูลทั่วไปได้อย่างไร?

เช่นหากคุณมี 2 คนที่มีระดับความอดทนและ BMI เหมือนกัน แต่มีรายได้ต่างกันคุณจะจัดการกับข้อมูลเหล่านี้อย่างไร คุณแบ่งกลุ่มพวกเขาออกเป็นกลุ่มย่อยต่าง ๆ ที่มีรายได้ความอดทนและค่าดัชนีมวลกายใกล้เคียงกันหรือไม่? แต่ท้ายที่สุดก็มีตัวแปรหลายสิบตัวที่จะควบคุม (IQ, อาชีพ, รายได้, อายุ, ฯลฯ ) จากนั้นคุณจะรวมกลุ่มย่อย 100 กลุ่มเหล่านี้ได้อย่างไร ในความเป็นจริงฉันมีความรู้สึกว่าวิธีนี้กำลังเห่าต้นไม้ที่ไม่ถูกต้องตอนนี้ที่ฉันพูดด้วยวาจาแล้ว

ขอบคุณที่ส่องแสงบางอย่างที่ฉันตั้งใจจะทำตอนนี้สองสามปีที่ผ่านมา ... !


3
Epi & Bernd ขอบคุณมากที่พยายามตอบคำถามนี้ น่าเสียดายที่คำตอบเหล่านี้เป็นก้าวกระโดดครั้งใหญ่จากคำถามของฉันและอยู่เหนือหัวของฉัน อาจเป็นเพราะฉันไม่มีประสบการณ์กับ R และเป็นเพียงแค่พื้นฐานสถิติพื้นฐาน 101 เช่นเดียวกับข้อเสนอแนะต่อการสอนของคุณเมื่อคุณแยกออกจากค่าดัชนีมวลกายอายุความอดทน ฯลฯ เพื่อ "covariate" et al คุณจะสูญเสียฉันโดยสิ้นเชิง การสร้างข้อมูลอัตโนมัติหลอกก็ไม่ได้มีประโยชน์ในการอธิบายแนวคิด ในความเป็นจริงมันทำให้แย่ลง เป็นการยากที่จะเรียนรู้ข้อมูลดัมมี่ที่ไม่มีความหมายโดยธรรมชาติเว้นแต่คุณจะรู้หลักการที่อธิบายไว้แล้ว (เช่น: ครูรู้ฉัน
JackOfAll

7
ขอบคุณที่ถามคำถามที่มีความสำคัญพื้นฐาน @JackOfAll - ไซต์จะไม่สมบูรณ์หากไม่มีคำถามตามบรรทัดเหล่านี้ - ฉัน 'ชื่นชอบ' ไซต์นี้ คำตอบที่นี่มีประโยชน์กับฉันมากและเห็นได้ชัดว่าคนอื่น ๆ จำนวนมากขึ้นอยู่กับจำนวนของ upvotes หากหลังจากไตร่ตรองสิ่งนี้คุณจะพบคำตอบที่เป็นประโยชน์ต่อตัวคุณเอง (หรือคำตอบของคำถามใด ๆของคุณ) ฉันขอแนะนำให้คุณใช้ upvotes ของคุณและยอมรับคำตอบหากคุณเห็นว่าชัดเจน ซึ่งสามารถทำได้โดยคลิกที่รูประฆังชี้ขึ้นด้านบนถัดจากคำตอบและเครื่องหมายถูกตามลำดับ
มาโคร

4
นี่ไม่ใช่คำตอบที่สมบูรณ์หรืออะไรทั้งสิ้น แต่ฉันคิดว่ามันคุ้มค่าที่จะอ่าน "ปล่อยให้ขยะ - กระป๋องถดถอยและขยะ - กระป๋อง Probits ที่พวกเขาอยู่" โดย Chris Achen (ลิงก์ PDF: http://qssi.psu.edu/files/Achen_GarbageCan.pdf ) สิ่งนี้ใช้ได้กับทั้งแบบเบย์และแบบอะคูสติกบ่อย การโยนคำศัพท์ในการตั้งค่าของคุณนั้นไม่เพียงพอที่จะ "ควบคุม" สำหรับเอฟเฟกต์ แต่น่าเศร้าที่นี่เป็นสิ่งที่ผ่านการควบคุมในวรรณคดีมากมาย
ely

9
คุณถาม " วิธีที่ซอฟต์แวร์คอมพิวเตอร์ควบคุมตัวแปรทั้งหมดในเวลาเดียวกัน ทางคณิตศาสตร์ " นอกจากนี้คุณยังพูดว่า "ฉันต้องการคำตอบที่ไม่เกี่ยวข้องกับสูตร" ฉันไม่เห็นว่ามันเป็นไปได้ที่จะทำทั้งสองอย่างในเวลาเดียวกัน อย่างน้อยก็ไม่มีความเสี่ยงร้ายแรงที่จะทำให้คุณมีสัญชาตญาณสมบูรณ์
Glen_b

2
ฉันประหลาดใจที่คำถามนี้ไม่ได้รับความสนใจมากขึ้น ฉันเห็นด้วยกับความคิดเห็นของ OP ว่าคำถามอื่น ๆ ในเว็บไซต์ไม่ครอบคลุมถึงปัญหาเฉพาะที่เกิดขึ้นที่นี่ @Jen คำตอบสั้น ๆ สำหรับคำถามที่สองของคุณคือการแปรสภาพโควาเรียร์หลาย ๆ อันนั้นเกิดขึ้นพร้อมกันและไม่ซ้ำตามที่คุณอธิบาย ตอนนี้ฉันจะคิดว่าคำตอบที่ละเอียดและใช้งานง่ายสำหรับคำถามเหล่านี้จะเป็นอย่างไร
Jake Westfall

คำตอบ:


124

มีหลายวิธีในการควบคุมตัวแปร

วิธีที่ง่ายที่สุดและที่คุณคิดขึ้นมาคือการแบ่งชั้นข้อมูลของคุณเพื่อให้คุณมีกลุ่มย่อยที่มีลักษณะคล้ายกัน - จากนั้นมีวิธีรวบรวมผลลัพธ์เหล่านั้นเข้าด้วยกันเพื่อให้ได้คำตอบเดียว วิธีนี้ใช้งานได้หากคุณมีตัวแปรจำนวนน้อยมากที่คุณต้องการควบคุม แต่เมื่อคุณค้นพบอย่างถูกต้องสิ่งนี้จะแตกสลายอย่างรวดเร็วเมื่อคุณแยกข้อมูลของคุณออกเป็นชิ้นเล็กลงและเล็กลง

วิธีการทั่วไปคือการรวมตัวแปรที่คุณต้องการควบคุมในรูปแบบการถดถอย ตัวอย่างเช่นหากคุณมีรูปแบบการถดถอยที่สามารถอธิบายแนวคิดเป็น:

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

ค่าประมาณที่คุณจะได้รับสำหรับความอดทนจะเป็นผลของความอดทนในระดับของ covariates อื่น ๆ - การถดถอยช่วยให้คุณสามารถปรับตามสถานที่ที่คุณไม่มีข้อมูลมาก (ปัญหาเกี่ยวกับวิธีการแบ่งชั้น) แต่สิ่งนี้ควรทำ ด้วยความระมัดระวัง

ยังมีวิธีการที่ซับซ้อนกว่าในการควบคุมตัวแปรอื่น ๆ แต่โอกาสก็คือเมื่อมีคนพูดว่า "ควบคุมตัวแปรอื่น ๆ " พวกเขาหมายถึงพวกเขารวมอยู่ในแบบจำลองการถดถอย

เอาล่ะคุณได้ขอตัวอย่างที่คุณสามารถใช้งานได้เพื่อดูว่ามันจะไปได้อย่างไร ฉันจะแนะนำคุณทีละขั้นตอน เพียงคุณมีสำเนา R ติดตั้ง

อันดับแรกเราต้องการข้อมูลบางอย่าง ตัดและวางโค้ดต่อไปนี้ลงใน R โปรดจำไว้ว่านี่เป็นตัวอย่างที่ฉันวางแผนไว้ แต่ก็แสดงให้เห็นถึงกระบวนการ

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

นั่นคือข้อมูลของคุณ โปรดทราบว่าเราทราบความสัมพันธ์ระหว่างผลลัพธ์การเปิดเผยและ covariate แล้ว - เป็นจุดของการศึกษาแบบจำลองจำนวนมาก (ซึ่งเป็นตัวอย่างขั้นพื้นฐานอย่างยิ่งคุณเริ่มต้นด้วยโครงสร้างที่คุณรู้จักและคุณแน่ใจว่าวิธีการของคุณสามารถ รับคำตอบที่ถูกต้อง

ตอนนี้เข้าสู่โมเดลการถดถอย พิมพ์ต่อไปนี้:

lm(outcome~exposure)

คุณได้รับ Intercept = 2.0 และ Exposure = 0.6766 หรือไม่ หรือบางสิ่งบางอย่างที่ใกล้เคียงกันเนื่องจากมีการสุ่มข้อมูล ดี - คำตอบนี้ผิด เรารู้ว่ามันผิด ทำไมมันผิด? เราไม่สามารถควบคุมตัวแปรที่มีผลต่อผลลัพธ์และระดับแสง มันเป็นตัวแปรไบนารีสร้างทุกอย่างที่คุณต้องการ - เพศผู้สูบบุหรี่ / ไม่สูบบุหรี่ ฯลฯ

ตอนนี้ใช้รูปแบบนี้:

lm(outcome~exposure+covariate)

เวลานี้คุณควรได้รับค่าสัมประสิทธิ์ของการสกัด = 2.00, การเปิดรับ = 0.50 และ covariate 0.25 อย่างที่เรารู้นี่เป็นคำตอบที่ถูก คุณควบคุมตัวแปรอื่นได้แล้ว

ตอนนี้จะเกิดอะไรขึ้นเมื่อเราไม่รู้ว่าเราดูแลตัวแปรทั้งหมดที่เราต้องการ (เราไม่เคยทำจริง ๆ )? สิ่งนี้เรียกว่าการรบกวนที่เหลือและความกังวลในการศึกษาเชิงสังเกตการณ์ส่วนใหญ่ - ว่าเราได้ควบคุมอย่างไม่สมบูรณ์และคำตอบของเราในขณะที่ใกล้กับขวาไม่ถูกต้อง มันช่วยได้มากกว่านี้อีกไหม?


ขอบคุณ ใครรู้ตัวอย่างง่ายๆตัวอย่างการถดถอยออนไลน์หรือในตำราที่ฉันสามารถทำงานผ่าน?
JackOfAll

@JackOfAll มีตัวอย่างหลายร้อยตัวอย่าง - คุณมีคำถามประเภทใด / ประเภทใดที่คุณสนใจและแพคเกจซอฟต์แวร์ใดบ้างที่คุณสามารถใช้
Fomite

ตัวอย่างการศึกษา / การประดิษฐ์ใด ๆ เป็นเรื่องที่ดีสำหรับฉัน ฉันมี Excel ซึ่งสามารถทำการถดถอยแบบหลายตัวแปรได้ถูกต้องหรือไม่ หรือฉันต้องการอะไรแบบ R เพื่อทำสิ่งนี้?
JackOfAll

10
+1 สำหรับการตอบคำถามนี้โดยไม่มีการปฏิเสธที่ฉันจะใช้ :) ในสำนวนทั่วไปการควบคุมตัวแปรอื่น ๆ หมายถึงผู้เขียนโยนมันลงไปในการถดถอย ไม่ได้หมายความว่าสิ่งที่พวกเขาคิดว่ามันหมายความว่าถ้าพวกเขาไม่ได้ตรวจสอบว่าตัวแปรนั้นค่อนข้างอิสระและโครงสร้างของโมเดลทั้งหมด ในระยะสั้นมุมมองของฉันคือเมื่อใดก็ตามที่มีคนใช้วลีนี้ก็หมายความว่าพวกเขามีเงื่อนงำน้อยมากเกี่ยวกับสถิติและหนึ่งควรคำนวณผลลัพธ์อีกครั้งโดยใช้วิธีการแบ่งชั้นที่คุณเสนอ
Iterator

7
@SibbsGambling คุณจะทราบว่าผู้ถามดั้งเดิมขอตัวอย่างง่ายๆจากการทำงาน
Fomite

56
  1. บทนำ

    ฉันชอบคำตอบของ @ EpiGrad (+1) แต่ให้ฉันใช้มุมมองที่ต่างออกไป ในต่อไปนี้ฉันกำลังอ้างถึงเอกสาร PDF นี้: "การวิเคราะห์การถดถอยหลายรายการ: การประมาณ"ซึ่งมีส่วนใน "การตีความ 'A' บางส่วนออก 'การถดถอยหลาย" (หน้า 83f.) น่าเสียดายที่ฉันไม่มีความคิดว่าใครเป็นผู้เขียนบทนี้และฉันจะอ้างถึงในชื่อ REGCHAPTER คำอธิบายที่คล้ายกันสามารถพบได้ในKohler / Kreuter (2009) "การวิเคราะห์ข้อมูลโดยใช้ Stata"บทที่ 8.2.3 "คำว่า 'ภายใต้การควบคุม' หมายถึงอะไร?

    ฉันจะใช้ตัวอย่างของ @ EpiGrad เพื่ออธิบายวิธีการนี้ สามารถดูรหัส R และผลลัพธ์ได้ในภาคผนวก

    ควรสังเกตว่า "การควบคุมตัวแปรอื่น ๆ " นั้นสมเหตุสมผลเมื่อตัวแปรอธิบายมีความสัมพันธ์ในระดับปานกลาง (collinearity) ในตัวอย่างข้างต้นความสัมพันธ์ของช่วงเวลาผลิตภัณฑ์ระหว่างexposureและcovariateคือ 0.50 คือ

    > cor(covariate, exposure)
    [1] 0.5036915
  2. ส่วนเหลือ

    ฉันคิดว่าคุณมีความเข้าใจพื้นฐานของแนวคิดของสารตกค้างในการวิเคราะห์การถดถอย นี่คือคำอธิบายของวิกิพีเดีย : "หากมีการถดถอยของข้อมูลบางอย่างความเบี่ยงเบนของการสังเกตตัวแปรตามจากฟังก์ชั่นการติดตั้งนั้นเป็นของเหลือ"

  3. 'ภายใต้การควบคุม' หมายถึงอะไร

    การควบคุมตัวแปรตัวแปรcovariateเอฟเฟ็กต์ (น้ำหนักการถดถอย) ของexposureเปิดoutcomeสามารถอธิบายได้ดังต่อไปนี้ (ฉันเลอะเทอะและข้ามดัชนีส่วนใหญ่และหมวกทั้งหมดโปรดอ้างอิงข้อความที่กล่าวถึงข้างต้นสำหรับคำอธิบายที่แม่นยำ):

    β1=residi1yiresidi12

    residi1มีเหลือเมื่อเราถอยหลังexposureบนcovariateคือ

    exposure=const.+βcovariatecovariate+resid

    "ส่วนที่เหลือ [.. ] เป็นส่วนหนึ่งของที่ไม่มีส่วนเกี่ยวข้องกับ [... ] ดังนั้นวัดความสัมพันธ์ตัวอย่างระหว่างและหลังจากได้รับ แยกบางส่วนออก "(REGCHAPTER 84) "แยกออกบางส่วน" หมายถึง "ควบคุมสำหรับ"xi1xi2β^1yx1x2

    ฉันจะสาธิตความคิดนี้โดยใช้ข้อมูลตัวอย่างของ @ EpiGrad ครั้งแรกผมจะถอยหลังบนexposure covariateเนื่องจากฉันสนใจเฉพาะส่วนที่เหลือlmEC.residเท่านั้นฉันจึงไม่แสดงผลลัพธ์

    summary(lmEC <- lm(exposure ~ covariate))
    lmEC.resid   <- residuals(lmEC)

    ขั้นตอนต่อไปคือการถดถอยoutcomeส่วนที่เหลือ ( lmEC.resid):

    [output omitted]
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
    lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
    
    [output omitted]

    อย่างที่คุณเห็นน้ำหนักการถดถอยสำหรับlmEC.resid(ดูการประมาณคอลัมน์ ) ในการถดถอยอย่างง่ายนี้เท่ากับน้ำหนักการถดถอยหลายครั้งสำหรับซึ่งก็คือ (ดูคำตอบ @ EpiGrad หรือเอาต์พุต R ด้านล่าง)0.50βlmEC.resid=0.50covariate0.50

ภาคผนวก

รหัส R

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

เอาท์พุท R

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
> 

5
บทนั้นดูเหมือน Baby Wooldridge (หรือที่รู้จักกันในชื่อเศรษฐีเบื้องต้น: วิธีการที่ทันสมัยโดย Jeffrey M. Wooldridge)
Dimitriy V. Masterov

2
ฉันอาจจะเข้าใจผิดบางอย่าง แต่ทำไมคุณไม่จำเป็นต้องถอยหลังผลลัพธ์ของ covariate เช่นกันและในที่สุดก็ถดถอยผลลัพธ์ที่เหลือจากการได้รับสัมผัส?
hlinee

@hlinee ถูกต้อง คุณช่วยอธิบายได้ไหมว่าทำไมคุณถึงไม่ทำเช่นนี้?
Parseltongue

41

แน่นอนว่าคณิตศาสตร์บางส่วนจะเกี่ยวข้อง แต่ก็ไม่มาก: Euclid น่าจะเข้าใจได้ดี ทั้งหมดที่คุณจำเป็นต้องรู้จริงๆคือวิธีการเพิ่มและrescaleเวกเตอร์ แม้ว่าสิ่งนี้จะเกิดจากชื่อของ "พีชคณิตเชิงเส้น" ทุกวันนี้คุณจะต้องเห็นภาพในสองมิติเท่านั้น สิ่งนี้ทำให้เราสามารถหลีกเลี่ยงเครื่องจักรเมทริกซ์ของพีชคณิตเชิงเส้นและมุ่งเน้นไปที่แนวคิด


เรื่องราวทางเรขาคณิต

ในร่างแรกคือผลรวมของ และx_1 (เวกเตอร์ปรับสัดส่วนโดยปัจจัยตัวเลข ; ตัวอักษรกรีก (alpha), (เบต้า) และ (แกมม่า) จะอ้างถึงปัจจัยระดับตัวเลขดังกล่าว)Y 1 α x 1 x 1 α α บีตาแกมมาyy1αx1x1ααβγ

รูปที่ 1

ตัวเลขนี้จริงเริ่มต้นด้วยการเป็นพาหะเดิม (แสดงเป็นเส้นทึบ)และY "การจับคู่" ที่น้อยที่สุดของถึงนั้นพบได้โดยการคูณที่ใกล้เคียงกับในระนาบของตัวเลข นั่นเป็นวิธีที่ถูกพบ การแข่งขันครั้งนี้ออกไปจากซ้ายที่เหลือของด้วยความเคารพx_1(จุด " " จะแสดงให้เห็นอย่างสม่ำเสมอว่าเวกเตอร์ใดที่ "จับคู่" "นำออกแล้ว" หรือ "ควบคุมเพื่อ" y y x 1 x 1 y α y y 1 y x 1x1yyx1x1yαyy1yx1

เราสามารถจับคู่เวกเตอร์อื่น ๆ เพื่อx_1นี่คือภาพที่ถูกจับคู่กับแสดงว่ามันเป็นหลายของบวกคงเหลือ :x 2 x 1 β x 1 x 2 1x1x2x1βx1x21

รูปที่ 2

(ไม่สำคัญว่าเครื่องบินที่มีและอาจแตกต่างจากเครื่องบินที่มีและ : ตัวเลขทั้งสองเหล่านี้ได้มาจากกันโดยอิสระพวกเขารับประกันว่าจะมีเหมือนกันคือเวกเตอร์ ) ในทำนองเดียวกันจำนวนเท่าใดก็ได้ ของเวกเตอร์สามารถจับคู่กับx_1x 2 x 1 y x 1 x 3 , x 4 , x 1x1x2x1yx1x3,x4,x1

ตอนนี้พิจารณาเครื่องบินที่มีสองเหลือและ1} ฉันจะจัดแนวภาพให้เป็นแนวนอนเช่นเดียวกับที่ฉันวางแนวภาพก่อนหน้าเพื่อทำให้แนวนอนเนื่องจากเวลานี้จะเล่นบทบาทของผู้จับคู่:y1x21x21x1x21

รูปที่ 3

สังเกตว่าในแต่ละกรณีทั้งสามกรณีส่วนที่เหลือจะตั้งฉากกับการแข่งขัน (ถ้าไม่ใช่เราสามารถปรับการจับคู่ให้ใกล้เคียงกับ ,หรือมากขึ้น)yx2y1

แนวคิดหลักคือเมื่อถึงเวลาที่เราไปถึงตัวเลขสุดท้ายเวกเตอร์ทั้งสองที่เกี่ยวข้อง (และ ) ตั้งฉากกับแล้วโดยการสร้าง ดังนั้นการปรับใด ๆ ภายหลังจากเกี่ยวข้องกับการเปลี่ยนแปลงที่มีทั้งหมดตั้งฉากกับx_1เป็นผลให้การแข่งขันใหม่และใหม่ที่เหลือยังคงตั้งฉากกับx_1x21y1x1y1x1γx21y12x1

(หากเกี่ยวข้องกับเวกเตอร์อื่น ๆ เราจะดำเนินการในลักษณะเดียวกันเพื่อจับคู่ส่วนที่เหลือของพวกเขาถึง )x31,x41,x2

มีอีกหนึ่งจุดสำคัญที่ต้องทำคือ การก่อสร้างนี้มีการผลิตที่เหลือซึ่งเป็นแนวตั้งฉากกับทั้งและx_2ซึ่งหมายความว่าเป็นยังการตกค้างในพื้นที่ (สามมิติแบบยุคลิดดินแดน) ทอดและYนั่นคือกระบวนการขั้นตอนที่สองของการจับคู่และการที่เหลือจะต้องได้พบสถานที่ในเครื่องบินที่ใกล้เคียงกับปีเนื่องจากในคำอธิบายทางเรขาคณิตมันไม่สำคัญว่าและมาก่อนเราจึงสรุปได้ว่าy12x1x2y12x1,x2,yx1,x2yx1x2ถ้ากระบวนการที่เคยทำมาในลำดับอื่น ๆที่เริ่มต้นด้วยเป็นจับคู่แล้วใช้ , ผลที่จะได้รับเหมือนกันx2x1

(หากมีเวกเตอร์เพิ่มเติมเราจะดำเนินการตามกระบวนการ "นำผู้จับคู่ออก" ต่อไปจนกว่าแต่ละเวกเตอร์เหล่านั้นจะกลายเป็นผู้จับคู่ในทุกกรณีการดำเนินการจะเหมือนกันดังที่แสดงไว้ที่นี่และมักจะเกิดขึ้นในเครื่องบิน .)


การประยุกต์ใช้กับการถดถอยเชิงซ้อน

กระบวนการทางเรขาคณิตนี้มีการตีความการถดถอยหลายแบบโดยตรงเนื่องจากคอลัมน์ของตัวเลขทำหน้าที่เหมือนกับเวกเตอร์เชิงเรขาคณิต พวกมันมีคุณสมบัติทั้งหมดที่เราต้องการของเวกเตอร์ (axiomatically) และดังนั้นจึงสามารถคิดและจัดการในลักษณะเดียวกันกับความแม่นยำและความแม่นยำทางคณิตศาสตร์ที่สมบูรณ์แบบ ในการตั้งค่าการถดถอยหลายครั้งพร้อมตัวแปร ,และวัตถุประสงค์คือเพื่อค้นหาการรวมกันของและ ( ฯลฯ ) ที่ใกล้เคียงกับมากที่สุด ในทางเรขาคณิตการรวมกันทั้งหมดของและ ( ฯลฯXX1X2,YX1X2YX1X2) ตรงกับคะแนนในพื้นที่ การหาค่าสัมประสิทธิ์การถดถอยแบบหลายจุดที่เหมาะสมนั้นไม่มีอะไรมากไปกว่าการฉายเวกเตอร์ ("การจับคู่") อาร์กิวเมนต์ทางเรขาคณิตได้แสดงให้เห็นว่าX1,X2,

  1. การจับคู่สามารถทำได้ตามลำดับและ

  2. ลำดับที่การจับคู่เสร็จสิ้นไม่สำคัญ

กระบวนการในการ "ถอด" ผู้จับคู่โดยแทนที่เวกเตอร์อื่น ๆ ทั้งหมดด้วยเศษของพวกเขามักจะถูกเรียกว่า "การควบคุม" สำหรับผู้จับคู่ ดังที่เราเห็นในรูปเมื่อการจับคู่ถูกควบคุมการคำนวณที่ตามมาทั้งหมดจะทำการปรับที่ตั้งฉากกับตัวจับคู่นั้น หากคุณต้องการคุณอาจคิดว่า "การควบคุม" เป็น "การบัญชี (ในความหมายน้อยที่สุด) สำหรับการสนับสนุน / อิทธิพล / ผลกระทบ / การเชื่อมโยงของตัวจับคู่บนตัวแปรอื่น ๆ ทั้งหมด"


อ้างอิง

คุณสามารถมองเห็นทั้งหมดนี้ในการดำเนินการกับข้อมูลและรหัสการทำงานในคำตอบที่https://stats.stackexchange.com/a/46508 คำตอบนั้นอาจดึงดูดผู้คนที่ชอบเลขคณิตมากกว่าภาพเครื่องบิน (เลขคณิตในการปรับค่าสัมประสิทธิ์เป็น matchers จะนำมาเรียงกันเป็นตรงไปตรงมาอย่างไรก็ตามภาษาของการจับคู่มาจาก Fred Mosteller และ John Tukey


1
ภาพประกอบเพิ่มเติมตามแนวเหล่านี้สามารถพบได้ในหนังสือของ Wicken "The Geometry of Multivariate Statistics" (1994) ตัวอย่างบางส่วนอยู่ในคำตอบนี้
caracal

2
@Caracal ขอบคุณสำหรับการอ้างอิง เดิมทีฉันนึกภาพคำตอบที่ใช้ไดอะแกรมเหมือนคำตอบของคุณ - ซึ่งเป็นส่วนเสริมที่ยอดเยี่ยมสำหรับคำตอบของฉันที่นี่ - แต่หลังจากการสร้างพวกเขารู้สึกว่าตัวเลขหลอก 3 มิติอาจซับซ้อนและคลุมเครือเกินกว่าที่จะเหมาะสมทั้งหมด ฉันยินดีที่พบว่าการโต้แย้งสามารถลดลงอย่างสิ้นเชิงกับการดำเนินการเวกเตอร์ที่ง่ายที่สุดในระนาบ นอกจากนี้ยังอาจจะมีมูลค่าการชี้ให้เห็นว่าศูนย์กลางเบื้องต้นของข้อมูลที่ไม่จำเป็นเพราะที่มีการจัดการโดยรวมเวกเตอร์คงไม่ใช่ศูนย์ในหมู่x_ixi
whuber

1
ฉันรักคำตอบนี้เพราะให้สัญชาตญาณมากกว่าพีชคณิต BTW ไม่แน่ใจว่าคุณตรวจสอบช่อง YouTubeของคนนี้หรือไม่ ฉันสนุกกับมันมาก
Haitao Du

3

มีการอภิปรายที่ยอดเยี่ยมจนถึงการปรับปรุง covariateเป็นวิธีการ "ควบคุมตัวแปรอื่น ๆ " แต่ฉันคิดว่านั่นเป็นเพียงส่วนหนึ่งของเรื่องราว ในความเป็นจริงมีกลยุทธ์การออกแบบรูปแบบและการเรียนรู้ด้วยเครื่องหลายอย่างเพื่อจัดการกับผลกระทบของตัวแปรที่อาจทำให้สับสนได้ นี่คือการสำรวจโดยย่อของหัวข้อที่สำคัญที่สุด (ไม่ปรับ) ในขณะที่การปรับเป็นวิธีการ "ควบคุม" ที่ใช้กันอย่างแพร่หลายที่สุดสำหรับตัวแปรอื่น ๆ ฉันคิดว่านักสถิติที่ดีควรมีความเข้าใจในสิ่งที่มันทำ (และไม่ทำ) ในบริบทของกระบวนการและขั้นตอนอื่น ๆ

จับคู่:

การจับคู่เป็นวิธีการออกแบบการวิเคราะห์แบบจับคู่โดยการสังเกตจะถูกจัดกลุ่มเป็นชุดที่ 2 ซึ่งมีความคล้ายคลึงกันในด้านที่สำคัญที่สุด ตัวอย่างเช่นคุณอาจสุ่มตัวอย่างบุคคลสองคนที่มีความสอดคล้องในการศึกษารายได้อายุอาชีพอายุสถานภาพการสมรส (ฯลฯ ) แต่มีความไม่ลงรอยกันในแง่ของความอดทน สำหรับการเปิดรับไบนารีการทดสอบ paired-t อย่างง่าย ๆ ก็เพียงพอที่จะทดสอบความแตกต่างของค่าเฉลี่ยในการควบคุมค่าดัชนีมวลกายของพวกเขาสำหรับคุณลักษณะการจับคู่ทั้งหมด หากคุณกำลังสร้างแบบจำลองการรับสัมผัสอย่างต่อเนื่องการวัดแบบอะนาล็อกจะเป็นแบบจำลองการถดถอยผ่านจุดกำเนิดสำหรับความแตกต่าง ดูCarlin 2005

E[Y1Y2]=β0(X1X2)

การถ่วง

การให้น้ำหนักเป็นอีกการวิเคราะห์ที่ไม่แปรเปลี่ยนซึ่งเป็นตัวอย่างของความสัมพันธ์ระหว่างตัวทำนายต่อเนื่องหรือไบนารีและผลลัพธ์เพื่อให้การกระจายตัวของระดับการสัมผัสเป็นพันธ์ระหว่างกลุ่ม ผลลัพธ์เหล่านี้มักจะรายงานว่าเป็นมาตรฐานเช่นการตายตามมาตรฐานอายุสำหรับสองประเทศหรือโรงพยาบาลหลายแห่ง มาตรฐานทางอ้อมคำนวณการกระจายผลลัพธ์ที่คาดหวังจากอัตราที่ได้รับในประชากร "การควบคุม" หรือ "สุขภาพ" ที่คาดว่าจะมีการกระจายของชั้นในประชากรอ้างอิง การกำหนดมาตรฐานโดยตรงเป็นไปในลักษณะอื่น วิธีการเหล่านี้มักจะใช้สำหรับผลลัพธ์ไบนารี น้ำหนักคะแนนความชอบYXYบัญชีของความน่าจะเป็นของการได้รับไบนารีและการควบคุมสำหรับตัวแปรเหล่านั้นในเรื่องนั้น มันคล้ายกับมาตรฐานโดยตรงสำหรับการเปิดรับแสง ดู Rothman, Modern ระบาดวิทยารุ่นที่ 3

การสุ่มและ Quasirandomization

มันเป็นจุดที่ลึกซึ้ง แต่ถ้าคุณสามารถสุ่มคนให้เข้ากับเงื่อนไขการทดลองบางอย่างได้ผลกระทบของตัวแปรอื่น ๆ ก็จะลดลง มันเป็นเงื่อนไขที่ดีขึ้นอย่างมากเพราะคุณไม่จำเป็นต้องรู้ว่าตัวแปรอื่น ๆ เหล่านั้นคืออะไร ในแง่นั้นคุณได้ "ควบคุม" สำหรับอิทธิพลของพวกเขา สิ่งนี้เป็นไปไม่ได้ในการวิจัยเชิงสังเกตการณ์ แต่ปรากฎว่าวิธีคะแนนความเอนเอียงสร้างวิธีการวัดความน่าจะเป็นแบบง่ายสำหรับการสัมผัสซึ่งอนุญาตให้น้ำหนักปรับหรือจับคู่ผู้เข้าร่วมเพื่อให้พวกเขาสามารถวิเคราะห์ในแบบเดียวกับการศึกษาแบบกึ่งสุ่ม . ดูRosenbaum, รูบิน 1983

microsimulation

อีกวิธีหนึ่งในการจำลองข้อมูลที่อาจได้รับจากการศึกษาแบบสุ่มคือการทำไมโครซิม ที่นี่เราสามารถหันความสนใจไปที่การเรียนรู้ของเครื่องที่ใหญ่กว่าและซับซ้อนกว่าเช่นโมเดล คำที่จูเดียเพิร์ลประกาศเกียรติคุณที่ฉันชอบคือ " โมเดลของออราเคิล ": เครือข่ายที่ซับซ้อนซึ่งสามารถสร้างการคาดการณ์และการคาดการณ์สำหรับคุณสมบัติและผลลัพธ์จำนวนหนึ่ง ปรากฎว่ามีใครสามารถ "พับ" ข้อมูลของแบบจำลอง oracle เพื่อจำลองผลลัพธ์ในกลุ่มคนที่มีสมดุลซึ่งเป็นตัวแทนของกลุ่มแบบสุ่มแบบสุ่มสมดุลในการกระจาย "ตัวแปรควบคุม" ของพวกเขาและใช้การทดสอบ t-test อย่างง่ายเพื่อประเมิน ขนาดและความแม่นยำของความแตกต่างที่เป็นไปได้ ดู Rutter, Zaslavsky และ Feuer 2012

จับคู่ถ่วงและการปรับตัวแปรร่วมในรูปแบบการถดถอยทั้งหมดประมาณการสมาคมเดียวกันและทำให้ทุกคนสามารถจะอ้างว่าเป็นวิธีการ "ควบคุม" สำหรับตัวแปรอื่น


เหนือหัวฉันทั้งหมด
JackOfAll

มันเป็นคำตอบสำหรับคำถามที่ถูกถามการสนทนาที่ดีจนถึงตอนนี้ค่อนข้างด้านเดียวในความโปรดปรานของการปรับตัวในรูปแบบหลายตัวแปร
AdamO

แบบจำลองหลายตัวแปรการจับคู่ ฯลฯ เป็นเทคนิคที่ใช้ได้จริง แต่เมื่อใดที่นักวิจัยมักใช้เทคนิคหนึ่งเหนืออีกเทคนิคหนึ่ง?
mnmn

-1

ซอฟต์แวร์ไม่ได้ควบคุมตัวแปรอย่างแท้จริง ถ้าคุณคุ้นเคยกับสัญกรณ์เมทริกซ์ของการถดถอย แล้วคุณอาจจำได้ว่าวิธีการแก้ปัญหาสองน้อยที่สุดคือขดังนั้นซอฟต์แวร์จะประเมินนิพจน์นี้เป็นตัวเลขโดยใช้วิธีพีชคณิตเชิงเส้นเชิงคำนวณb = ( X T X ) - 1 X T YY=Xβ+εb=(XTX)1XTY


4
ขอบคุณที่สละโอกาสเสนอข้อมูลนี้ สำหรับคำตอบเพื่อตอบสนองความต้องการที่ให้ไว้ในคำถามเราจะต้องรู้ความหมายของไพรม์ในนิพจน์ที่สองและความหมายของนิพจน์ที่สอง ฉันเข้าใจว่าความชันคือการเปลี่ยนแปลงในแกนหนึ่งเหนือการเปลี่ยนแปลงในอีกแกนหนึ่ง โปรดจำไว้ว่าสัญกรณ์เป็นภาษาพิเศษที่ แต่เดิมสร้างขึ้นและเรียนรู้โดยใช้คำศัพท์ที่ไม่ใช่เชิงสัญลักษณ์ การเข้าถึงผู้ที่ไม่ทราบว่าภาษานั้นต้องการการใช้คำอื่น ๆ และนั่นเป็นความท้าทายอย่างต่อเนื่องของการนำความรู้ข้ามสาขาวิชา
Jen

2
เมื่อคุณเข้าสู่การถดถอยหลายตัวแปรจะไม่มีวิธีดำเนินการต่อโดยไม่มีพีชคณิตเชิงเส้น ลิงก์ Wiki มีคำอธิบายทั้งหมดของตัวแปร ที่นี่ฉันสามารถพูดได้ว่าหมายถึงทรานสโพสของเมทริกซ์คุณต้องเรียนรู้วิธีการสร้างเมทริกซ์การออกแบบ มันยาวเกินกว่าจะอธิบายได้ที่นี่ อ่าน Wiki ที่ฉันโพสต์มีข้อมูลมากมาย เว้นแต่คุณจะเข้าใจพีชคณิตเชิงเส้นคุณจะไม่สามารถตอบคำถามของคุณได้อย่างมีความหมายฉันกลัว XXX
Aksakal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.