การถดถอยที่มีตัวแปรตามหลายตัว?


61

เป็นไปได้ไหมที่จะมีสมการการถดถอยแบบหลายค่าที่มีตัวแปรตามสองตัวหรือมากกว่า แน่นอนว่าคุณสามารถรันสมการถดถอยสองแบบแยกกันได้หนึ่งตัวสำหรับแต่ละ DV แต่นั่นไม่เหมือนว่าจะจับความสัมพันธ์ระหว่าง DV ทั้งสองได้หรือไม่


เช่นเดียวกับ SUR หรือ 3SLS
ชายชราในทะเล

คำตอบ:


35

ใช่มันเป็นไปได้ สิ่งที่คุณสนใจเรียกว่า "Multivariate Multiple Regression" หรือ "Multivariate Regression" ฉันไม่รู้ว่าคุณใช้ซอฟต์แวร์อะไร แต่คุณสามารถทำได้ใน R

นี่คือลิงค์ที่ให้ตัวอย่าง

http://www.public.iastate.edu/~maitra/stat501/lectures/MultivariateRegression.pdf


2
หนึ่งอาจเพิ่มที่เหมาะสมกับการแยก regatelions แน่นอนเทียบเท่ากับสูตรหลายตัวแปรที่มีเมทริกซ์ของตัวแปรตาม ใน R พร้อมแพ็กเกจ mvtnorm ที่ติดตั้ง (ที่ 1: โมเดลหลายตัวแปร, 2: โมเดล univariate แยกต่างหาก): ไลบรารี (mvtnorm); X <- rmvnorm (100, c (1, 2), เมทริกซ์ (c (4, 2, 2, 3), ncol = 2)); Y <- X% *% เมทริกซ์ (1: 4, ncol = 2) + rmvnorm (100, c (0, 0), diag (c (20, 30))); lm (Y ~ X [, 1] + X [, 2]); lm (Y [, 1] ~ X [, 1] + X [, 2]); lm (Y [, 2] ~ X [, 1] + X [, 2])
caracal

3
ถ้ามันเทียบเท่าวัตถุประสงค์คืออะไร?
Joshua Rosenberg

1
@JoshuaRosenberg เหตุผลหนึ่งสำหรับการเรียกใช้การถดถอยหลายตัวแปรเหนือการถดถอยแบบแยกกันด้วยตัวแปรตามเดี่ยวคือความสามารถในการทดสอบสัมประสิทธิ์ของตัวแปรผลลัพธ์ต่าง ๆ ตัวอย่างเช่นคุณสามารถทำการทดสอบแบบ F เพื่อดูว่าตัวทำนายมีผลเช่นเดียวกันกับตัวแปรผลลัพธ์หนึ่งซึ่งมีกับตัวแปรผลลัพธ์อื่นหรือไม่
AlexK

10

การตอบสนองของ @ Brett นั้นใช้ได้

หากคุณมีความสนใจในการอธิบายโครงสร้างสองบล็อกของคุณคุณยังสามารถใช้PLS ถดถอย โดยทั่วไปมันเป็นกรอบการถดถอยที่อาศัยความคิดในการสร้างการรวมกันเชิงเส้น (orthogonal) เชิงเส้นของตัวแปรที่เป็นของแต่ละบล็อกดังกล่าวว่าการแปรปรวนร่วมของพวกเขาคือสูงสุด ที่นี่เราพิจารณาว่าหนึ่งบล็อกมีตัวแปรอธิบายและตัวแปรตอบสนองบล็อกอื่น ๆดังแสดงด้านล่าง:YXY

ข้อความแสดงแทน

เราค้นหา "ตัวแปรแฝง" ซึ่งมีข้อมูลสูงสุด (เป็นแบบเชิงเส้น) ที่รวมอยู่ในบล็อกในขณะที่อนุญาตให้คาดการณ์บล็อกโดยมีข้อผิดพลาดน้อยที่สุด และเป็นภาระ (กล่าวคือผลรวมเชิงเส้น) ที่เกี่ยวข้องกับแต่ละมิติ เกณฑ์การปรับให้เหมาะสมจะอ่านY ยูเจวีเจXYujvj

maxuh∣=1,vh∣=1cov(Xh1uh,Yvh)(maxcov(ξh,ωh))

ที่ย่อมาจาก deflated (เช่นส่วนที่เหลือ) block หลังจากการถดถอยXh1Xhth

ความสัมพันธ์ระหว่างคะแนนแฟคทอเรียลในมิติแรก (และ ) สะท้อนให้เห็นถึงขนาดของลิงค์ -ξ1ω1XY


ฉันคิดว่า PL หลายเท่า -XY หลาย PLS เป็นหลักจะทำหลาย ๆ "-XX-singleY" PLS ดังนั้นความสัมพันธ์ระหว่างตัวแปร Y จึงไม่ได้ถูกกล่าวถึง
lanselibai

4

การถดถอยหลายตัวแปรเสร็จสิ้นใน SPSS โดยใช้ตัวเลือก GLM-multivariate

ใส่ผลลัพธ์ทั้งหมด (DVs) ของคุณลงในกล่องผลลัพธ์ แต่ตัวทำนายผลอย่างต่อเนื่องทั้งหมดของคุณลงในกล่อง covariates คุณไม่ต้องการอะไรในกล่องปัจจัย ดูการทดสอบหลายตัวแปร การทดสอบ univariate จะเหมือนกับการแยกหลาย ๆ

อย่างที่คนอื่นพูดคุณสามารถระบุสิ่งนี้เป็นแบบจำลองสมการโครงสร้าง แต่การทดสอบก็เหมือนกัน

(น่าสนใจดีฉันคิดว่ามันน่าสนใจมีความแตกต่างเล็กน้อยระหว่างอังกฤษและสหรัฐอเมริกาในสหราชอาณาจักรการถดถอยหลายครั้งมักไม่ถือว่าเป็นเทคนิคหลายตัวแปรดังนั้นการถดถอยหลายตัวแปรเป็นหลายตัวแปรเท่านั้นเมื่อคุณมีผลลัพธ์ / DV หลาย )


2
นอกจากนี้ที่@Jeremy
Epaminondas

2

ฉันจะทำสิ่งนี้โดยการเปลี่ยนตัวแปรการถดถอยเป็นตัวแปรที่คำนวณจาก PCA ก่อนจากนั้นฉันก็จะถดถอยด้วยตัวแปรที่คำนวณจาก PCA แน่นอนฉันจะเก็บ eigenvectors เพื่อให้สามารถคำนวณค่า pca ที่เกี่ยวข้องเมื่อฉันมีอินสแตนซ์ใหม่ที่ฉันต้องการจัดประเภท


2
ดูเหมือนว่าแนวคิดจะแตกต่างจากคำตอบข้างต้น ฉันยังไม่ชัดเจนว่าการเปลี่ยนตัวแปรของฉันเป็นค่าสัมประสิทธิ์ PCA ช่วยให้ฉันถอยหลังตัวแปร 2 + ได้อย่างไร
Jeff

@ เจฟฟ์คำตอบนี้เป็นจริงแนวคิดคล้ายกับการถดถอยหลายตัวแปร ที่นี่ข้อเสนอแนะคือการทำสองขั้นตอนที่ไม่ต่อเนื่องในลำดับ การถดถอยหลายตัวแปรดำเนินการขั้นตอนที่สองพร้อมกัน การถดถอยหลายตัวแปรจะมีประสิทธิภาพมากขึ้นเนื่องจาก WLCV ถูกสร้างขึ้นเพื่อเพิ่มการถดถอยสูงสุด อย่างไรก็ตามขั้นตอนสองขั้นตอนอาจให้ความชัดเจนมากขึ้นเกี่ยวกับกระบวนการหรือเป็นอย่างอื่นที่ดีกว่าสำหรับนักวิจัย
gung - Reinstate Monica

1
@gung อืมฉันรู้สึกแบบนี้ถ้าคุณทำ PCA กับตัวแปรตามมาแล้วถอยกลับไปที่องค์ประกอบหลักตัวแรกเท่านั้น ... แต่แล้วคุณก็ยังคงแปรปรวนอยู่มากมาย
Jeff

1
@ เจฟฟ์พีซีเป็นมุมฉาก คุณสามารถเรียกใช้การถดถอยอิสระในแต่ละ อย่างไรก็ตามสิ่งนี้มีประสิทธิภาพน้อยกว่า b / c การสลายตัวไม่เหมือนกัน & การทดสอบการถดถอยหลายตัวแปรไม่ได้เป็นชุดของ regs บนพีซีจริงๆ
gung - Reinstate Monica

@gung ใช่คุณสามารถเรียกใช้การถดถอยอิสระ N แต่จากนั้นคุณก็จบลงด้วยค่าสัมประสิทธิ์เบต้า N ชุด ฉันไม่เข้าใจว่าวิธีแก้ปัญหาได้อย่างไร
Jeff

1

ดังที่ caracal กล่าวถึงคุณสามารถใช้แพ็คเกจ mvtnorm ใน R. สมมติว่าคุณสร้างโมเดล lm (ชื่อ "model") ของการตอบสนองอย่างใดอย่างหนึ่งในแบบจำลองของคุณและเรียกมันว่า "model" นี่คือวิธีรับการแจกแจงแบบหลายตัวแปร ของการตอบสนองหลายอย่าง "resp1", "resp2", "resp3" เก็บไว้ในรูปแบบเมทริกซ์ Y:

library(mvtnorm)
model = lm(resp1~1+x+x1+x2,datas) #this is only a fake model to get
                                  #the X matrix out of it
Y = as.matrix(datas[,c("resp1","resp2","resp3")])
X =  model.matrix(delete.response(terms(model)), 
           data, model$contrasts)
XprimeX  = t(X) %*% X
XprimeXinv = solve(xprimex)
hatB =  xprimexinv %*% t(X) %*% Y
A = t(Y - X%*%hatB)%*% (Y-X%*%hatB)
F = ncol(X)
M = ncol(Y)
N = nrow(Y)
nu= N-(M+F)+1 #nu must be positive
C_1 =  c(1  + x0 %*% xprimexinv %*% t(x0)) #for a prediction of the factor setting x0 (a vector of size F=ncol(X))
varY = A/(nu) 
postmean = x0 %*% hatB
nsim = 2000
ysim = rmvt(n=nsim,delta=postmux0,C_1*varY,df=nu) 

ตอนนี้ quantiles ของ ysim คือช่วงเวลาที่ยอมรับได้เบต้าจากการแจกแจงแบบทำนายคุณสามารถใช้การแจกแจงแบบสุ่มเพื่อทำสิ่งที่คุณต้องการได้โดยตรง

ในการตอบแอนดรูว์เอฟองศาของความอิสระจึงเป็น nu = N- (M + F) +1 ... N เป็น # ของการสังเกต M ของ # ของการตอบสนองและ F # ของพารามิเตอร์ต่อโมเดลสมการ หนูต้องเป็นบวก

(คุณอาจต้องการอ่านงานของฉันในเอกสารนี้:-))


0

คุณเจอคำว่า "ความสัมพันธ์แบบบัญญัติ" หรือไม่? มีคุณมีชุดของตัวแปรในอิสระเช่นเดียวกับในด้านที่พึ่งพา แต่บางทีอาจมีแนวคิดที่ทันสมัยกว่านี้คำอธิบายที่ฉันมีอยู่ทั้งหมดในแปดสิบเก้าสิบ ...


1
Canonical correlation คือความสัมพันธ์ระหว่างคะแนนปัจจัยที่คำนวณจากโครงสร้างแบบสองบล็อกเช่นเดียวกับ CCA หรือ PLS นี่คือสิ่งที่ฉันอธิบายในการตอบสนองของฉัน (การถดถอย PLS) แม้ว่า PLS จะเหมาะสมกว่า CCA เมื่อตัวแปรมีบทบาทที่ไม่สมดุลซึ่งน่าจะเป็นกรณีที่นี่ นี่เป็นเพราะมีกระบวนการเงินฝืดแบบอสมมาตรและเราทำงานร่วมกับความแปรปรวนร่วมแทน (ด้วย CCA เราทำให้ภาวะยุบทั้งสองช่วงในเวลาเดียวกันและเราพยายามเพิ่มความสัมพันธ์ให้มากที่สุด
chl

@chl: upps- วันนี้ (สิ้นสุดมกราคม) ฉันกลับมาที่คำถาม / การสนทนาของกลางเดือนพฤศจิกายนนี้ .... ขออภัยฉันไม่ได้ตรวจสอบก่อนหน้านี้ - มีบางสิ่งบางอย่างกับหลักสูตรของฉันแล้วฉันลืม stat.exchange .. หากฉันมีค่าควรจะกลับมาอีกในวันถัดไป
หมวกกันน็อกกอทฟริด

-3

มันเรียกว่าแบบจำลองสมการโครงสร้างหรือแบบจำลองสมการพร้อมกัน


3
ฉันอาจจะผิด แต่ฉันไม่คิดว่านี่เป็นสิ่งเดียวกัน จากกราฟ SEM ที่ฉันได้เห็นดูเหมือนว่า SEM ใช้สมการการถดถอยหลายตัวเพื่อกำหนดค่าของปัจจัยแฝงจากนั้นจึงทำการถดถอยอีกครั้งโดยใช้ค่าของปัจจัยแฝงเหล่านั้นเพื่อกำหนดปัจจัยลำดับที่สูงกว่า อาจเป็นสิ่งที่ผิด แต่ฉันไม่เคยเห็นกราฟ SEM ที่เชื่อมโยง IV หลายตัวกับ DV หลายตัว - ทุกอย่างเป็นลำดับชั้น
Jeff

รูปที่ 8 ในบทความนี้: biomedcentral.com/1471-2288/3/27คุณทำได้ แต่มีจุดเล็ก ๆ มันเหมือนกับ MANOVA
Jeremy Miles
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.