ลำดับของตัวแปรมีความสำคัญในการถดถอยเชิงเส้นหรือไม่


9

ฉันกำลังตรวจสอบความสัมพันธ์ระหว่างตัวแปรสองตัว (x1 และ x2) มีความสัมพันธ์เชิงเส้นตรงมากระหว่างตัวแปรเหล่านี้ด้วยr>0.9. จากลักษณะของปัญหาฉันไม่สามารถพูดอะไรเกี่ยวกับสาเหตุได้ (ไม่ว่าจะเป็นx1 สาเหตุ x2หรือวิธีอื่น ๆ ) ฉันต้องการศึกษาการเบี่ยงเบนจากเส้นการถดถอยเพื่อตรวจหาค่าผิดปกติ ในการทำเช่นนี้ฉันสามารถสร้างการถดถอยเชิงเส้นของx1 เป็นหน้าที่ของ x2หรือวิธีอื่น ๆ การเลือกคำสั่งผันแปรของฉันมีผลต่อผลลัพธ์ของฉันหรือไม่


ในการค้นหาค่าผิดปกติคุณควรถอยหลังตัวแปรตามของคุณทั้งสอง x1 และ x2และมองหาค่าผิดปกติ
schenectady

การค้นหาดักแด้ของการสอบสวนของคุณเป็นเรื่องผิดหรือเปล่า? ถ้าเป็นเช่นนั้นคุณควรถอยหลังตัวแปรตามของคุณทั้งสองx1 และ x2แล้วทำการทดสอบที่ผิดปกติ หากการค้นหาสาเหตุที่เป็นไปได้คุณควรพิจารณาทำการทดสอบที่ออกแบบมา หากจุดประสงค์ของการทดสอบของคุณคือการหาความสัมพันธ์ระหว่างตัวแปรอิสระสองตัวของคุณการดูเหตุการณ์ที่เกิดขึ้นของข้อมูลที่รวบรวมไว้จะไม่เป็นการหลอกลวง
schenectady

ไม่ชัดเจนสำหรับฉันว่าคุณหมายถึงคนผิด หากมีค่าผิดปกติในข้อมูลของคุณพวกเขาจะมีผลต่อการคำนวณของเส้นถดถอย เหตุใดคุณจึงมองหาค่าผิดปกติทั้งคู่x1 และ x2พร้อมกัน?
DQdlM

@schenectady ใช้ $$ สำหรับ LaTeX ในความคิดเห็นโปรด

คำตอบ:


3

แน่นอนมันสามารถ (จริง ๆ แล้วมันเป็นเรื่องเกี่ยวกับสมมติฐานที่เกี่ยวกับข้อมูลของคุณ - คุณเพียง แต่ตั้งสมมติฐานเกี่ยวกับการกระจายของผลลัพธ์ที่ได้รับ covariate) ในแง่นี้คุณอาจค้นหาคำว่า "ความแปรปรวนการทำนายแบบผกผัน" ไม่ว่าจะด้วยวิธีใดการถดถอยเชิงเส้นไม่ได้เกี่ยวกับสาเหตุเลย! ที่ดีที่สุดคุณสามารถพูดอะไรบางอย่างเกี่ยวกับสาเหตุผ่านการออกแบบอย่างระมัดระวัง


3

ในการทำให้สมมาตรของเคสหนึ่งอาจถอยกลับความแตกต่างระหว่างตัวแปรสองตัว (Δx) เทียบกับค่าเฉลี่ยของพวกเขา


3

การถดถอยแบบมาตรฐานจะลดระยะห่างแนวตั้งระหว่างจุดและเส้นให้สั้นที่สุดดังนั้นการเปลี่ยนตัวแปร 2 ตัวจะลดระยะห่างในแนวนอนลง ตัวเลือกอื่น (ซึ่งมีหลายชื่อ) คือการลดระยะห่างในแนวตั้งฉากซึ่งสามารถทำได้โดยใช้ส่วนประกอบหลักการ

นี่คือรหัส R ที่แสดงความแตกต่าง:

library(MASS)

tmp <- mvrnorm(100, c(0,0), rbind( c(1,.9),c(.9,1)) )

plot(tmp, asp=1)

fit1 <- lm(tmp[,1] ~ tmp[,2])  # horizontal residuals
segments( tmp[,1], tmp[,2], fitted(fit1),tmp[,2], col='blue' )
o <- order(tmp[,2])
lines( fitted(fit1)[o], tmp[o,2], col='blue' )

fit2 <- lm(tmp[,2] ~ tmp[,1])  # vertical residuals
segments( tmp[,1], tmp[,2], tmp[,1], fitted(fit2), col='green' )
o <- order(tmp[,1])
lines( tmp[o,1], fitted(fit2)[o], col='green' )

fit3 <- prcomp(tmp)
b <- -fit3$rotation[1,2]/fit3$rotation[2,2]
a <- fit3$center[2] - b*fit3$center[1]
abline(a,b, col='red')
segments(tmp[,1], tmp[,2], tmp[,1]-fit3$x[,2]*fit3$rotation[1,2], tmp[,2]-fit3$x[,2]*fit3$rotation[2,2], col='red')

legend('bottomright', legend=c('Horizontal','Vertical','Perpendicular'), lty=1, col=c('blue','green','red'))

เพื่อมองหาค่าผิดปกติคุณสามารถพล็อตผลลัพธ์ของการวิเคราะห์องค์ประกอบหลักการ

คุณอาจต้องการดู:

Bland and Altman (1986), วิธีการทางสถิติสำหรับการประเมินข้อตกลงระหว่างสองวิธีของการวัดแบบ CLinical มีดหมอ, pp 307-310


0

ตัวแปร x1 และ x2 ของคุณคือ collinear ในการปรากฏตัวของความหลากสีการประมาณค่าพารามิเตอร์ของคุณยังคงเป็นกลาง แต่ความแปรปรวนมีขนาดใหญ่เช่นการอนุมานของคุณเกี่ยวกับความสำคัญของการประมาณค่าพารามิเตอร์นั้นไม่ถูกต้องและการคาดคะเนของคุณจะมีช่วงความมั่นใจมาก

การตีความการประมาณค่าพารามิเตอร์ก็ยากเช่นกัน ในกรอบการถดถอยเชิงเส้นการประมาณพารามิเตอร์ของ x1 คือการเปลี่ยนแปลงใน Y สำหรับการเปลี่ยนแปลงหน่วยใน x1 เนื่องจากตัวแปร exogeneous อื่น ๆ ทุกตัวในโมเดลนั้นมีค่าคงที่ ในกรณีของคุณ x1 และ x2 นั้นมีความสัมพันธ์กันสูงและคุณไม่สามารถถือค่าคงที่ x2 เมื่อ x1 กำลังเปลี่ยนแปลง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.