ในการถดถอยเชิงเส้นเรามักจะได้ R และ R หลายค่า ความแตกต่างระหว่างพวกเขาคืออะไร?
ในการถดถอยเชิงเส้นเรามักจะได้ R และ R หลายค่า ความแตกต่างระหว่างพวกเขาคืออะไร?
คำตอบ:
เมืองหลวง (ตรงข้ามกับ ) โดยทั่วไปควรเป็นหลายในรูปแบบการถดถอยหลายแบบ ในการถดถอยเชิงเส้นสองตัวแปรไม่มีหลายและ 2 ดังนั้นความแตกต่างอย่างหนึ่งคือการบังคับใช้: "multiple " หมายถึง regressors หลายตัวในขณะที่ " " ไม่จำเป็นr 2 R 2 R R 2 = r 2 R R 2
ความแตกต่างง่ายๆก็คือการตีความ ในการถดถอยหลายหลายคือค่าสัมประสิทธิ์ของความสัมพันธ์หลายในขณะที่ตารางของมันคือค่าสัมประสิทธิ์การตัดสินใจ สามารถตีความได้ค่อนข้างคล้ายค่าสัมประสิทธิ์สหสัมพันธ์ bivariate ความแตกต่างที่สำคัญคือความสัมพันธ์หลายอย่างระหว่างตัวแปรตามและการรวมกันเชิงเส้นของตัวทำนายไม่ได้เป็นเพียงหนึ่งในพวกเขาและไม่ใช่แค่ค่าเฉลี่ยของสหสัมพันธ์ bivariate สามารถตีความได้ว่าร้อยละของความแปรปรวนในตัวแปรที่สามารถอธิบายได้ด้วยการพยากรณ์ที่ ; ดังกล่าวข้างต้นนี่เป็นความจริงหากมีตัวทำนายเพียงตัวเดียว
สามารถดู R หลายรายการเป็นความสัมพันธ์ระหว่างการตอบสนองและค่าติดตั้ง เช่นนี้มันเป็นบวกเสมอ Multiple R-squared เป็นเวอร์ชั่นยกกำลังสอง
ให้ฉันอธิบายโดยใช้ตัวอย่างเล็ก ๆ :
set.seed(32)
n <- 100
x1 <- runif(n)
x2 <- runif(n)
y <- 4 + x1 - 2*x2 + rnorm(n)
fit <- lm(y ~ x1 + x2)
summary(fit) # Multiple R-squared: 0.2347
(R <- cor(y, fitted(fit))) # 0.4845068
R^2 # 0.2347469
ไม่จำเป็นต้องทำเรื่องยุ่งยากรอบตัว "หลายอย่าง" หรือไม่ สูตรนี้ใช้เสมอแม้ในการตั้งค่า Anova ในกรณีที่มี covariableเพียงตัวเดียวดังนั้น R ที่มีสัญลักษณ์ของความชันจะเหมือนกับความสัมพันธ์ระหว่างและการตอบสนองX
ฉันอธิบายให้นักเรียนฟังว่า:
หลาย R คิดว่าเป็นค่าสัมบูรณ์ของสัมประสิทธิ์สหสัมพันธ์ (หรือสัมประสิทธิ์สหสัมพันธ์โดยไม่มีเครื่องหมายลบ)!
R-squared เป็นเพียงกำลังสองของหลายอาร์มันสามารถผ่านเป็นเปอร์เซ็นต์ของการเปลี่ยนแปลงที่เกิดจากตัวแปรอิสระ (s)
มันง่ายที่จะเข้าใจแนวคิดและความแตกต่างด้วยวิธีนี้