ความสัมพันธ์ระหว่างของการถดถอยอย่างง่ายและการถดถอยหลายครั้ง


10

คำถามพื้นฐานที่เกี่ยวข้องกับการถดถอย OLS ของR2

  1. เรียกใช้ OLS regression y ~ x1 เรามีบอกว่า 0.3R2
  2. รัน OLS regression y ~ x2 เรามีอีกอันบอกว่า 0.4R2
  3. ตอนนี้เราเรียกใช้การถดถอย y ~ x1 + x2 ค่า R ของการถดถอยนี้มีค่าเท่าไหร่

ฉันคิดว่ามันชัดเจนว่าสำหรับการถดถอยหลายครั้งไม่ควรน้อยกว่า 0.4 แต่เป็นไปได้หรือที่จะมากกว่า 0.7?R2


2
คำแนะนำ: มันอาจจะสูงถึง 1.0 ทำไม? (คิดเชิงเรขาคณิตหรือโดยเฉพาะเกี่ยวกับวงกลมหน่วย)
พระคาร์ดินัล

คำตอบ:


4

regressor ตัวที่สองสามารถชดเชยสิ่งที่ตัวแรกไม่ได้จัดการเพื่ออธิบายในตัวแปรตาม นี่คือตัวอย่างที่เป็นตัวเลข:

สร้างx1เป็น regressor ปกติมาตรฐานขนาดตัวอย่าง 20 โดยไม่สูญเสียความรู้ทั่วไปให้นำโดยที่คือเช่นกัน ตอนนี้ให้ regressor ตัวที่สองเป็นเพียงความแตกต่างระหว่างตัวแปร dependent และตัว regressor ตัวแรกyi=0.5x1i+uiuiN(0,1)x2

n <- 20 
x1 <- rnorm(n)

y <- .5*x1 + rnorm(n)

x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared

ขอบคุณ! ฉันมีความเข้าใจผิดเกี่ยวกับ r กำลังสอง ฉันคิดว่าถ้าอย่างx1 + x2 = yนั้นก็summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squaredควรจะไม่น้อยกว่า 1 แต่ชัดเจนว่าฉันผิด ..
โอลิเวียร์มา

3

นอกเหนือจากขอบเขตล่างซึ่งเป็น 0.3 หรือ 0.4 ขึ้นอยู่กับตัวแปรที่เข้าสู่โมเดลก่อนไม่มีอะไรมากที่คุณสามารถพูดได้ เท่าไหร่เพิ่มขึ้นส่วนใหญ่ขึ้นอยู่กับข้อมูลที่ตัวแปรที่สองนำมาสู่รูปแบบ โดยข้อมูลเราหมายถึงการเปลี่ยนแปลงที่อธิบายไว้ในการตอบสนองR2

มีแนวคิดหนึ่งที่สำคัญในเรื่องนั้นและนั่นคือความสัมพันธ์ระหว่างตัวทำนาย หากความสัมพันธ์มีขนาดใหญ่ตัวแปรใหม่จะไม่เพียง แต่นำสิ่งใดมาสู่แบบจำลอง แต่มันจะทำให้การอนุมานสำหรับตัวแปรที่มีอยู่ของคุณมีความซับซ้อนเนื่องจากการประมาณจะไม่แน่นอน (multicollinearity) นี่คือเหตุผลที่เราต้องการให้ตัวแปรใหม่เป็นorthogonalกับคนอื่น ๆ มีโอกาสน้อยที่สิ่งนี้จะเกิดขึ้นในการศึกษาเชิงสังเกตการณ์ แต่สามารถทำได้ในการตั้งค่าควบคุมเช่นเมื่อคุณสร้างการทดสอบของคุณเอง

แต่คุณจะหาปริมาณที่แม่นยำของข้อมูลใหม่ที่ตัวแปรจะนำมาสู่โมเดลได้อย่างไร หนึ่งในมาตรการที่ใช้กันอย่างกว้างขวางว่าจะใช้เวลาทั้งหมดเหล่านี้เป็นบัญชีบางส่วน 2 หากคุณคุ้นเคยกับ ANOVA ของตัวแบบเชิงเส้นนี่จะไม่มีอะไรมากไปกว่าการลดสัดส่วนลงในผลรวมข้อผิดพลาดของกำลังสองที่คุณจะทำได้โดยการรวมตัวแปรนี้ลงในแบบจำลองของคุณ เปอร์เซ็นต์ที่สูงนั้นเป็นที่ต้องการในขณะที่คนที่มีระดับต่ำอาจทำให้คุณคิดว่านี่เป็นการกระทำที่ถูกต้องหรือไม่ R2

ดังนั้นตามที่ @ cardinal ชี้ให้เห็นในความคิดเห็นสัมประสิทธิ์การตัดสินใจใหม่ของคุณอาจสูงถึง 1 และอาจต่ำเพียง 0.400001 ไม่มีวิธีที่จะบอกได้หากไม่มีข้อมูลเพิ่มเติม


@JohnK คุณจะอธิบายเพิ่มเติมได้หรือไม่ว่าทำไมจึงต้องมีขนาดใหญ่กว่า 0.4 อย่างเคร่งครัด การตีความทางเรขาคณิตของการถดถอยจะช่วยได้ไหม
Dnaiel

@Dnaiel สัมประสิทธิ์การตัดสินใจไม่ลดลงตามจำนวนตัวแปรในตัวแบบ
JohnK

3

สัมประสิทธิ์การตัดสินใจในการถดถอยเชิงเส้นหลายเส้น:ในการถดถอยเชิงเส้นแบบหลายเส้นสัมประสิทธิ์การตัดสินใจสามารถเขียนได้ในรูปของสหสัมพันธ์คู่สำหรับตัวแปรโดยใช้รูปแบบสมการกำลังสอง:

R2=ry,xTrx,x1ry,x,

โดยที่เป็นเวกเตอร์ของสหสัมพันธ์ระหว่างเวกเตอร์การตอบสนองและเวกเตอร์ที่อธิบายแต่ละอันและเป็นเมทริกซ์ของสหสัมพันธ์ระหว่างเวกเตอร์อธิบาย (สำหรับข้อมูลเพิ่มเติมให้ดูคำถามที่เกี่ยวข้องนี้) ในกรณีของการถดถอยแบบ bivariate คุณมี:ry,xrx,x

R2=[rY,X1rY,X2]T[1rX1,X2rX1,X21]1[rY,X1rY,X2]=11rX1,X22[rY,X1rY,X2]T[1rX1,X2rX1,X21][rY,X1rY,X2]=11rX1,X22(rY,X12+rY,X222rX1,X2rY,X1rY,X2).

คุณไม่ได้ระบุทิศทางของความสัมพันธ์ที่ไม่เปลี่ยนแปลงในคำถามของคุณดังนั้นเราจะแสดงว่า\} การแทนที่ค่าของคุณและอัตราผลตอบแทน:Dsgn(rY,X1)sgn(rY,X2){1,+1}rY,X12=0.3rY,X22=0.4

R2=0.720.12DrX1,X21rX1,X22.

เป็นไปได้สำหรับเนื่องจากเป็นไปได้ที่ข้อมูลที่รวมกันจากตัวแปรทั้งสองนั้นจะมากกว่าผลรวมของชิ้นส่วน ปรากฏการณ์ที่น่าสนใจนี้เรียกว่า 'การเพิ่มประสิทธิภาพ' (ดูตัวอย่างเช่นLewis และ Escobar 1986 )R2>0.7

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.