ผลของการตอบสนองการสลับและตัวแปรอธิบายในการถดถอยเชิงเส้นอย่างง่าย


48

สมมติว่ามีความสัมพันธ์ "จริง" ระหว่างyกับxเช่นy=ax+b+ϵโดยที่aและbเป็นค่าคงที่และϵคือเสียงรบกวนปกติ เมื่อฉันสุ่มสร้างข้อมูลจากรหัส R ว่าx <- 1:100; y <- ax + b + rnorm(length(x))แล้วเหมาะสมกับรูปแบบเหมือนy ~ xที่ผมเห็นได้ชัดว่าได้รับการประมาณการที่ดีพอสมควรสำหรับและขab

ถ้าฉันสลับบทบาทของตัวแปรในขณะ(x ~ y)นั้นจากนั้นเขียนผลลัพธ์ใหม่เพื่อให้yเป็นฟังก์ชันของxความชันที่ได้จะเป็นทางลาดชันเสมอ (อาจเป็นลบมากกว่าหรือเป็นบวกมากกว่า) โดยประมาณจากการy ~ xถดถอย ฉันพยายามที่จะเข้าใจว่าทำไมถึงเป็นเช่นนั้นและจะขอบคุณถ้าใครสามารถให้สัญชาตญาณฉันว่าเกิดอะไรขึ้นที่นั่น


1
โดยทั่วไปไม่เป็นเช่นนั้น บางทีคุณอาจเห็นสิ่งนั้นในข้อมูลของคุณ วางรหัสนี้: y = rnorm (10); x = rnorm (10); LM (y ~ x); LM (x ~ y); ใน R หลายครั้งแล้วคุณจะพบว่ามันไปได้ทั้งสองทาง
มาโคร

มันแตกต่างจากที่ฉันอธิบายอยู่เล็กน้อย ในตัวอย่างของคุณ y ไม่ใช่ฟังก์ชันของ x เลยดังนั้นจึงไม่มี "ความชัน" (ตัวอย่าง 'a' ในตัวอย่างของฉัน)
Greg Aponte

lm (y ~ x) เหมาะกับโมเดลy=β0+β1x+εโดยกำลังสองน้อยที่สุด (เทียบเท่ากับการประมาณ ML เมื่อข้อผิดพลาดคือ iid ปกติ) มีความลาดชัน
มาโคร

2
คำถามของคุณจะถูกถามและตอบ (ประเภท) ที่stats.stackexchange.com/questions/13126และstats.stackexchange.com/questions/18434 อย่างไรก็ตามฉันเชื่อว่าไม่มีใครให้คำอธิบายที่เรียบง่ายและชัดเจนเกี่ยวกับความสัมพันธ์ระหว่าง (a) การถดถอยของY vs X , (b) การถดถอยของX vs Y , (c) การวิเคราะห์ความสัมพันธ์ของXและY , (d) ข้อผิดพลาดในการถดถอยของตัวแปรXและYและ (จ) การปรับการกระจายปกติ bivariate การ(X,Y) ) นี่จะเป็นสถานที่ที่ดีสำหรับการจัดนิทรรศการ :-)
whuber

2
แน่นอนว่ามาโครนั้นถูกต้อง: เนื่องจาก x และ y มีบทบาทที่เทียบเท่าในคำถามซึ่งความชันนั้นมากเกินไปเป็นเรื่องของโอกาส อย่างไรก็ตามเรขาคณิตแสดงให้เห็น (ไม่ถูกต้อง) ว่าเมื่อเราย้อนกลับ x และ y ในการถดถอยเราควรได้รับการยอมแพ้ของความชันดั้งเดิม สิ่งนั้นไม่เคยเกิดขึ้นยกเว้นเมื่อ x และ y ขึ้นอยู่กับแนวเส้นตรง คำถามนี้สามารถตีความได้ว่าถามว่าทำไม
whuber

คำตอบ:


23

ได้รับจุดข้อมูล( x ฉัน , Y ฉัน ) , ฉัน= 1 , 2 , ... nในเครื่องบินให้เราวาดเส้นตรง Y = x + ถ้าเราคาดการณ์x ฉัน + Bเป็นค่าYฉันของY ฉันแล้วข้อผิดพลาดคือ( Y ฉัน- Yฉัน ) = ( Yn(xi,yi),i=1,2,ny=ax+baxi+by^iyiที่ผิดพลาดยกกำลังสองคือ ( Y ฉัน - x ฉัน - ) 2และข้อผิดพลาด Squared รวม Σ n ฉัน= 1 ( Y ฉัน - x ฉัน - ) 2 เราถาม(yiy^i)=(yiaxib)(yiaxib)2 i=1n(yiaxib)2

ตัวเลือกใดของและ bย่อขนาด S = n i = 1 ( y i - a x i - b ) 2 ?abS=i=1n(yiaxib)2

เนื่องจากคือระยะทางแนวดิ่งของ( x i , y i )จากเส้นตรงเราจึงถามหาเส้นดังกล่าวว่าผลรวมของกำลังสองของระยะทางแนวดิ่งของคะแนนจาก บรรทัดมีขนาดเล็กที่สุด ตอนนี้S เป็นฟังก์ชันกำลังสองของทั้งaและbและบรรลุค่าต่ำสุดเมื่อaและbเป็นเช่นนั้น S(yiaxib)(xi,yi)Sabab จากสมการที่สองเราได้ b=1

Sa=2i=1n(yiaxib)(xi)=0Sb=2i=1n(yiaxib)(1)=0
โดยที่ μy=1
b=1ni=1n(yiaxi)=μyaμx
มีค่าเฉลี่ยเลขคณิตของYฉัน's และxฉัน' s ตามลำดับ แทนค่าลงในสมการแรกเราจะได้ a=( 1μy=1ni=1nyi, μx=1ni=1nxiyixi ดังนั้นบรรทัดที่ย่อขนาดSสามารถแสดงเป็น y=ax+b=μy+((1
a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2.
S และค่าต่ำสุดของSคือ Sนาที=[(1
y=ax+b=μy+((1ni=1nxiyi)μxμy(1ni=1nxi2)μx2)(xμx),
S
Smin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nxi2)μx2.

ถ้าเราแลกเปลี่ยนบทบาทของและy ที่วาดเส้น x = Y + Bและขอค่าของ และที่ลด T = n Σฉัน= 1 ( x ฉัน- Y ฉัน- ) 2 , ที่อยู่, เราต้องการเส้นดังกล่าวว่าผลรวมของสี่เหลี่ยมที่แนวนอนระยะห่างของจุดจากบรรทัดที่มีขนาดเล็กที่สุดเท่าที่เป็นไปได้แล้วที่เราได้รับxyx=a^y+b^a^b^

T=i=1n(xia^yib^)2,

และค่าต่ำสุดของTคือ Tmin=[(1

x=a^y+b^=μx+((1ni=1nxiyi)μxμy(1ni=1nyi2)μy2)(yμy)
T
Tmin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nyi2)μy2.

โปรดทราบว่าทั้งสองเส้นผ่านจุด แต่เนินเขาที่มี = ( 1(μx,μy) แตกต่างกันโดยทั่วไป ที่จริงเมื่อ @whuber ชี้ให้เห็นในความคิดเห็นเนินเขาจะเหมือนกันเมื่อคะแนนทั้งหมด(xi,yi)อยู่บนเส้นตรงเดียวกัน หากต้องการดูนี้ทราบว่า -1-=Sนาที

a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2,  a^1=(1ni=1nyi2)μy2(1ni=1nxiyi)μxμy
(xi,yi)
a^1a=Smin(1ni=1nxiyi)μxμy=0Smin=0yi=axi+b,i=1,2,,n.

ขอบคุณ! abs (สหสัมพันธ์) <1 อธิบายสาเหตุที่ความชันลาดชันอย่างเป็นระบบในกรณีที่ตรงกันข้าม
Greg Aponte

(+1) แต่ผมเพิ่มคำตอบมีเพียงภาพของสิ่งที่คุณเพิ่งกล่าวว่าที่ผมมีจิตใจเรขาคณิต :)
เอลวิส

การตอบกลับในชั้นเรียน (+1)
Digio

39

เพียงเพื่อแสดงคำตอบของ Dilip: ในภาพต่อไปนี้

  • จุดสีดำเป็นจุดข้อมูล
  • ด้านซ้าย, เส้นสีดำคือเส้นถดถอยที่ได้จากy ~ x, ซึ่งจะลดกำลังสองของความยาวของส่วนสีแดง;
  • ด้านขวาเส้นสีดำคือเส้นถดถอยที่ได้จากx ~ yซึ่งจะลดกำลังสองของความยาวของส่วนสีแดง

เส้นการถดถอย

แก้ไข (การถดถอยสี่เหลี่ยมน้อยที่สุด)

yx

  • Y=aX+b+ϵ
  • y^i=axi+bx^i=1a(yib)YiX=xiXiY=yi
  • i|xix^i||yiy^i|
    y^=sign(cov(x,y))σ^yσ^x(xx¯)+y¯.

นี่คือภาพประกอบที่มีจุดข้อมูลเดียวกันสำหรับแต่ละจุดจะมีการคำนวณ "รูปสี่เหลี่ยมผืนผ้า" เป็นผลคูณของความยาวของส่วนสีแดงสองส่วนและผลรวมของรูปสี่เหลี่ยมผืนผ้าจะถูกย่อให้เล็กสุด ฉันไม่รู้อะไรมากเกี่ยวกับคุณสมบัติของการถดถอยนี้และฉันก็ไม่ค่อยพบอะไรกับ google

สี่เหลี่ยมผืนผ้าน้อยที่สุด


14
X=(y,x)

14
δ=1

2
@cardinal ความคิดเห็นที่น่าสนใจมาก! (+1) ฉันเชื่อว่าแกนหลัก (การลดระยะห่างในแนวตั้งฉากระหว่าง reg. line และจุดทั้งหมด, à la PCA) หรือลดการถดถอยของแกนหลักหรือการถดถอยประเภท II ตามที่อธิบายไว้ในแพ็คเกจ lmodel2 R โดย P Legendre เนื่องจากเทคนิคเหล่านั้นใช้เมื่อมันยากที่จะบอกว่าบทบาท (การตอบสนองหรือการทำนาย) เล่นแต่ละตัวแปรหรือเมื่อเราต้องการบัญชีสำหรับข้อผิดพลาดในการวัด
chl

1
@chl: (+1) ใช่ฉันเชื่อว่าคุณพูดถูกและหน้า Wikipedia บนพื้นที่สี่เหลี่ยมจัตุรัสขั้นต่ำสุดแสดงรายการชื่ออื่น ๆ อีกหลายชื่อสำหรับขั้นตอนเดียวกันไม่ใช่ทั้งหมดที่ฉันคุ้นเคย แต่ดูเหมือนว่ามันจะกลับไปอย่างน้อยอาร์ Frisch, วิเคราะห์บรรจบกันทางสถิติโดยวิธีการของระบบการถดถอยสมบูรณ์ , Universitetets Økonomiske Instituut 1934 ที่มันถูกเรียกว่าการถดถอยเส้นทแยงมุม
พระคาร์ดินัล

3
@ cardinal ฉันควรระวังให้มากขึ้นเมื่ออ่านรายการ Wikipedia ... สำหรับการอ้างอิงในอนาคตนี่คือภาพจากการออกแบบและวิเคราะห์ทางชีวสถิติโดยใช้ Rโดย M. Logan (Wiley, 2010; Fig. 8.4, p. 174) ซึ่งสรุปวิธีการต่าง ๆ เหมือนภาพวาดที่สวยงามของ Elvis
chl

13

xysxsyxyryrsysxxrsxsyr21

ดังนั้นสัดส่วนของความแปรปรวนที่มากขึ้นอธิบายให้มากขึ้นความชันที่ได้จากแต่ละกรณี โปรดทราบว่าสัดส่วนของความแปรปรวนที่อธิบายไว้คือสมมาตรและเท่ากับความสัมพันธ์กำลังสองในการถดถอยเชิงเส้นอย่างง่าย


1

y=α+βx+ϵ

  • y=ayx+byxx
  • x=axy+bxyy

byx=cov(x,y)var(x)=cov(x,y)var(y)var(y)var(x)

byx=bxyvar(y)var(x)

var(y)var(x)

var(y)var(x)=β2var(x)+var(ϵ)var(x)

เชื่อมโยงกับคำตอบอื่น ๆ

R2=1R2=1var(ϵ)=0byx=β

R2=1byx=bxyβ2var(x)+0var(x)=bxyβ2

bxy=1/β


0

มันน่าสนใจเมื่อมีสัญญาณรบกวนในอินพุตของคุณ (ซึ่งเราสามารถโต้แย้งได้เสมอในกรณีนี้ไม่มีคำสั่งหรือการสังเกตใดที่สมบูรณ์แบบ)

x=y

x = np.linspace(0, 1, n)
y = x

x_o = x + np.random.normal(0, 0.2, n)
y_o = y + np.random.normal(0, 0.2, n)

เห็นผลลัพธ์ที่แตกต่างกัน (odr นี่คือการถดถอยระยะทางมุมฉากคือเช่นเดียวกับการถดถอยสี่เหลี่ยมน้อยที่สุด):

ป้อนคำอธิบายรูปภาพที่นี่

รหัสทั้งหมดอยู่ในนั้น:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd


0

เส้นการถดถอยไม่ใช่ (เสมอ) เหมือนกับความสัมพันธ์ที่แท้จริง

คุณอาจมีความสัมพันธ์เชิงสาเหตุบางอย่างเช่น

y=a+bx+ϵ

แต่พอดีเส้นถดถอยy ~ xหรือx ~ yไม่ได้หมายความว่าเหมือนความสัมพันธ์เชิงสาเหตุที่ (แม้ในทางปฏิบัติการแสดงออกสำหรับหนึ่งในสายการถดถอยอาจตรงกับการแสดงออกสำหรับความสัมพันธ์ 'จริง' สาเหตุ)


ความสัมพันธ์ที่แม่นยำยิ่งขึ้นระหว่างทางลาด

สำหรับการถดถอยเชิงเส้นแบบสลับสองแบบง่าย ๆ :

Y=a1+b1XX=a2+b2Y

คุณสามารถเชื่อมโยงความลาดชันดังต่อไปนี้:

b1=ρ21b21b2

ดังนั้นทางลาดจึงไม่ตรงกันข้ามกัน


ปรีชา

เหตุผลก็คือ

  • เส้นการถดถอยและสหสัมพันธ์ไม่จำเป็นต้องสอดคล้องกันแบบหนึ่งต่อหนึ่งกับความสัมพันธ์เชิงสาเหตุ
  • เส้นการถดถอยมีความสัมพันธ์โดยตรงกับความน่าจะเป็นแบบมีเงื่อนไขหรือการทำนายที่ดีที่สุด

คุณสามารถจินตนาการว่าความน่าจะเป็นแบบมีเงื่อนไขเกี่ยวข้องกับจุดแข็งของความสัมพันธ์ เส้นการถดถอยแสดงถึงสิ่งนี้และความลาดชันของเส้นอาจมีทั้งความตื้นเมื่อความแข็งแรงของความสัมพันธ์มีขนาดเล็กหรือสูงชันทั้งสองเมื่อความแข็งแรงของความสัมพันธ์นั้นแข็งแกร่ง ความลาดชันไม่ได้ตรงกันข้ามกัน

ตัวอย่าง

XY

Y=a little bit of X+ a lot of error
XY

แทน

X=a lot of Y+ a little of error

มันจะดีกว่าที่จะใช้

X=a little bit of Y+ a lot of error

Σ11Σ22=1Σ12=Σ21=ρ

ตัวอย่าง

ค่าที่คาดหวังตามเงื่อนไข (สิ่งที่คุณจะได้รับจากการถดถอยเชิงเส้น) คือ

E(Y|X)=ρXE(X|Y)=ρY

X,Y

YN(ρX,1ρ2)XN(ρY,1ρ2)

ρX1ρ2

ρY ~ XX ~ Y


0

คำตอบสั้น ๆ

เป้าหมายของการถดถอยเชิงเส้นอย่างง่ายคือการคาดคะเนyตัวแปรที่ดีที่สุดโดยกำหนดค่าของxตัวแปร นี่คือเป้าหมายที่แตกต่างจากการพยายามหาคำทำนายที่ดีที่สุดของxตัวแปรโดยให้ค่าของyตัวแปร

การถดถอยเชิงเส้นที่เรียบง่ายของy ~ xช่วยให้คุณ 'ที่ดีที่สุดรูปแบบที่เป็นไปได้ในการทำนายที่กำหนดy xดังนั้นหากคุณเหมาะสมกับรูปแบบการและพีชคณิตคว่ำมันรูปแบบที่จะทำได้ดีที่สุดเพียงทำเช่นเดียวกับรูปแบบที่ดีมากสำหรับx ~ y y ~ xแต่กลับหัวเป็นแบบจำลองสำหรับx ~ yมักจะทำเลวร้ายที่ทำนายyได้รับxเมื่อเทียบกับ 'ดีที่สุด' y ~ xรุ่นเพราะ "ฤๅษีx ~ yรุ่น" ถูกสร้างขึ้นเพื่อตอบสนองวัตถุประสงค์ที่แตกต่างกัน

ภาพประกอบ

ลองนึกภาพคุณมีชุดข้อมูลต่อไปนี้:

ป้อนคำอธิบายรูปภาพที่นี่

เมื่อคุณเรียกใช้ OLS regression y ~ xคุณจะพบกับโมเดลต่อไปนี้

y = 0.167 + 1.5*x

สิ่งนี้จะปรับการคาดการณ์ของyโดยทำการคาดการณ์ต่อไปนี้ซึ่งมีข้อผิดพลาดที่เกี่ยวข้อง:

ป้อนคำอธิบายรูปภาพที่นี่

การทำนายถดถอยของ OLS นั้นเหมาะสมที่สุดในแง่ที่ว่าผลรวมของค่าในคอลัมน์ขวาสุด (เช่นผลรวมของกำลังสอง) มีขนาดเล็กเท่าที่จะทำได้

เมื่อคุณใช้ OLS regression x ~ yคุณจะพบกับโมเดลที่แตกต่าง:

x = -0.07 + 0.64*y

สิ่งนี้ปรับการทำนายของ x ด้วยการคาดการณ์ต่อไปนี้พร้อมกับข้อผิดพลาดที่เกี่ยวข้อง

ป้อนคำอธิบายรูปภาพที่นี่

สิ่งนี้เป็นวิธีที่ดีที่สุดในแง่ที่ว่าผลรวมของค่าของคอลัมน์ขวาสุดมีขนาดเล็กที่สุดเท่าที่จะเป็นไปได้ (เท่ากับ0.071)

ทีนี้ลองนึกภาพว่าคุณพยายามที่จะย้อนกลับโมเดลแรกy = 0.167 + 1.5*xโดยใช้พีชคณิตเพื่อให้แบบจำลองx = -0.11 + 0.67*xแก่คุณ

สิ่งนี้จะให้การคาดการณ์และข้อผิดพลาดที่เกี่ยวข้องกับคุณดังต่อไปนี้:

ป้อนคำอธิบายรูปภาพที่นี่

ผลรวมของค่าในคอลัมน์ขวาสุดคือ0.074ซึ่งมีขนาดใหญ่กว่าผลรวมที่สอดคล้องกันจากแบบจำลองที่คุณได้รับจากการถดถอย x บน y นั่นคือx ~ yแบบจำลอง ในคำอื่น ๆ ที่ "คว่ำy ~ xรุ่น" จะทำงานที่เลวร้ายที่ทำนาย x กว่ารุ่น OLS x ~ yของ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.