สมการความสัมพันธ์ตัวอย่างและสถิติ R สำหรับการถดถอยเชิงเส้นอย่างง่าย


10

มันมักจะระบุว่าสแควร์ของความสัมพันธ์ตัวอย่างเทียบเท่ากับสัมประสิทธิ์การตัดสินใจสำหรับการถดถอยเชิงเส้นอย่างง่าย ฉันไม่สามารถแสดงให้เห็นถึงสิ่งนี้ได้ด้วยตนเองและขอขอบคุณที่พิสูจน์ความจริงทั้งหมดนี้R 2r2R2


1
หากนี่เป็นคำถามที่ศึกษาด้วยตนเองโปรดเพิ่มแท็กที่เหมาะสม
Andy

คำถามนี้ยังถามว่าทำไม 2 R2=r2
Silverfish

คำตอบ:


8

ดูเหมือนว่าจะมีการเปลี่ยนแปลงบางอย่างในสัญกรณ์: ในการถดถอยเชิงเส้นที่เรียบง่ายที่ผมเคยเห็นมักจะวลี "ค่าสัมประสิทธิ์สหสัมพันธ์ตัวอย่าง" ที่มีสัญลักษณ์ที่อ้างอิงถึงความสัมพันธ์ระหว่างสังเกตและค่า นี่คือสัญลักษณ์ที่ฉันได้นำมาใช้สำหรับคำตอบนี้ ฉันได้เห็นวลีและสัญลักษณ์เดียวกันที่ใช้เพื่ออ้างถึงความสัมพันธ์ระหว่างสังเกตและที่ติดตั้ง ; ในคำตอบของฉันฉันได้นี้เรียกว่า "ค่าสัมประสิทธิ์สหสัมพันธ์หลาย" และใช้สัญลักษณ์Rคำตอบนี้อยู่ทำไมค่าสัมประสิทธิ์การตัดสินใจเป็นทั้งสองของและยังตารางของx Y Y Y R R Rrxyyy^RrRดังนั้นจึงไม่ควรกังวลว่าจะใช้งานแบบใด

ผลดังนี้ในหนึ่งบรรทัดของพีชคณิตครั้งเดียวบางส่วนข้อเท็จจริงที่ตรงไปตรงมาเกี่ยวกับความสัมพันธ์และความหมายของจะจัดตั้งขึ้นเพื่อให้คุณอาจต้องการที่จะข้ามลงไปที่สมการบรรจุกล่อง ฉันคิดว่าเราไม่ต้องพิสูจน์คุณสมบัติพื้นฐานของความแปรปรวนร่วมและความแปรปรวนโดยเฉพาะอย่างยิ่ง: Rr2R

Var ( a X + b ) = a 2 Var ( X )

Cov(aX+b,Y)=aCov(X,Y)
Var(aX+b)=a2Var(X)

หมายเหตุที่หลังจะได้รับจากอดีตเมื่อเราทราบความแปรปรวนที่เป็นสมมาตรและว่าX) จากที่นี่เราได้รับข้อเท็จจริงพื้นฐานอีกเรื่องเกี่ยวกับสหสัมพันธ์ สำหรับและตราบใดที่และมีความแปรปรวนที่ไม่ใช่ศูนย์a 0 X YVar(X)=Cov(X,X)a0XY

Cor(aX+b,Y)=Cov(aX+b,Y)Var(aX+b)Var(Y)=aa2×Cov(X,Y)Var(X)Var(Y)Cor(aX+b,Y)=sgn(a)Cor(X,Y)

นี่เป็นฟังก์ชัน signum หรือ sign : ค่าของมันคือถ้าและถ้า . มันเป็นความจริงที่ถ้าแต่กรณีนั้นไม่เกี่ยวข้องกับเรา:จะเป็นค่าคงที่ดังนั้นใน ตัวส่วนและเราไม่สามารถคำนวณความสัมพันธ์ได้ อาร์กิวเมนต์ที่สมมาตรให้เราพูดคุยกันผลลัพธ์นี้สำหรับ :sgn ( a ) = + 1 a > 0 sgn ( a ) = - 1 a < 0 sgn ( a ) = 0 a = 0 a X + b Var ( a X + b ) = 0 a ,sgn(a)sgn(a)=+1a>0sgn(a)=1a<0sgn(a)=0a=0aX+bVar(aX+b)=0a,c0

Cor(aX+b,cY+d)=sgn(a)sgn(c)Cor(X,Y)

เราไม่ต้องการสูตรทั่วไปมากขึ้นเพื่อตอบคำถามปัจจุบัน แต่ฉันรวมไว้เพื่อเน้นเรขาคณิตของสถานการณ์: มันเพียงแค่ระบุว่าสหสัมพันธ์นั้นไม่เปลี่ยนแปลงเมื่อตัวแปรถูกปรับหรือแปล แต่กลับเข้าสู่ระบบเมื่อตัวแปรคือ สะท้อนให้เห็นถึง

เราจำเป็นต้องใช้ความเป็นจริงมากขึ้นเพราะรูปแบบเชิงเส้นรวมทั้งระยะคงที่ค่าสัมประสิทธิ์การตัดสินใจเป็นตารางของหลายค่าสัมประสิทธิ์สหสัมพันธ์ซึ่งเป็นความสัมพันธ์ระหว่างการตอบสนองสังเกตและค่าติดตั้งรูปแบบของY นี้ใช้สำหรับทั้งหลายและง่ายถดถอย แต่ให้เรา จำกัด ความสนใจของเราไปแบบเชิงเส้นอย่างง่ายX ผลลัพธ์ดังต่อไปนี้จากการสังเกตว่าเป็นส่วนที่ปรับขนาดอาจสะท้อนและแปลแล้ว: R Y Y Y = β 0 + β 1 X Y XR2RYY^Y^=β^0+β^1XY^X

R=Cor(Y^,Y)=Cor(β^0+β^1X,Y)=sgn(β^1)Cor(X,Y)=sgn(β^1)r

ดังนั้นโดยที่เครื่องหมายตรงกับเครื่องหมายของความชันโดยประมาณซึ่งรับประกันว่าจะไม่เป็นลบ เห็นได้ชัดว่า 2R=±rRR2=r2

อาร์กิวเมนต์ก่อนหน้านี้ถูกทำให้ง่ายขึ้นโดยไม่ต้องพิจารณาผลบวกของกำลังสอง เพื่อให้บรรลุสิ่งนี้ฉันข้ามรายละเอียดของความสัมพันธ์ระหว่างซึ่งโดยปกติเราคิดในแง่ของผลรวมของกำลังสองและซึ่งเราคิดเกี่ยวกับสหสัมพันธ์ของการตอบสนองที่พอดีและสังเกต สัญลักษณ์ที่ทำให้ความสัมพันธ์ดูเหมือนจะซ้ำซาก แต่ไม่ใช่ในกรณีนี้และความสัมพันธ์จะแยกออกหากไม่มีคำดักจับในแบบจำลอง! ฉันจะให้ภาพร่างสั้น ๆ ของการโต้แย้งทางเรขาคณิตเกี่ยวกับความสัมพันธ์ระหว่างและนำมาจากคำถามที่แตกต่าง : แผนภาพถูกวาดในพื้นที่หัวเรื่อง -dimensionalR2RR2=(R)2RR2nดังนั้นแต่ละแกน (ไม่แสดง) หมายถึงหนึ่งหน่วยของการสังเกตและตัวแปรจะแสดงเป็นเวกเตอร์ คอลัมน์ของเมทริกซ์การออกแบบคือ vector (สำหรับคำศัพท์คงที่) และเวกเตอร์ของการสังเกตการณ์ของตัวแปรอธิบายดังนั้นพื้นที่คอลัมน์จึงมีสองมิติX1n

เวกเตอร์ในหัวเรื่องของการถดถอยหลายครั้ง

ติดตั้งเป็นประมาณการมุมฉากของที่สังเกตบนพื้นที่คอลัมน์ของ{X} ซึ่งหมายความว่าเวกเตอร์ของคลาดเคลื่อนจะตั้งฉากกับแบนและด้วยเหตุนี้เพื่อ{} ผลิตภัณฑ์ dot เป็นe_i เมื่อผลรวมที่เหลือเป็นศูนย์และดังนั้นเพื่อให้ทั้งติดตั้งและสังเกตการตอบสนอง มีค่าเฉลี่ย{Y} เส้นประในแผนภาพและY^YXe=yy^1n0=1ne=i=1neiYi=Yi^+eii=1nYi=i=1nYi^Y¯YY¯1nY^Y¯1nเป็นดังนั้นจึงเป็นศูนย์กลางพาหะสำหรับการตอบสนองข้อสังเกตและติดตั้งและโคไซน์ของมุมที่ระหว่างพวกเขาคือความสัมพันธ์ของพวกเขาRθR

รูปสามเหลี่ยมเหล่านี้เป็นเวกเตอร์ที่มีเวกเตอร์ของส่วนที่เหลือเป็นมุมฉากเนื่องจากอยู่ในแนวราบ แต่ เป็นมุมฉากกับมัน การใช้ Pythagoras:Y^Y¯1ne

YY¯1n2=YY^2+Y^Y¯1n2

นี่เป็นเพียงการสลายตัวของผลรวมของช่องสี่เหลี่ยมที่{ถดถอย}} สูตรดั้งเดิมสำหรับสัมประสิทธิ์การตัดสินใจคือซึ่งในรูปสามเหลี่ยมนี้คือเป็นจัตุรัสของอย่างแน่นอน คุณอาจคุ้นเคยกับสูตรซึ่งให้แต่ให้สังเกตว่าเป็นแบบทั่วไปและจะลดลงเป็นSStotal=SSresidual+SSregression1SSresidualSStotal1sin2θ=cos2θRR2=SSregressionSStotalcos2θ1SSresidualSStotalSSregressionSStotal ถ้าระยะคงที่รวมอยู่ในรูปแบบ


+1 ขอบคุณสำหรับความพยายามในการสร้างคณิตศาสตร์และกราฟที่ดี !!
Haitao Du

4

ถูกกำหนดให้เป็น สัมประสิทธิ์สหสัมพันธ์ตัวอย่างกำลังสอง: เทียบเท่ากันเนื่องจากสามารถตรวจสอบได้อย่างง่ายดายโดยใช้: (ดูVerbeek , §2.4)R2

R2=V^(y^i)V^(yi)=1/(N1)i=1N(y^iy¯)21/(N1)i=1N(yiy¯)2=ESSTSS
V(Yฉัน)=V( Yฉัน)+V(อีฉัน)
r2(yi,y^i)=(i=1N(yiy¯)(y^iy¯))2(i=1N(yiy¯)2)(i=1N(y^iy¯)2)
V^(yi)=V^(y^i)+V^(ei)

คุณช่วยเพิ่มรายละเอียดเพิ่มเติมได้ไหม ฉันพยายามพิสูจน์เรื่องนี้ แต่ไม่มีความสำเร็จ ...
ชายชราในทะเล
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.