การตีความทางเรขาคณิตของสัมประสิทธิ์สหสัมพันธ์


24

ฉันสนใจในความหมายทางเรขาคณิตของค่าสหสัมพันธ์และสัมประสิทธิ์การตัดสินใจในการถดถอยหรือในสัญกรณ์เวกเตอร์RR2yi=β1+β2x2,i++βkxk,i+ϵi

y=Xβ+ϵ

นี่คือการออกแบบเมทริกซ์มีแถวและคอลัมน์ที่แรกคือ , เวกเตอร์ของ 1s ที่สอดคล้องกับการตัด\Xnkx1=1nβ1

รูปทรงเรขาคณิตน่าสนใจยิ่งขึ้นในพื้นที่หัวเรื่อง -dimensional มากกว่าในพื้นที่ตัวแปร -dimensional กำหนดเมทริกซ์หมวก:nk

H=X(XX)1X

นี่คือการฉายฉากบนพื้นที่คอลัมน์ของคือแบน ผ่านกำเนิดทอดโดยเวกเตอร์เป็นตัวแทนของแต่ละตัวแปรคนแรกซึ่งเป็น\จากนั้นโครงการเวกเตอร์ของการตอบสนองที่สังเกตบน "เงา" ของมันบนพื้นราบเวกเตอร์ของค่าติดตั้งและถ้าเรา มองไปตามเส้นทางของเส้นโครงที่เราเห็นเวกเตอร์ของเศษเหลือสร้างด้านที่สามของรูปสามเหลี่ยม สิ่งนี้น่าจะให้ทางเราสองทางในการตีความทางเรขาคณิตของXxฉัน1 n H Y Y = H Y E = Y - Y R 2kxi1nHyy^=Hye=yy^R2:

  1. ตารางของค่าสัมประสิทธิ์สหสัมพันธ์หลายซึ่งถูกกำหนดให้เป็นความสัมพันธ์ระหว่างและ{y}} สิ่งนี้จะปรากฏทางเรขาคณิตเป็นโคไซน์ของมุมY YRyy^
  2. ในแง่ของความยาวของเวกเตอร์: ยกตัวอย่างเช่น 2SSresidual=i=1nei2=e2

ฉันยินดีที่จะเห็นบัญชีสั้น ๆ ซึ่งอธิบาย:

  • รายละเอียดปลีกย่อยสำหรับ (1) และ (2)
  • ทำไม (1) และ (2) จึงเท่ากัน
  • สั้น ๆ ว่าความเข้าใจทางเรขาคณิตช่วยให้เราเห็นภาพคุณสมบัติพื้นฐานของR2อย่างไรตัวอย่างเช่นทำไมมันถึง 1 เมื่อความแปรปรวนของเสียงไปที่ 0 (ท้ายที่สุดแล้วถ้าเราไม่สามารถตรัสรู้จากการมองเห็นของเราได้ ภาพสวย.)

ฉันขอขอบคุณที่นี่ตรงไปตรงมามากขึ้นถ้าตัวแปรอยู่ตรงกลางก่อนซึ่งจะตัดการสกัดออกจากคำถาม อย่างไรก็ตามในบัญชีตำราเรียนส่วนใหญ่ที่แนะนำการถดถอยหลายครั้งเมทริกซ์การออกแบบเป็นไปตามที่ฉันได้จัดทำ แน่นอนว่ามันเป็นเรื่องที่ดีถ้างานนิทรรศการเจาะลึกลงไปในอวกาศที่ถูกแปรโดยตัวแปรที่อยู่กึ่งกลาง แต่สำหรับการทำความเข้าใจเกี่ยวกับพีชคณิตเชิงเส้นของหนังสือเรียน ลึกซึ้งจริงๆคำตอบอาจอธิบายได้ว่าเป็นสิ่งที่จะหมดสภาพเรขาคณิตเมื่อระยะตัดจะลดลง - คือเมื่อเวกเตอร์1 nX1nจะถูกลบออกจากชุดสแปน ฉันไม่คิดว่าจุดสุดท้ายนี้สามารถแก้ไขได้โดยพิจารณาจากตัวแปรที่อยู่ตรงกลาง

คำตอบ:


47

หากมีคำที่คงที่ในแบบจำลองอยู่ในพื้นที่คอลัมน์ของ (เช่นซึ่งจะมีประโยชน์ในภายหลัง) การติดตั้งคือมุมฉากของภาพสังเกตได้บนที่ราบที่เกิดจากพื้นที่คอลัมน์ ซึ่งหมายความว่าเวกเตอร์ของคลาดเคลื่อนจะตั้งฉากกับแบนและด้วยเหตุนี้เพื่อ{} เมื่อพิจารณาจากผลิตภัณฑ์ dot เราจะเห็นดังนั้นส่วนประกอบของจะต้องรวมเป็นศูนย์ เนื่องจากเราจึงสรุปได้ว่า X ˉ Y 1 n Y Y E = Y - Y 1 n Σ n ฉัน= 1อีฉัน =0 E Y ฉัน = ^ Y ฉัน +อีฉันΣ n ฉัน= 11nXY¯1nY^Ye=yy^1ni=1nei=0eYi=Yi^+ei ˉ Yi=1nYi=i=1nYi^เพื่อให้ตอบสนองทั้งการติดตั้งและการสังเกตมีค่าเฉลี่ย{Y}Y¯

เวกเตอร์ในหัวเรื่องของการถดถอยหลายครั้ง

เส้นประในแผนภาพแสดงและซึ่งเป็นเวกเตอร์กึ่งกลางสำหรับการตอบสนองที่สังเกตและติดตั้ง โคไซน์ของมุมระหว่างเวกเตอร์เหล่านี้จึงจะมีความสัมพันธ์ของและซึ่งโดยความหมายเป็นหลายค่าสัมประสิทธิ์สหสัมพันธ์Rรูปสามเหลี่ยมเวกเตอร์เหล่านี้มีเวกเตอร์ของเศษเหลืออยู่เป็นมุมฉากตั้งแต่อยู่ในแนวราบ แต่ เป็นมุมฉากกับมัน ดังนั้น:Y - ˉ Y 1 n θ YYY¯1nY^Y¯1nθY R Y - ˉ Y 1nอีY^RY^Y¯1ne

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

เราสามารถใช้พีทาโกรัสกับสามเหลี่ยมได้:

YY¯1n2=YY^2+Y^Y¯1n2

ซึ่งอาจคุ้นเคยมากกว่าดังนี้:

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

นี่คือการสลายตัวของผลรวมของช่องสี่เหลี่ยมที่{ถดถอย}}SStotal=SSresidual+SSregression

นิยามมาตรฐานสำหรับสัมประสิทธิ์การตัดสินใจคือ:

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

เมื่อผลรวมของสี่เหลี่ยมสามารถแบ่งได้มันต้องใช้พีชคณิตแบบตรงไปตรงมาเพื่อแสดงว่านี่เทียบเท่ากับสูตร "สัดส่วนของความแปรปรวนอธิบาย"

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

มีวิธีเรขาคณิตในการดูสิ่งนี้จากสามเหลี่ยมโดยมีพีชคณิตน้อยที่สุด สูตร definitional ให้และตรีโกณมิติพื้นฐานเราสามารถลดความซับซ้อนนี้เพื่อtheta) นี่คือการเชื่อมโยงระหว่างและRcos 2 ( θ ) R 2 RR2=1sin2(θ)cos2(θ)R2R

สังเกตว่าการวิเคราะห์นี้มีความสำคัญเพียงใดสำหรับการติดตั้งคำดักเพื่อให้ อยู่ในพื้นที่คอลัมน์ โดยไม่ต้องนี้เหลือจะไม่ได้สรุปให้เป็นศูนย์และค่าเฉลี่ยของค่าติดตั้งจะไม่ได้ใกล้เคียงกับค่าเฉลี่ยของYในกรณีนั้นเราไม่สามารถวาดสามเหลี่ยมได้ ผลรวมของสี่เหลี่ยมจัตุรัสจะไม่ย่อยสลายในรูปแบบของพีทาโกรัส; จะไม่ได้มีรูปแบบที่พบบ่อยที่ยกมามิได้เป็นตารางของRในสถานการณ์เช่นนี้ซอฟต์แวร์บาง (รวม) ใช้สูตรที่แตกต่างกันสำหรับโดยสิ้นเชิง Y R 2 S S reg / S S รวม R R 21nYR2SSreg/SStotalRRR2


1
+1 รูปและการเขียนดีมาก ฉันประหลาดใจที่มันมีเพียง upvote เดียวของฉัน
อะมีบาพูดว่า Reinstate Monica

2
+1 โปรดทราบว่ารูปของคำตอบของคุณด้วย "พื้นที่คอลัมน์ X", Y, Ypred เป็นพาหะ ฯลฯ เป็นสิ่งที่เป็นที่รู้จักกันในสถิติหลายตัวแปรว่าเป็น "(ลดลง) การแทนพื้นที่หัวข้อ" ( ดูพร้อมลิงก์เพิ่มเติมที่ฉันใช้ )
ttnphns
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.