ความสัมพันธ์ระหว่างและค่าสัมประสิทธิ์สหสัมพันธ์


39

สมมติว่าผมมีอาร์เรย์สอง 1 มิติและA_2แต่ละจุดมี 100 จุดข้อมูล เป็นข้อมูลจริงและคือการทำนายแบบจำลอง ในกรณีนี้ค่าจะเป็น: ในขณะเดียวกันนี่จะเท่ากับค่ากำลังสองของสัมประสิทธิ์สหสัมพันธ์ ตอนนี้ถ้าฉันสลับทั้งสอง:เป็นข้อมูลจริงและคือการทำนายแบบจำลอง จากสมการ , เนื่องจากค่าสัมประสิทธิ์สหสัมพันธ์ไม่สนใจซึ่งมาก่อน,a1a2a1a2R2

R2=1SSresSStot  (1).
R2=(Correlation Coefficient)2(2).
a2a1(2)R2จะเหมือนกัน อย่างไรก็ตามจากสมการ , , ค่าจะเปลี่ยนเนื่องจากSS_ {tot}เปลี่ยนถ้าเราเปลี่ยนyจากa_1เป็นa_2 ; ในขณะเดียวกันSS_ {res} = \ sum_i (f_i- \ bar y) ^ 2จะไม่เปลี่ยนแปลง(1)SStot=i(yiy¯)2R2SStota 1 a 2 S S r e s = i ( f i - ˉ y ) 2ya1a2SSres=i(fiy¯)2

คำถามของฉันคือ: สิ่งเหล่านี้ขัดแย้งกันได้อย่างไร?

แก้ไข :

  1. ฉันสงสัยว่าจะมีความสัมพันธ์ใน Eq (2) ยังคงอยู่ถ้ามันไม่ใช่การถดถอยเชิงเส้นอย่างง่ายนั่นคือความสัมพันธ์ระหว่าง IV และ DV ไม่ใช่เชิงเส้น (อาจเป็นเลขชี้กำลัง / เลขชี้กำลัง)

  2. ความสัมพันธ์นี้จะยังคงอยู่หรือไม่หากผลรวมของข้อผิดพลาดการทำนายไม่เท่ากับศูนย์?


ฉันพบว่างานนำเสนอนี้มีประโยชน์มากและไม่ใช่ด้านเทคนิค: google.com/…
ihadanny

คำตอบ:


19

นี่เป็นความจริงที่จะเปลี่ยน ... แต่คุณลืมความจริงที่ว่าผลรวมการถดถอยของกำลังสองจะเปลี่ยนเช่นกัน ลองพิจารณาตัวแบบการถดถอยอย่างง่ายและแสดงว่าสัมประสิทธิ์สหสัมพันธ์เป็นซึ่งฉันใช้ sub-indexเพื่อ เน้นข้อเท็จจริงที่ว่าเป็นตัวแปรอิสระและเป็นตัวแปรตาม เห็นได้ชัดว่าจะไม่เปลี่ยนแปลงถ้าคุณสลับกับYเราสามารถแสดงให้เห็นได้อย่างง่ายดายว่าโดยที่เป็นผลรวมการถดถอยของกำลังสองและ R 2 x Y = S 2 x YSStot xYxYR2 x Y xYSSRxY=SYY(R2 x Y )SSRxYSYYxYR2 x Y =SSRxYrxy2=Sxy2SxxSyyxyxyrxy2xySSRxy=Syy(Rxy2)SSRxySyyคือผลรวมทั้งหมดของกำลังสองที่เป็นอิสระและเป็นตัวแปรตาม ดังนั้น:ที่คือ ผลรวมตกค้างที่สอดคล้องกันของกำลังสองที่เป็นอิสระและเป็นตัวแปรตาม โปรดทราบว่าในกรณีนี้เรามีด้วย (ดูเช่น Eq. (34) - ( 41) ที่นี่ ) ดังนั้น:สมการข้างต้นชัดเจนสมมาตรเทียบกับxySSExYxYSSExY=2 x Y SxxB=SxY

Rxy2=SSRxySyy=SyySSExySyy,
SSExyxySSExy=bxy2Sxx R2 x y =Syy- S 2 x yb=SxySxx
Rxy2=SyySxy2Sxx2.SxxSyy=SyySxxSxy2Sxx.Syy.
xและYกล่าวอีกนัยหนึ่ง:เพื่อสรุปเมื่อคุณเปลี่ยนด้วยในรูปแบบการถดถอยอย่างง่ายทั้งตัวเศษและตัวหารของจะเปลี่ยนไปในทางที่y
Rxy2=Ryx2.
xyRxy2=SSRxySyyRxy2=Ryx2.

ขอบคุณมาก! ฉันสังเกตเห็นว่านี่อาจเป็นสิ่งที่ฉันผิด:จะยืนได้ก็ต่อเมื่อ 1) การทำนายแบบจำลองเป็นเส้นตรงและ 2) ค่าเฉลี่ยของการทำนายแบบจำลองเท่ากับค่าเฉลี่ยของคะแนนตัวอย่าง หากความสัมพันธ์ระหว่าง DV และ IV ไม่ใช่เส้นตรงหรือผลรวมของข้อผิดพลาดการทำนายไม่ใช่ศูนย์ความสัมพันธ์จะไม่คงที่ คุณช่วยบอกฉันทีว่ามันถูกต้องได้ไหม R2=r2
Shawn Wang

1
ฉันคิดถึงเรื่องนี้เพราะคุณใช้ในขณะที่ฉันกำลังใช้สมการที่ฉันโพสต์ไว้ใน OP สมการทั้งสองนี้มีค่าเท่ากันเมื่อผลรวมของข้อผิดพลาดการทำนายเป็นศูนย์ ดังนั้นใน OP ของฉันไม่เปลี่ยนแปลงในขณะที่เปลี่ยนและด้วยเหตุนี้มีการเปลี่ยนแปลง R2=SSreg/SStotSSres=i(fiy¯)2SStotR2
Shawn Wang

คุณมีการอ้างอิงถึงวิธีการทำงานนี้สำหรับกรณีทั่วไปของ Gaussians p-variate หรือไม่?
jmb

26

วิธีหนึ่งในการแปลความหมายของค่าสัมประสิทธิ์การตัดสินใจคือการมองไปที่มันเป็นค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน Squared ระหว่างค่าสังเกตและค่าติดตั้ง{i}R2yiy^i

หลักฐานที่สมบูรณ์ของวิธีการหาค่าสัมประสิทธิ์ของการกำหนด R2 จากค่าสัมประสิทธิ์สหสัมพันธ์ Squared Pearson ระหว่างค่าที่สังเกตได้ yi และค่าที่ติดตั้ง y ^ i สามารถพบได้ในลิงค์ต่อไปนี้:

http://economictheoryblog.wordpress.com/2014/11/05/proof/

ในสายตาของฉันมันควรจะเข้าใจได้ง่ายเพียงแค่ทำตามขั้นตอนเดียว ฉันคิดว่าการมองว่ามันเป็นสิ่งสำคัญที่จะต้องเข้าใจว่า realtionship ระหว่างตัวเลขสองหลักนั้นใช้งานได้จริงอย่างไร


6

ในกรณีของการถดถอยเชิงเส้นอย่างง่ายที่มีเพียงหนึ่งทำนาย 2 แต่ในการถดถอยเชิงเส้นหลายครั้งพร้อมตัวทำนายมากกว่าหนึ่งแนวคิดของความสัมพันธ์ระหว่างตัวทำนายและการตอบสนองจะไม่ขยายโดยอัตโนมัติ สูตรได้รับ: R2=r2=Corr(x,y)2

R2=Corr(yestimated,yobserved)2

กำลังสองของความสัมพันธ์ระหว่างการตอบสนองและโมเดลเชิงเส้นที่พอดี


5

@Stat ได้ให้คำตอบโดยละเอียด ในคำตอบสั้น ๆ ของฉันฉันจะแสดงสั้น ๆ ในลักษณะที่แตกต่างกันบ้างความเหมือนและความแตกต่างระหว่างและคืออะไรrr2

rคือมาตรฐานค่าสัมประสิทธิ์เบต้าของโดยหรือโดยและเป็นเช่นนี้มันเป็นตัวชี้วัดของการ (รวม) ขนาดของผล ซึ่งจะเห็นได้อย่างชัดเจนที่สุดเมื่อตัวแปรต่างกันไป จากนั้นตัวอย่างเช่นหมายความว่า 30% ของเคสจะเปลี่ยนค่าเป็นตรงกันข้ามในตัวแปรหนึ่งเมื่อตัวแปรอื่นเปลี่ยนค่าเป็นตรงกันข้ามYXXYr.30

r2ตรงกันข้ามคือการแสดงออกถึงสัดส่วนของความแปรปรวนร่วมในความแปรปรวนทั้งหมด:2} โปรดทราบว่านี่เป็นผลคูณของสองสัดส่วนหรือแม่นยำยิ่งขึ้นที่จะบอกว่าสองอัตราส่วน (อัตราส่วนสามารถ> 1) ถ้าหากบอกเป็นนัยถึงสัดส่วนหรืออัตราส่วนใด ๆ ที่จะเป็นความน่าจะเป็นแบบกึ่งหรือกึ่งดังนั้นแสดง "ความน่าจะเป็นร่วม (ความเป็นไปได้)" อื่นและการแสดงออกที่ถูกต้องสำหรับผลิตภัณฑ์ร่วมกันของสองสัดส่วน (หรืออัตราส่วน) จะเป็นค่าเฉลี่ยของพวกเขาเรขาคณิตซึ่งเป็นมากRr2=(covσxσy)2=|cov|σx2|cov|σy2r2proppropr

(อัตราส่วนสองตัวคือ multiplicative ไม่ใช่สารเติมแต่งเพื่อเน้นความคิดที่ว่าพวกเขาทำงานร่วมกันและไม่สามารถชดเชยซึ่งกันและกันในการทำงานเป็นทีมของพวกเขาพวกเขาจะต้องทวีคูณเพราะขนาดของขึ้นอยู่กับทั้งขนาดและและ conformably,จะต้องมีการแบ่งออกสองครั้งในครั้งเดียว - เพื่อแปลงตัวเองไป "สัดส่วนของความแปรปรวนร่วมกัน" เหมาะสม แต่.ที่ "ข้ามแปรปรวน" หุ้นที่หน่วยการวัดเดียวกันกับทั้งและ , "ความแปรปรวนตนเอง" และไม่ใช่กับcovσx2σy2covcovσx2σy2σxσy, "ความแปรปรวนแบบผสม"; นั่นคือเหตุผลที่ , ไม่ใช่ , มีความเพียงพอมากกว่าในฐานะ "สัดส่วนของความแปรปรวนร่วม")r2r

ดังนั้นคุณจะเห็นว่าความหมายของและเป็นตัวชี้วัดปริมาณของการเชื่อมโยงที่แตกต่างกัน (ทั้งความหมายที่ถูกต้อง) แต่ก็ยังคงสัมประสิทธิ์เหล่านี้ในทางที่ไม่ขัดแย้งกัน และทั้งสองจะเหมือนกันไม่ว่าคุณจะคาดการณ์หรือ Yrr2Y~XX~Y


ขอบคุณมาก! ฉันเริ่มสงสัยว่าฉันกำลังใช้คำจำกัดความที่ไม่ถูกต้องหรือไม่คำจำกัดความที่สองของร่วมกันและพวกเขาไม่เทียบเท่ากัน คุณกรุณาช่วยฉันด้วยคำถามที่ว่า - ถ้าฉันคิดถึงกรณีทั่วไปมากขึ้นซึ่งตัวแบบไม่ใช่การถดถอยเชิงเส้นอย่างง่าย (อาจอธิบายได้) - สมการของฉันใน OP ยังคงถูกต้องสำหรับการคำนวณหรือไม่? นี่เป็นปริมาณที่แตกต่างกันหรือที่เรียกว่าแต่แตกต่างจาก "สัมประสิทธิ์การตัดสินใจ" หรือไม่? R2R2R2
Shawn Wang

สัมประสิทธิ์การตัดสินใจหรือ R-square เป็นแนวคิดที่กว้างกว่า r ^ 2 ซึ่งเป็นเพียงการถดถอยเชิงเส้นอย่างง่ายเท่านั้น โปรดอ่านวิกิพีเดียen.wikipedia.org/wiki/Coefficient_of_determination
ttnphns

ขอบคุณอีกครั้ง! ที่ฉันเข้าใจ คำถามของฉันคือ: สำหรับการถดถอยที่ซับซ้อนมากขึ้นฉันยังสามารถกำหนดค่า r เพื่อให้ได้สัมประสิทธิ์การตัดสินใจได้หรือไม่
Shawn Wang

1
สำหรับ "การถดถอยเชิงซ้อน" คุณจะได้ R-Square แต่คุณไม่ได้ r
ttnphns

1

ฉันคิดว่าคุณอาจเข้าใจผิด ถ้าฉันถือว่าคุณมีรูปแบบ bivariate: หนึ่ง DV หนึ่ง IV ฉันไม่คิดว่าจะเปลี่ยนแปลงหากคุณสลับสิ่งเหล่านี้และหากคุณแทนที่ IV ด้วยการคาดการณ์ของ DV ที่ยึดตาม IV นี่คือรหัสสำหรับการสาธิตใน R:R2=r2R2

x=rnorm(1000); y=rnorm(1000)              # store random data
summary(lm(y~x))                          # fit a linear regression model (a)
summary(lm(x~y))                          # swap variables and fit the opposite model (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # substitute predictions for IV in model (a)

หากคุณไม่ได้ทำงานกับรูปแบบ bivariate การเลือก DV ของคุณจะมีผลกับ ... ยกเว้นว่าตัวแปรของคุณมีความสัมพันธ์เหมือนกันทั้งหมดฉันคิดว่า แต่นี่ไม่ใช่ข้อยกเว้นมากมาย หากตัวแปรทั้งหมดมีจุดแข็งที่เหมือนกันของความสัมพันธ์และแบ่งส่วนเดียวกันของความแปรปรวนของ DV (เช่น [หรืออาจจะ "ie"] ถ้าตัวแปรบางตัวมีความเหมือนกันทั้งหมด) คุณสามารถลดสิ่งนี้ลงในรูปแบบ bivariate ได้โดยไม่สูญเสีย ข้อมูลใด ๆ. ไม่ว่าคุณจะทำหรือไม่ทำก็ตามยังคงไม่เปลี่ยนแปลงR2R2

ในกรณีอื่น ๆ ทั้งหมดฉันสามารถคิดได้ว่ามีตัวแปรมากกว่าสองตัวคือโดยที่คือสัมประสิทธิ์การตัดสินใจและคือสัมประสิทธิ์สหสัมพันธ์แบบ bivariate ทุกชนิด (ไม่จำเป็นต้องเป็นของ Pearson; a Spearman's )R 2 r ρR2r2R2rρ


1
ผมเพิ่งได้ Theil ถดถอยเชิงเส้นคำนวณแล้วและSSR>ฉันเคยเห็น Excel ผลิตค่าเช่นกันและในตอนแรกฉันหัวเราะที่มันจากนั้นก็ค่อยๆเข้าใจและมันก็หยุดเป็นเรื่องตลก คำจำกัดความทั่วไปของถูกต้องหรือไม่ สิ่งที่ช่วยให้. S S R > S S T - R 2 R 2R2=0.1468SSR>SSTR2R2
คาร์ล
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.