ความแตกต่างระหว่างความสัมพันธ์กับการถดถอยเชิงเส้นอย่างง่ายคืออะไร


99

โดยเฉพาะฉันหมายถึงสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน


7
โปรดทราบว่ามุมมองหนึ่งเกี่ยวกับความสัมพันธ์ระหว่างการถดถอยและสหสัมพันธ์สามารถแยกแยะได้จากคำตอบของฉันที่นี่: อะไรคือความแตกต่างระหว่างการดำเนินการถดถอยเชิงเส้นใน y กับ x กับ x กับ y .
gung

คำตอบ:


114

ความแตกต่างระหว่างความสัมพันธ์ระหว่างและและการถดถอยเชิงเส้นทำนายจาก ?Y Y XXYYX

ครั้งแรกที่คล้ายคลึงกันบางอย่าง:

  • สัมประสิทธิ์การถดถอยมาตรฐานเหมือนกับสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน
  • ค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันกำลังสองเป็นค่าเดียวกันกับในการถดถอยเชิงเส้นอย่างง่ายR2
  • การถดถอยเชิงเส้นอย่างง่ายหรือสหสัมพันธ์ไม่ตอบคำถามของเวรกรรมโดยตรง จุดนี้เป็นสิ่งสำคัญเพราะผมเคยได้พบกับคนที่คิดว่าการถดถอยที่เรียบง่ายอย่างน่าอัศจรรย์สามารถอนุญาตให้อนุมานว่าทำให้เกิดYYXY

ประการที่สองความแตกต่างบางอย่าง:

  • สมการการถดถอย (เช่น ) สามารถใช้ในการทำนายบนตามค่าของY Xa+bXYX
  • ในขณะที่ความสัมพันธ์โดยทั่วไปหมายถึงความสัมพันธ์เชิงเส้นมันสามารถอ้างถึงรูปแบบอื่น ๆ ของการพึ่งพาเช่นความสัมพันธ์แบบพหุนาม
  • ในขณะที่ความสัมพันธ์โดยทั่วไปหมายถึงสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันมีประเภทของความสัมพันธ์อื่น ๆ เช่นสเปียร์แมน

สวัสดี Jeromy ขอบคุณสำหรับคำอธิบายของคุณ แต่ฉันยังมีคำถามอยู่ที่นี่: ถ้าฉันไม่ต้องการทำนายและแค่อยากรู้ว่าตัวแปรสองตัวนั้นอยู่ในทิศทางใดและอยู่ในทิศทางใด ยังคงมีความแตกต่างโดยใช้เทคนิคทั้งสองนี้หรือไม่?
yue86231

3
@ yue86231 จากนั้นดูเหมือนว่าการวัดความสัมพันธ์จะเหมาะสมกว่า
Jeromy Anglim

5
(1) เพื่อความคล้ายคลึงกันก็อาจจะมีประโยชน์ในการเพิ่มว่าการทดสอบมาตรฐานของสมมติฐาน "ความสัมพันธ์ = 0" หรือเท่ากัน "ลาด = 0" (สำหรับการถดถอยทั้งในการสั่งซื้อ) เช่นที่ดำเนินการโดยlmและcor.testในR, จะให้ค่า p เหมือนกัน
whuber

3
ฉันยอมรับว่าควรเพิ่มคำแนะนำจาก @whuber แต่ในระดับพื้นฐานฉันคิดว่ามันคุ้มค่าที่จะชี้ให้เห็นว่าเครื่องหมายของความชันการถดถอยและสัมประสิทธิ์สหสัมพันธ์นั้นเท่ากัน นี่อาจเป็นหนึ่งในสิ่งแรกที่คนส่วนใหญ่เรียนรู้เกี่ยวกับความสัมพันธ์ระหว่างสหสัมพันธ์และ "เส้นที่เหมาะที่สุด" (แม้ว่าพวกเขาจะไม่เรียกมันว่า "การถดถอย") แต่ฉันคิดว่ามันน่าสังเกต สำหรับความแตกต่างความจริงที่ว่าคุณได้คำตอบความสัมพันธ์ X กับ Y หรือในทางกลับกัน แต่การถดถอยของ Y บน X นั้นแตกต่างจาก X ใน Y อาจจะได้รับการกล่าวถึงเช่นกัน
Silverfish

36

นี่คือคำตอบที่ฉันโพสต์บนเว็บไซต์ graphpad.com :

ความสัมพันธ์และการถดถอยเชิงเส้นไม่เหมือนกัน พิจารณาความแตกต่างเหล่านี้:

  • สหสัมพันธ์ปริมาณการศึกษาระดับปริญญาที่สองตัวแปรที่เกี่ยวข้อง ความสัมพันธ์ไม่พอดีกับบรรทัดผ่านข้อมูล
  • ด้วยความสัมพันธ์คุณไม่ต้องคิดเกี่ยวกับสาเหตุและผลกระทบ คุณเพียงแค่วัดว่าตัวแปรสองตัวเกี่ยวข้องกันอย่างไร ด้วยการถดถอยคุณต้องคิดถึงสาเหตุและผลกระทบเนื่องจากเส้นการถดถอยนั้นถูกกำหนดให้เป็นวิธีที่ดีที่สุดในการทำนาย Y จาก X
  • ด้วยความสัมพันธ์มันไม่สำคัญว่าตัวแปรสองตัวใดที่คุณเรียกว่า "X" และตัวที่คุณเรียกว่า "Y" คุณจะได้ค่าสัมประสิทธิ์สหสัมพันธ์เท่ากันถ้าคุณสลับทั้งสอง ด้วยการถดถอยเชิงเส้นการตัดสินใจของตัวแปรที่คุณเรียกว่า "X" และที่คุณเรียกว่า "Y" มีความสำคัญมากเนื่องจากคุณจะได้รับสายที่ดีที่สุดที่แตกต่างกันถ้าคุณสลับทั้งสอง บรรทัดที่ทำนาย Y จาก X ได้ดีที่สุดไม่เหมือนกับบรรทัดที่ทำนาย X จาก Y (เว้นแต่คุณจะมีข้อมูลที่สมบูรณ์แบบโดยไม่มีการกระจาย)
  • ความสัมพันธ์มักใช้เมื่อคุณวัดทั้งสองตัวแปร มันไม่ค่อยเหมาะสมเมื่อตัวแปรตัวเดียวเป็นสิ่งที่คุณทำการทดลอง ด้วยการถดถอยเชิงเส้นตัวแปร X มักจะเป็นสิ่งที่คุณทำการทดลอง (เวลาความเข้มข้น ... ) และตัวแปร Y เป็นสิ่งที่คุณวัด

13
"วิธีที่ดีที่สุดในการทำนาย Y จาก X" ไม่มีอะไรเกี่ยวข้องกับสาเหตุและผลกระทบ: X อาจเป็นสาเหตุของ Y หรือในทางกลับกัน หนึ่งสามารถเหตุผลจากสาเหตุเพื่อผลกระทบ (การหัก) หรือจากผลกระทบไปสู่สาเหตุ (การลักพาตัว)
Neil G

4
"คุณจะได้สายที่พอดีที่สุดที่แตกต่างกันหากคุณสลับทั้งสอง" เป็นการเข้าใจผิดเล็กน้อย ความลาดชันที่ได้มาตรฐานจะเหมือนกันในทั้งสองกรณี
xenocyon

26

ในกรณีของการทำนายความถดถอยเชิงเส้นเดียวความชันมาตรฐานมีค่าเท่ากับสัมประสิทธิ์สหสัมพันธ์ ข้อได้เปรียบของการถดถอยเชิงเส้นคือความสัมพันธ์สามารถอธิบายได้ในลักษณะที่คุณสามารถทำนายได้ (ขึ้นอยู่กับความสัมพันธ์ระหว่างตัวแปรสองตัว) คะแนนของตัวแปรทำนายที่ให้ค่าใด ๆ ของตัวแปรทำนาย โดยเฉพาะอย่างยิ่งข้อมูลชิ้นเดียวที่การถดถอยเชิงเส้นทำให้คุณรู้ว่าสหสัมพันธ์นั้นไม่ได้เป็นจุดตัดค่าของตัวแปรที่ทำนายไว้เมื่อตัวทำนายคือ 0

ในระยะสั้น - พวกเขาสร้างผลลัพธ์ที่เหมือนกันการคำนวณ แต่มีองค์ประกอบเพิ่มเติมที่สามารถตีความได้ในการถดถอยเชิงเส้นอย่างง่าย หากคุณสนใจเพียงแค่จำแนกขนาดของความสัมพันธ์ระหว่างสองตัวแปรให้ใช้สหสัมพันธ์ - หากคุณสนใจที่จะทำนายหรืออธิบายผลลัพธ์ของคุณในแง่ของค่าเฉพาะที่คุณอาจต้องการการถดถอย


"โดยเฉพาะอย่างยิ่งข้อมูลชิ้นเดียวการถดถอยเชิงเส้นทำให้คุณรู้ว่าความสัมพันธ์ไม่ใช่การสกัดกั้น" ... แตกต่างกันมาก!
SIslam

ทีนี้เมื่อมองย้อนกลับไปมันเป็นความจริงเท่านั้นที่การถดถอยให้การสกัดกั้นเป็นเพราะมันเป็นค่าเริ่มต้นสำหรับแพคเกจสถิติมากมายที่จะทำ หนึ่งสามารถคำนวณการถดถอยได้อย่างง่ายดายโดยไม่มีการสกัดกั้น
russellpierce

ใช่เราสามารถคำนวณการถดถอยได้โดยไม่ต้องมีการสกัดกั้น แต่มันก็ไม่ค่อยมีความหมาย: stats.stackexchange.com/questions/102709/ …
kjetil b halvorsen

@kjetilbhalvorsen ยกเว้นเช่นในกรณีที่ฉันได้อธิบายไว้เมื่อคุณปรับความชันมาตรฐาน เทอมการสกัดกั้นในสมการถดถอยมาตรฐานได้เสมอ 0 ทำไม? เนื่องจากทั้ง IV และ DV ได้รับการจัดระดับมาตรฐานเป็นคะแนนหน่วย - ดังนั้นการสกัดกั้นจึงมีความหมาย 0 อย่างแน่นอนว่าเป็นกรณีที่คุณอธิบายไว้ในคำตอบของคุณ (เทียบเท่ากับการปรับมาตรฐาน IV และ DV) เมื่อทั้ง IV และ DV ได้มาตรฐานเป็น 0 การสกัดกั้นนั้นมีความหมาย 0
russellpierce

11

การวิเคราะห์ความสัมพันธ์เชิงปริมาณเท่านั้นความสัมพันธ์ระหว่างสองตัวแปรที่ไม่สนใจซึ่งเป็นตัวแปรที่ขึ้นอยู่กับที่เป็นอิสระ แต่ก่อนที่ appliyng regression คุณต้อง calrify ผลกระทบของตัวแปรที่คุณต้องการตรวจสอบตัวแปรอื่น ๆ


9

คำตอบที่ให้ไว้ทั้งหมดให้ข้อมูลเชิงลึกที่สำคัญ แต่ไม่ควรลืมว่าคุณสามารถเปลี่ยนพารามิเตอร์ของข้อหนึ่งเป็นอีกข้อหนึ่งได้

การถดถอย:y=mx+b

การเชื่อมต่อระหว่างพารามิเตอร์การถดถอยและสหสัมพันธ์, ความแปรปรวนร่วม, ความแปรปรวน, ค่าเบี่ยงเบนมาตรฐานและค่าเฉลี่ย: b= ˉ y -m ˉ x

m=Cov(y,x)Var(x)=Cor(y,x)Sd(y)Sd(x)
b=y¯mx¯

ดังนั้นคุณสามารถแปลงทั้งสองเป็นกันและกันโดยการปรับขนาดและการเปลี่ยนพารามิเตอร์ของพวกเขา

ตัวอย่างใน R:

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196

3

จากความสัมพันธ์เราสามารถรับดัชนีที่อธิบายความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัวเท่านั้น ในการถดถอยเราสามารถคาดการณ์ความสัมพันธ์ระหว่างมากกว่าสองตัวแปรและสามารถใช้ในการระบุว่าตัวแปรxสามารถคาดการณ์ผลตัวแปรY


3

การอ้างอิง Altman DG, "สถิติเชิงปฏิบัติสำหรับการวิจัยทางการแพทย์" Chapman & Hall, 1991, หน้า 321: "สหสัมพันธ์ลดชุดข้อมูลเป็นตัวเลขเดียวที่ไม่มีความสัมพันธ์โดยตรงกับข้อมูลจริงการถดถอยเป็นวิธีที่มีประโยชน์มากกว่า ผลลัพธ์ที่เกี่ยวข้องอย่างชัดเจนกับการวัดที่ได้รับความแข็งแกร่งของความสัมพันธ์นั้นชัดเจนและความไม่แน่นอนสามารถเห็นได้อย่างชัดเจนจากช่วงความมั่นใจหรือช่วงการทำนาย "


3
แม้ว่าฉันจะเห็นอกเห็นใจกับอัลท์แมน - วิธีการถดถอยมักจะเหมาะสมกว่าความสัมพันธ์ในหลายกรณี - ใบเสนอราคานี้เป็นการตั้งค่าอาร์กิวเมนต์ชายฟาง ในการถดถอย OLS ข้อมูลที่ผลิตนั้นเทียบเท่ากับข้อมูลที่ได้จากการคำนวณสหสัมพันธ์ (ช่วงเวลาแรกและวินาทีที่สองทั้งหมดและข้อผิดพลาดมาตรฐาน) และค่าสัมประสิทธิ์สหสัมพันธ์ให้ข้อมูลเช่นเดียวกับความชันการถดถอย ทั้งสองวิธีมีความแตกต่างกันบ้างในแบบจำลองข้อมูลพื้นฐานที่พวกเขาสมมติและในการตีความ แต่ไม่ใช่ในรูปแบบที่อัลท์แมนอ้างสิทธิ์
whuber

1

การวิเคราะห์การถดถอยเป็นเทคนิคในการศึกษาสาเหตุของผลกระทบของความสัมพันธ์ระหว่างตัวแปรสองตัว ในขณะที่การวิเคราะห์ความสัมพันธ์เป็นเทคนิคในการศึกษาปริมาณความสัมพันธ์ระหว่างสองตัวแปร


6
ยินดีต้อนรับสู่ CV! เนื่องจากมีคำตอบมากมายสำหรับคำถามนี้อยู่แล้วคุณต้องการดูคำถามเหล่านี้ & ดูว่าคุณเพิ่มอะไรใหม่ ๆ บ้างไหม? หากคุณมีมากกว่าที่จะพูดคุณสามารถแก้ไขได้
Scortchi

0

ความสัมพันธ์เป็นดัชนี (เพียงหนึ่งหมายเลข) ของความแข็งแกร่งของความสัมพันธ์ การถดถอยคือการวิเคราะห์ (การประมาณค่าพารามิเตอร์ของแบบจำลองและการทดสอบทางสถิติของความสำคัญ) ของความเพียงพอของความสัมพันธ์การทำงานเฉพาะ ขนาดของสหสัมพันธ์นั้นเกี่ยวข้องกับความแม่นยำของการทำนายการถดถอย


1
ไม่มันไม่ใช่. ความสัมพันธ์ทำให้เรามีความสัมพันธ์แบบ จำกัด แต่ไม่เกี่ยวข้องกับความแม่นยำในการทำนาย R2 ให้สิ่งนั้น
SmallChess

-3

ความสัมพันธ์เป็นคำศัพท์ในสถิติที่กำหนดว่ามีความสัมพันธ์ระหว่างสองและจากนั้นระดับของความสัมพันธ์ ช่วงนี้มีตั้งแต่ -1 ถึง +1 ในขณะที่การถดถอยหมายถึงการกลับไปสู่ค่าเฉลี่ย จากการถดถอยเราทำนายค่าโดยการคงไว้ซึ่งตัวแปรหนึ่งตัวและอื่น ๆ ที่เป็นอิสระ แต่มันควรจะชี้แจงค่าของตัวแปรที่เราต้องการทำนาย


6
สวัสดี @shakir และยินดีต้อนรับสู่ Cross Validated! คุณอาจสังเกตเห็นว่านี่เป็นคำถามเก่า (ตั้งแต่ปี 2010) และมีคำตอบเจ็ดข้อ (!) ที่ให้ไว้แล้ว เป็นความคิดที่ดีที่จะตรวจสอบให้แน่ใจว่าคำตอบใหม่ของคุณเพิ่มสิ่งที่มีความสำคัญต่อการอภิปรายที่ไม่ได้กล่าวถึงมาก่อน ในขณะนี้ฉันไม่แน่ใจว่าเป็นกรณี
อะมีบา
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.