การตีความผลลัพธ์การถดถอยเชิงเส้นอย่างง่าย


20

ฉันใช้การถดถอยเชิงเส้นอย่างง่ายของล็อกธรรมชาติของตัวแปร 2 ตัวเพื่อตรวจสอบว่ามีความสัมพันธ์กันหรือไม่ ผลลัพธ์ของฉันคือ:

R^2 = 0.0893

slope = 0.851

p < 0.001

ฉันสับสน. มองไปที่มูลค่าฉันจะบอกว่าตัวแปรทั้งสองจะไม่ได้มีความสัมพันธ์เพราะมันเป็นให้ใกล้เคียงกับ0อย่างไรก็ตามความชันของเส้นการถดถอยมีค่าเกือบ (แม้จะดูราวกับว่ามันเกือบจะเป็นแนวนอนในพล็อต) และค่า p ระบุว่าการถดถอยมีความสำคัญสูง 0 1R201

นี่หมายความว่าตัวแปรทั้งสองมีความสัมพันธ์สูงหรือไม่? ถ้าเป็นเช่นนั้นค่าระบุว่าอะไร?R2

ฉันควรเพิ่มว่าสถิติ Durbin-Watson ถูกทดสอบในซอฟต์แวร์ของฉันและไม่ปฏิเสธสมมติฐานว่าง (มันเท่ากับ ) ฉันคิดว่าสิ่งนี้ทดสอบความเป็นอิสระระหว่างตัวแปร ในกรณีนี้ฉันคาดว่าตัวแปรจะขึ้นอยู่กับเนื่องจากเป็นการวัดของนกแต่ละตัว ฉันใช้การถดถอยนี้เป็นส่วนหนึ่งของวิธีการตีพิมพ์เพื่อกำหนดสภาพร่างกายของแต่ละคนดังนั้นฉันจึงสันนิษฐานว่าการใช้การถดถอยแบบนี้สมเหตุสมผล อย่างไรก็ตามด้วยผลลัพธ์เหล่านี้ฉันคิดว่าอาจเป็นเพราะนกเหล่านี้วิธีนี้ไม่เหมาะ นี่เป็นข้อสรุปที่สมเหตุสมผลหรือไม่?2 21.35722


1
สถิติ Durbin-Watsonคือการทดสอบสำหรับความสัมพันธ์แบบอนุกรม: นั่นคือเพื่อดูว่าเงื่อนไขข้อผิดพลาดที่อยู่ติดกันมีความสัมพันธ์ร่วมกัน มันไม่ได้พูดอะไรเกี่ยวกับความสัมพันธ์ระหว่าง X และ Y ของคุณ! การทดสอบล้มเหลวเป็นข้อบ่งชี้ว่าควรตีความความชันและค่า p ด้วยความระมัดระวัง
whuber

อาโอเค. นั่นทำให้รู้สึกมากกว่าเล็กน้อยว่าตัวแปรสองตัวนั้นมีความสัมพันธ์กันหรือไม่ ... ฉันคิดว่านั่นคือสิ่งที่ฉันพยายามค้นหาโดยใช้การถดถอย และความล้มเหลวในการทดสอบบ่งชี้ว่าฉันควรระมัดระวังการตีความความชันและค่า p ทำให้มีเหตุผลมากขึ้นในกรณีนี้! ขอบคุณ @whuber!
Mog

1
ฉันต้องการเพิ่มความชันอาจมีความสำคัญมาก (p-value <.001) แม้ว่าความสัมพันธ์จะอ่อนแอโดยเฉพาะอย่างยิ่งกับกลุ่มตัวอย่างขนาดใหญ่ นี่เป็นคำใบ้ในคำตอบส่วนใหญ่เนื่องจากความลาดชัน (แม้ว่าจะมีนัยสำคัญ) ไม่ได้กล่าวถึงความแข็งแกร่งของความสัมพันธ์
เกลน

คุณต้องการเพื่อกำหนดความแข็งแกร่งของความสัมพันธ์ โปรดดูstats.stackexchange.com/a/265924/99274ด้วย n
Carl

คำตอบ:


22

ค่าโดยประมาณของความชันไม่ได้บอกความแข็งแกร่งของความสัมพันธ์ด้วยตัวเอง ความแข็งแรงของความสัมพันธ์ขึ้นอยู่กับขนาดของความแปรปรวนข้อผิดพลาดและช่วงของตัวทำนาย นอกจากนี้ค่าสำคัญไม่ได้บอกคุณเสมอว่ามีความสัมพันธ์ที่ดี พี -value เป็นเพียงการทดสอบว่าลาดอยู่ตรง 0 สำหรับขนาดของกลุ่มตัวอย่างขนาดใหญ่พอขาเล็ก ๆ แม้จะมาจากสมมติฐานที่ว่า (คนเช่นไม่ได้มีความสำคัญในทางปฏิบัติ) จะให้ผลอย่างมีนัยสำคัญ -valueพีพีพี

ในสามของปริมาณที่คุณนำเสนอที่ค่าสัมประสิทธิ์ของความมุ่งมั่นที่จะช่วยให้ข้อบ่งชี้ที่ยิ่งใหญ่ที่สุดของความแข็งแรงของความสัมพันธ์ ในกรณีของคุณหมายถึงว่าของการเปลี่ยนแปลงในตัวแปรตอบกลับของคุณสามารถอธิบายความสัมพันธ์เชิงเส้นกับตัวทำนายได้ สิ่งที่ถือว่าเป็น "ใหญ่"นั้นขึ้นอยู่กับระเบียบวินัย ตัวอย่างเช่นในสังคมศาสตร์R 2 = .089 8.9 % R 2R2R2=0.0898.9%R2อาจเป็น "ใหญ่" แต่ในสภาพแวดล้อมที่มีการควบคุมเช่นการตั้งค่าจากโรงงานอาจต้องใช้ R 2 > .9เพื่อบอกว่ามีความสัมพันธ์ "แข็ง" ในสถานการณ์ส่วนใหญ่ 0.089มีขนาดเล็กมากR2=0.2R2>0.90.089ดังนั้นข้อสรุปของคุณว่ามีความสัมพันธ์เชิงเส้นที่อ่อนแออาจมีเหตุผลR2


ขอบคุณมาโคร คำตอบที่เป็นประโยชน์มาก ฉันดีใจที่คุณรวมส่วนเกี่ยวกับสิ่งที่แน่นอนค่า p คือการทดสอบ มันสมเหตุสมผลมากที่ค่า p จะต่ำมากเมื่อพิจารณาว่าค่าความชันนั้นใกล้กับ 1 มากแค่ไหน ดูเหมือนว่าฉันตามคำตอบของคุณและ @jedfrancis 'ค่า r ^ 2 อธิบายว่า' คลาวด์ 'ของจุดข้อมูลรอบแนวการถดถอย ยอดเยี่ยม ชัดเจนยิ่งขึ้นในตอนนี้!
Mog

@Macro (+1) คำตอบที่ดี แต่ "ความแข็งแกร่งของความสัมพันธ์" ขึ้นอยู่กับขนาดของการสกัดกั้นอย่างไร AFAIK การสกัดกั้นไม่พูดอะไรเลยเกี่ยวกับสหสัมพันธ์หรือ "ความแข็งแกร่ง" ของความสัมพันธ์เชิงเส้น
whuber

@whuber คุณพูดถูก - การสกัดกั้นไม่เกี่ยวข้องและไม่เปลี่ยนความสัมพันธ์อย่างแน่นอน - ฉันกำลังคิดเกี่ยวกับฟังก์ชันการถดถอยเทียบกับy = xและคิดว่าสิ่งที่สองเป็นความสัมพันธ์ที่แข็งแกร่งขึ้น ( ทุกสิ่งมีค่าเท่ากัน) เนื่องจากขนาดของy ที่มากกว่านั้นเป็นเพราะxในกรณีหลัง ตอนนี้ฉันไม่คิดอะไรเกี่ยวกับเรื่องนี้ ฉันแก้ไขโพสต์แล้ว Y=10000+xY=xYx
มาโคร

4
@ แมโครคำตอบที่ยอดเยี่ยม แต่ฉันจะเน้น (สำหรับผู้ที่ยังใหม่กับเรื่องนี้) ว่า R ^ 2 อาจต่ำมากแม้ว่าจะมีความสัมพันธ์ที่ดีถ้าความสัมพันธ์นั้นไม่เชิงเส้น ตัวอย่างที่ฉันชอบคือความสัมพันธ์ระหว่างความเครียดกับคะแนนสอบ ความเครียดต่ำมากและความเครียดสูงมากมักจะแย่กว่าความเครียดปานกลาง
Peter Flom - Reinstate Monica

1
@macro ใช่คำตอบของคุณดี แต่ฉันได้ทำงานกับคนที่ไม่รู้สถิติมากมายและฉันเคยเห็นสิ่งที่เกิดขึ้น ... บางครั้งสิ่งที่เราพูดไม่ใช่สิ่งที่พวกเขาได้ยิน!
Peter Flom - Reinstate Monica

14

จะบอกคุณว่าการเปลี่ยนแปลงมากขึ้นอยู่กับตัวแปรอธิบายโดยรูปแบบ อย่างไรก็ตามหนึ่งสามารถตีความR 2เช่นเดียวกับความสัมพันธ์ระหว่างค่าเดิมของตัวแปรตามและค่าติดตั้ง ในความหมายที่แน่นอนและที่มาของค่าสัมประสิทธิ์การตัดสินใจR 2สามารถพบได้ที่นี่R2R2R2

หลักฐานที่ว่าค่าสัมประสิทธิ์ของความมุ่งมั่นที่จะเทียบเท่าของค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน Squared ระหว่างค่าสังเกตและค่าติดตั้งy ที่ฉันสามารถพบได้ที่นี่yiy^i

หรือค่าสัมประสิทธิ์ของความมุ่งมั่นที่บ่งบอกถึงความแข็งแรงของรูปแบบของคุณในการอธิบายตัวแปร ในกรณีของคุณR 2 = 0.089 นี่เป็นแบบจำลองของคุณที่สามารถอธิบายความแปรปรวนของตัวแปรตามคุณได้ 8.9% หรือค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างคุณY ฉันและค่าติดตั้งของคุณYฉันคือ 0.089 สิ่งที่ถือว่าR 2ที่ดีนั้นขึ้นอยู่กับระเบียบวินัยR2R2=0.089yiy^iR2

ในที่สุดก็ถึงส่วนสุดท้ายของคำถามของคุณ คุณไม่สามารถรับการทดสอบ Durbin-Watson เพื่อพูดอะไรบางอย่างเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระ การทดสอบ Durbin-Watson สำหรับความสัมพันธ์แบบอนุกรม มันมีการดำเนินการเพื่อตรวจสอบว่าข้อผิดพลาดของคุณมีความสัมพันธ์ซึ่งกันและกัน


9

ค่าจะบอกคุณถึงความแปรผันของข้อมูลที่อธิบายโดยโมเดลที่ติดตั้งR2

ค่าต่ำในการศึกษาของคุณแสดงให้เห็นว่าข้อมูลของคุณอาจกระจายไปทั่วเส้นถดถอยซึ่งหมายความว่าแบบจำลองการถดถอยสามารถอธิบายได้เพียงเล็กน้อย (น้อยมาก) 8.9% ของการเปลี่ยนแปลงในข้อมูลR2

คุณได้ตรวจสอบเพื่อดูว่าแบบจำลองเชิงเส้นเหมาะสมหรือไม่? ดูการกระจายตัวของสารตกค้างเนื่องจากคุณสามารถใช้สิ่งนี้เพื่อประเมินความเหมาะสมของแบบจำลองกับข้อมูลของคุณ ตามหลักแล้วค่าคงที่ของคุณไม่ควรแสดงความสัมพันธ์กับค่าของคุณและถ้าเป็นเช่นนั้นคุณอาจต้องการคิดว่าการลดขนาดตัวแปรของคุณในวิธีที่เหมาะสมหรือปรับให้เหมาะสมกับแบบจำลองที่เหมาะสมยิ่งขึ้นx


ขอบคุณ @jed ใช่ฉันจะตรวจสอบกฎเกณฑ์ของส่วนที่เหลือและทั้งหมดก็ดี ข้อเสนอแนะของคุณว่าข้อมูลถูกกระจายอย่างกว้างขวางรอบ ๆ เส้นการถดถอยที่ถูกต้อง - จุดข้อมูลดูเหมือนว่าคลาวด์รอบ ๆ เส้นการถดถอยที่วางแผนโดยซอฟต์แวร์
Mog

1
ยินดีต้อนรับสู่เว็บไซต์ของเรา @jed และขอบคุณสำหรับการตอบกลับของคุณ! โปรดทราบว่าความชันนั้นไม่ได้เกี่ยวอะไรกับความสัมพันธ์นอกจากสัญลักษณ์เพราะความสัมพันธ์ไม่ได้ขึ้นอยู่กับหน่วยที่ X และ Y วัด แต่ความลาดชันนั้นไม่เกี่ยวข้องกัน
whuber

1
@whuber กำลังบอกว่าค่าของความชันไม่ได้บอกอะไรคุณเกี่ยวกับความแข็งแกร่งของการเชื่อมโยงเว้นแต่ว่าตัวแปรจะได้มาตรฐาน ดูคำตอบที่โทรม
wolf.rauch

@ wolf.rauch gotcha
jedfrancis

@jed มันจะดีถ้าคุณตอบกลับการแก้ไขของคุณ
whuber

7

R2YxxYR2

กล่าวโดยสรุปความลาดเอียงไม่ได้เป็นตัวบ่งชี้ที่ดีของแบบจำลอง 'พอดี' เว้นแต่ว่าคุณมั่นใจว่าเครื่องชั่งของตัวแปรตามและตัวแปรอิสระต้องมีค่าเท่ากัน


1

ฉันชอบคำตอบที่ได้รับไปแล้ว แต่ให้ฉันเติมเต็มพวกเขาด้วยวิธีการที่แตกต่างกัน

สมมติว่าเรารวบรวมกลุ่มการสังเกตุจากคน 1,000 คนที่พยายามจะค้นหาว่าการชกที่ใบหน้าเกี่ยวข้องกับอาการปวดหัวหรือไม่:

Hอีadaชั่วโมงอีs=β0+β1Pยูnชั่วโมง_ผมn_เสื้อชั่วโมงอี_aอี+ε

ε มีตัวแปรที่ถูกตัดออกทั้งหมดซึ่งทำให้เกิดอาการปวดหัวในประชากรทั่วไป: ความเครียดวิธีการปนเปื้อนในเมืองของคุณการนอนหลับไม่เพียงพอการบริโภคกาแฟ ฯลฯ

สำหรับการถดถอยครั้งนี้ β1 อาจมีความสำคัญและใหญ่มาก แต่ R2จะต่ำ ทำไม? สำหรับประชากรส่วนใหญ่อาการปวดหัวจะไม่ได้รับการอธิบายมากนักโดยการชกต่อหน้า กล่าวอีกนัยหนึ่งความแปรปรวนของข้อมูลส่วนใหญ่ (เช่นว่าผู้คนมีอาการปวดหัวน้อยหรือมาก) จะไม่ได้รับการอธิบายหากคุณมีเพียงการชกต่อหน้า แต่การชกบนใบหน้านั้นสำคัญมากสำหรับอาการปวดหัว

Graphically, this probably looks like a steep slope but with a very big variation around this slope.


0

@Macro มีคำตอบที่ดี

ค่าโดยประมาณของความชันไม่ได้บอกความแข็งแกร่งของความสัมพันธ์ด้วยตัวเอง ความแข็งแรงของความสัมพันธ์ขึ้นอยู่กับขนาดของความแปรปรวนข้อผิดพลาดและช่วงของตัวทำนาย นอกจากนี้ค่า pp ที่สำคัญไม่ได้บอกคุณเสมอว่ามีความสัมพันธ์ที่ดี ค่า pp นั้นเป็นการทดสอบว่าความชันเป็น 0 หรือไม่

ฉันแค่ต้องการเพิ่มตัวอย่างตัวเลขเพื่อแสดงสิ่งที่ดูเหมือนว่าจะมีกรณี OP อธิบาย

  • ต่ำ R2
  • มีนัยสำคัญเกี่ยวกับค่า p
  • ใกล้กับลาดชัน 1.0

    set.seed(6)
    y=c(runif(100)*50,runif(100)*50+10)
    x=c(rep(1,100),rep(10,100))
    plot(x,y)
    
    fit=lm(y~x)
    summary(fit)
    abline(fit)
    
    
    > summary(lm(y~x))
    
    Call:
    lm(formula = y ~ x)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -24.68 -13.46  -0.87  14.21  25.14 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
    x             0.9164     0.2407   3.807 0.000188 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 15.32 on 198 degrees of freedom
    Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
    F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877
    

ป้อนคำอธิบายรูปภาพที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.