การถดถอยเชิงเส้นมีความหมายทางสถิติอย่างไร แต่มีค่า r กำลังสองต่ำมาก


14

ฉันเข้าใจว่าหมายความว่าแบบจำลองนั้นไม่ดีในการทำนายจุดข้อมูลแต่ละจุด แต่ได้สร้างแนวโน้มที่มั่นคง (เช่น y ขึ้นไปเมื่อ x เพิ่มขึ้น)


9
มันสามารถแนะนำขนาดตัวอย่างที่มีขนาดใหญ่มาก
Henry

2
R-squared มีสัมภาระบางส่วน stats.stackexchange.com/questions/13314/…
EngrStudent - Reinstate Monica

คำตอบ:


27

หมายความว่าคุณสามารถอธิบายความแปรปรวนในข้อมูลได้เล็กน้อย ตัวอย่างเช่นคุณสามารถพิสูจน์ได้ว่าปริญญาวิทยาลัยมีผลต่อเงินเดือน แต่ในขณะเดียวกันก็เป็นเพียงปัจจัยเล็ก ๆ เท่านั้น มีปัจจัยอื่น ๆ อีกมากมายที่ส่งผลกระทบต่อเงินเดือนของคุณและการมีส่วนร่วมในระดับวิทยาลัยนั้นน้อยมาก แต่สามารถตรวจจับได้

ในทางปฏิบัติมันอาจหมายความว่าโดยเฉลี่ยแล้วระดับวิทยาลัยจะเพิ่มเงินเดือนขึ้น$ 500 ต่อปีในขณะที่ค่าเบี่ยงเบนมาตรฐานของเงินเดือนของผู้คนอยู่ที่$ 10K ดังนั้นคนที่มีการศึกษาในวิทยาลัยจำนวนมากจะมีเงินเดือนต่ำกว่าที่ไม่ได้รับการศึกษาและค่าของแบบจำลองของคุณสำหรับการทำนายนั้นต่ำ


11

มันหมายความว่า "ข้อผิดพลาดลดลงไม่ได้สูง" กล่าวคือสิ่งที่ดีที่สุดที่เราสามารถทำได้ (ด้วยแบบจำลองเชิงเส้น) มี จำกัด ตัวอย่างเช่นชุดข้อมูลต่อไปนี้:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

หมายเหตุเคล็ดลับในชุดข้อมูลนี้คือให้หนึ่งค่ามีค่าy ที่แตกต่างกันมากเกินไปซึ่งเราไม่สามารถคาดการณ์ที่ดีที่จะตอบสนองพวกเขาทั้งหมด ในเวลาเดียวกันยังมี "ความเชื่อ" ความสัมพันธ์เชิงเส้นตรงระหว่างxและy ที่ ถ้าเราพอดีกับโมเดลเชิงเส้นเราจะได้ค่าสัมประสิทธิ์ที่สำคัญ แต่ R กำลังสองต่ำxyxy

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

ป้อนคำอธิบายรูปภาพที่นี่



3

การถดถอยเชิงเส้นมีความหมายทางสถิติอย่างไร แต่มีค่า r กำลังสองต่ำมาก

หมายความว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอิสระและตัวแปรตาม แต่ความสัมพันธ์นี้อาจไม่คุ้มค่าที่จะพูดถึง

อย่างไรก็ตามความหมายของความสัมพันธ์นั้นขึ้นอยู่กับสิ่งที่คุณกำลังตรวจสอบเป็นอย่างมาก แต่โดยทั่วไปคุณสามารถนำไปใช้เพื่อหมายความว่านัยสำคัญทางสถิติไม่ควรสับสนกับความเกี่ยวข้อง

ด้วยขนาดของกลุ่มตัวอย่างที่มีขนาดใหญ่พอแม้แต่ความสัมพันธ์ที่เล็กน้อยที่สุดก็สามารถพบได้ว่ามีนัยสำคัญทางสถิติ


1
การถดถอยเชิงเส้นจริงหมายถึงเส้นตรงในพารามิเตอร์ ตัวแปรที่ขึ้นอยู่กับดิบสามารถถูกแปลงและคุณยังมีการถดถอยเชิงเส้น ฉันสับสนเล็กน้อยกับสิ่งที่คุณคิดว่ามีนัยสำคัญทางสถิติสำหรับฉันมันหมายความว่าการประมาณค่าพารามิเตอร์มีขนาดใหญ่
Michael R. Chernick

นัยสำคัญ ^ หมายถึงความน่าจะเป็นที่ผลลัพธ์นั้นเป็นไปโดยบังเอิญและไม่มีความสัมพันธ์ระหว่างตัวทำนายและตัวแปรตาม หากคุณมีตัวอย่างขนาดเล็กและผลลัพธ์มีความสำคัญใช่แล้วการประมาณการพารามิเตอร์จะมีขนาดใหญ่ อย่างไรก็ตามด้วยตัวอย่างขนาดใหญ่ที่น่าขันคุณสามารถรับผลลัพธ์ที่สำคัญได้แม้จะมีค่าประมาณพารามิเตอร์ที่น้อยมาก ลองที่นี่: danielsoper.com/statcalc/calculator.aspx
faustus

สิ่งที่คุณพูดดูเหมือนจะเป็นคำอธิบายทั่วไปเกี่ยวกับการอนุมาน แต่นัยสำคัญทางสถิติเป็นคำเฉพาะที่เกี่ยวข้องกับเกินค่าวิกฤตที่ค่าวิกฤตขึ้นอยู่กับระดับความสำคัญเฉพาะที่นักวิเคราะห์เลือก (เช่น 0.05. 0.01 ฯลฯ ) ขนาดตัวอย่างเป็นอีกปัจจัยหนึ่ง ในการถดถอยคุณกำลังทดสอบสมมติฐานหลาย ๆ อย่าง (ความสำคัญของสัมประสิทธิ์การถดถอยแต่ละตัวรวมถึงการทดสอบที่ไม่มีความสัมพันธ์) นอกจากนี้ยังมีความซับซ้อนโดยทำตามขั้นตอนแบบขั้นตอนที่เลือกระหว่างแบบจำลองต่างๆที่เป็นไปได้
Michael R. Chernick

1
สถิติเป็นส่วนหนึ่งวิทยาศาสตร์และศิลปะส่วน แต่ขึ้นอยู่กับหลักการทางคณิตศาสตร์
Michael R. Chernick

2
@MichaelChernik คุณช่วยอธิบายหน่อยได้ไหม? ฉันเห็นด้วยกับเฟาสตุส (อันที่จริงแล้วฉันให้คำตอบที่คล้ายกัน) และฉันไม่เข้าใจประเด็นของคุณ ในการถดถอยเชิงเส้นความสำคัญ ((ไม่ว่าความสำคัญของสัมประสิทธิ์การถดถอยแต่ละตัวหรือการถดถอยทั้งหมด) จะถูกทดสอบกับสมมติฐานที่ไม่มีความสัมพันธ์ (สัมประสิทธิ์อย่างแน่นอน 0) ด้วยข้อมูลเพียงพอคุณอาจพูดได้ว่าสัมประสิทธิ์เป็นศูนย์ เล็ก ๆ (ต่อ)
Luca Citi

2

อีกวิธีหนึ่งในการใช้ถ้อยคำนี้ก็คือหมายความว่าคุณสามารถทำนายการเปลี่ยนแปลงในระดับประชากรได้อย่างมั่นใจ แต่ไม่ใช่ในระดับบุคคล กล่าวคือมีความแปรปรวนสูงในข้อมูลส่วนบุคคล แต่เมื่อมีการใช้ตัวอย่างขนาดใหญ่เพียงพอผลกระทบพื้นฐานสามารถมองเห็นได้โดยรวม นี่เป็นเหตุผลหนึ่งว่าทำไมคำแนะนำด้านสุขภาพของรัฐบาลบางอย่างจึงไม่เป็นประโยชน์ต่อบุคคล บางครั้งรัฐบาลรู้สึกจำเป็นที่จะต้องทำเพราะพวกเขาเห็นว่ากิจกรรมบางอย่างมากขึ้นนำไปสู่การเสียชีวิตโดยรวมในประชากร พวกเขาผลิตคำแนะนำหรือนโยบายที่ 'ช่วย' ชีวิตเหล่านี้ อย่างไรก็ตามเนื่องจากความแปรปรวนสูงในการตอบสนองของแต่ละบุคคลบุคคลอาจจะไม่เห็นประโยชน์ส่วนตัว (หรือแย่กว่านั้นเนื่องจากเงื่อนไขทางพันธุกรรมที่เฉพาะเจาะจงสุขภาพของตนเองจะดีขึ้นจริง ๆ จากการปฏิบัติตามคำแนะนำที่ตรงกันข้าม แต่สิ่งนี้ถูกซ่อนอยู่ในการรวมประชากร) หากบุคคลได้รับประโยชน์ (เช่นความพึงพอใจ) จากกิจกรรม 'ไม่ดีต่อสุขภาพ' การปฏิบัติตามคำแนะนำอาจหมายถึงพวกเขาละทิ้งความสุขที่แน่นอนนี้ตลอดช่วงชีวิตของพวกเขา แต่ก็ไม่ได้เปลี่ยนเป็นการส่วนตัว


ตัวอย่างที่ดีมาก!
kjetil b halvorsen

R2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.