ฉันเข้าใจว่าหมายความว่าแบบจำลองนั้นไม่ดีในการทำนายจุดข้อมูลแต่ละจุด แต่ได้สร้างแนวโน้มที่มั่นคง (เช่น y ขึ้นไปเมื่อ x เพิ่มขึ้น)
ฉันเข้าใจว่าหมายความว่าแบบจำลองนั้นไม่ดีในการทำนายจุดข้อมูลแต่ละจุด แต่ได้สร้างแนวโน้มที่มั่นคง (เช่น y ขึ้นไปเมื่อ x เพิ่มขึ้น)
คำตอบ:
หมายความว่าคุณสามารถอธิบายความแปรปรวนในข้อมูลได้เล็กน้อย ตัวอย่างเช่นคุณสามารถพิสูจน์ได้ว่าปริญญาวิทยาลัยมีผลต่อเงินเดือน แต่ในขณะเดียวกันก็เป็นเพียงปัจจัยเล็ก ๆ เท่านั้น มีปัจจัยอื่น ๆ อีกมากมายที่ส่งผลกระทบต่อเงินเดือนของคุณและการมีส่วนร่วมในระดับวิทยาลัยนั้นน้อยมาก แต่สามารถตรวจจับได้
ในทางปฏิบัติมันอาจหมายความว่าโดยเฉลี่ยแล้วระดับวิทยาลัยจะเพิ่มเงินเดือนขึ้น$ 500 ต่อปีในขณะที่ค่าเบี่ยงเบนมาตรฐานของเงินเดือนของผู้คนอยู่ที่$ 10K ดังนั้นคนที่มีการศึกษาในวิทยาลัยจำนวนมากจะมีเงินเดือนต่ำกว่าที่ไม่ได้รับการศึกษาและค่าของแบบจำลองของคุณสำหรับการทำนายนั้นต่ำ
มันหมายความว่า "ข้อผิดพลาดลดลงไม่ได้สูง" กล่าวคือสิ่งที่ดีที่สุดที่เราสามารถทำได้ (ด้วยแบบจำลองเชิงเส้น) มี จำกัด ตัวอย่างเช่นชุดข้อมูลต่อไปนี้:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
หมายเหตุเคล็ดลับในชุดข้อมูลนี้คือให้หนึ่งค่ามีค่าy ที่แตกต่างกันมากเกินไปซึ่งเราไม่สามารถคาดการณ์ที่ดีที่จะตอบสนองพวกเขาทั้งหมด ในเวลาเดียวกันยังมี "ความเชื่อ" ความสัมพันธ์เชิงเส้นตรงระหว่างxและy ที่ ถ้าเราพอดีกับโมเดลเชิงเส้นเราจะได้ค่าสัมประสิทธิ์ที่สำคัญ แต่ R กำลังสองต่ำ
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
การถดถอยเชิงเส้นมีความหมายทางสถิติอย่างไร แต่มีค่า r กำลังสองต่ำมาก
หมายความว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอิสระและตัวแปรตาม แต่ความสัมพันธ์นี้อาจไม่คุ้มค่าที่จะพูดถึง
อย่างไรก็ตามความหมายของความสัมพันธ์นั้นขึ้นอยู่กับสิ่งที่คุณกำลังตรวจสอบเป็นอย่างมาก แต่โดยทั่วไปคุณสามารถนำไปใช้เพื่อหมายความว่านัยสำคัญทางสถิติไม่ควรสับสนกับความเกี่ยวข้อง
ด้วยขนาดของกลุ่มตัวอย่างที่มีขนาดใหญ่พอแม้แต่ความสัมพันธ์ที่เล็กน้อยที่สุดก็สามารถพบได้ว่ามีนัยสำคัญทางสถิติ
อีกวิธีหนึ่งในการใช้ถ้อยคำนี้ก็คือหมายความว่าคุณสามารถทำนายการเปลี่ยนแปลงในระดับประชากรได้อย่างมั่นใจ แต่ไม่ใช่ในระดับบุคคล กล่าวคือมีความแปรปรวนสูงในข้อมูลส่วนบุคคล แต่เมื่อมีการใช้ตัวอย่างขนาดใหญ่เพียงพอผลกระทบพื้นฐานสามารถมองเห็นได้โดยรวม นี่เป็นเหตุผลหนึ่งว่าทำไมคำแนะนำด้านสุขภาพของรัฐบาลบางอย่างจึงไม่เป็นประโยชน์ต่อบุคคล บางครั้งรัฐบาลรู้สึกจำเป็นที่จะต้องทำเพราะพวกเขาเห็นว่ากิจกรรมบางอย่างมากขึ้นนำไปสู่การเสียชีวิตโดยรวมในประชากร พวกเขาผลิตคำแนะนำหรือนโยบายที่ 'ช่วย' ชีวิตเหล่านี้ อย่างไรก็ตามเนื่องจากความแปรปรวนสูงในการตอบสนองของแต่ละบุคคลบุคคลอาจจะไม่เห็นประโยชน์ส่วนตัว (หรือแย่กว่านั้นเนื่องจากเงื่อนไขทางพันธุกรรมที่เฉพาะเจาะจงสุขภาพของตนเองจะดีขึ้นจริง ๆ จากการปฏิบัติตามคำแนะนำที่ตรงกันข้าม แต่สิ่งนี้ถูกซ่อนอยู่ในการรวมประชากร) หากบุคคลได้รับประโยชน์ (เช่นความพึงพอใจ) จากกิจกรรม 'ไม่ดีต่อสุขภาพ' การปฏิบัติตามคำแนะนำอาจหมายถึงพวกเขาละทิ้งความสุขที่แน่นอนนี้ตลอดช่วงชีวิตของพวกเขา แต่ก็ไม่ได้เปลี่ยนเป็นการส่วนตัว