วิธีการตีความข้อผิดพลาดมาตรฐานสัมประสิทธิ์ในการถดถอยเชิงเส้น?


26

ฉันสงสัยว่าจะตีความข้อผิดพลาดมาตรฐานสัมประสิทธิ์ของการถดถอยได้อย่างไรเมื่อใช้ฟังก์ชันการแสดงผลใน R

ตัวอย่างเช่นในผลลัพธ์ต่อไปนี้:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

ข้อผิดพลาดมาตรฐานที่สูงกว่ามีนัยสำคัญยิ่งขึ้นหรือไม่

สำหรับค่าเบี่ยงเบนมาตรฐานที่เหลือค่าที่สูงขึ้นหมายถึงการแพร่กระจายที่มากขึ้น แต่ R กำลังสองแสดงให้เห็นอย่างใกล้ชิดนี่ไม่ได้ขัดแย้งหรือไม่

คำตอบ:


52

การประมาณพารามิเตอร์เช่นค่าเฉลี่ยตัวอย่างหรือสัมประสิทธิ์การถดถอย OLS เป็นสถิติตัวอย่างที่เราใช้ในการวาดการอนุมานเกี่ยวกับพารามิเตอร์ประชากรที่สอดคล้องกัน พารามิเตอร์ประชากรคือสิ่งที่เราใส่ใจ แต่เนื่องจากเราไม่สามารถเข้าถึงประชากรทั้งหมด (โดยปกติแล้วจะไม่มีที่สิ้นสุด) เราจึงต้องใช้วิธีนี้แทน อย่างไรก็ตามมีข้อเท็จจริงบางอย่างที่ทำให้อึดอัดใจที่มาพร้อมกับวิธีการนี้ ตัวอย่างเช่นหากเรานำตัวอย่างอื่นมาและคำนวณสถิติเพื่อประเมินพารามิเตอร์อีกครั้งเราจะพบว่ามันแตกต่างกันอย่างแน่นอน ยิ่งไปกว่านั้นการประมาณการไม่น่าจะตรงกับค่าพารามิเตอร์จริงที่เราต้องการทราบ ในความเป็นจริงถ้าเราทำสิ่งนี้ซ้ำแล้วซ้ำอีกให้ลองสุ่มตัวอย่างและประมาณค่าตลอดไป เราจะพบว่าความถี่สัมพัทธ์ของค่าประมาณที่แตกต่างกันตามการแจกแจงความน่าจะเป็น ทฤษฎีขีด จำกัด กลางแสดงให้เห็นว่าการแจกแจงนี้น่าจะเป็นเรื่องปกติ เราต้องการวิธีในการหาปริมาณของความไม่แน่นอนในการแจกแจงนั้น นั่นคือสิ่งที่ข้อผิดพลาดมาตรฐานทำเพื่อคุณ

ในตัวอย่างของคุณคุณต้องการทราบความชันของความสัมพันธ์เชิงเส้นระหว่าง x1 และ y ในประชากร แต่คุณมีสิทธิ์เข้าถึงตัวอย่างของคุณเท่านั้น ในตัวอย่างของคุณความชันนั้นคือ. 51 แต่โดยไม่ทราบว่าความแปรปรวนเท่าไหร่ที่มีในการกระจายตัวตัวอย่างที่สอดคล้องกันนั้นยากที่จะรู้ว่าจะทำอย่างไรกับตัวเลขนั้น ข้อผิดพลาดมาตรฐาน. 05 ในกรณีนี้คือค่าเบี่ยงเบนมาตรฐานของการแจกแจงตัวอย่าง ในการคำนวณนัยสำคัญคุณหารการประมาณโดย SE และค้นหาความฉลาดทางที่ตาราง ดังนั้น SEs ที่ใหญ่กว่าหมายถึงความสำคัญ ลดลง

ค่าเบี่ยงเบนมาตรฐานส่วนที่เหลือไม่เกี่ยวอะไรกับการกระจายตัวของลาดของคุณ มันเป็นเพียงค่าเบี่ยงเบนมาตรฐานของตัวอย่างตามเงื่อนไขในแบบจำลองของคุณ ไม่มีความขัดแย้งและไม่สามารถมีได้ สำหรับวิธีที่คุณมี SD ขนาดใหญ่ที่มี R ^ 2 สูงและมีจุดข้อมูลเพียง 40 จุดฉันจะเดาว่าคุณมีข้อ จำกัด ด้านตรงข้าม - ค่า x ของคุณกระจายอย่างกว้างขวาง


คำตอบที่ยอดเยี่ยมและชัดเจนมาก! ดังนั้นโดยทั่วไปสำหรับคำถามที่สอง SD หมายถึงการกระจายตัวในแนวนอนและ R ^ 2 บ่งบอกถึงความพอดีโดยรวมหรือการกระจายตัวในแนวตั้ง?
upabove

7
@Dbr ดีใจที่ได้ช่วย โดยปกติแล้วเราคิดว่าตัวแปรตอบสนองนั้นอยู่ในแกนตั้งและตัวแปรทำนายบนแกนนอน ด้วยการตั้งค่านี้ทุกอย่างเป็นแนวตั้ง - การถดถอยกำลังลดระยะทางแนวตั้งให้เล็กที่สุดระหว่างการทำนายและตัวแปรตอบกลับ (SSE) ส่วนที่เหลือ SD เป็นหน่วยของการกระจายตัวในแนวดิ่งหลังจากคำนวณมูลค่าที่คาดการณ์ไว้ สุดท้าย R ^ 2 คืออัตราส่วนของการกระจายตัวในแนวตั้งของการทำนายของคุณต่อการกระจายแนวตั้งโดยรวมของข้อมูลดิบของคุณ
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.