ทำไมเราถึงพูดว่า“ ข้อผิดพลาดมาตรฐานที่ตกค้าง”?


14

มีข้อผิดพลาดมาตรฐานคือประมาณค่าเบี่ยงเบนมาตรฐานσ ( θ )ของประมาณการθสำหรับพารามิเตอร์θσ^(θ^)θ^θ

ทำไมค่าเบี่ยงเบนมาตรฐานโดยประมาณของส่วนที่เหลือเรียกว่า "ข้อผิดพลาดมาตรฐานส่วนที่เหลือ" (เช่นในผลลัพธ์ของsummary.lmฟังก์ชันR ) และไม่ใช่ "ค่าเบี่ยงเบนมาตรฐานส่วนที่เหลือ"? เราประมาณค่าพารามิเตอร์ที่จัดให้มีข้อผิดพลาดมาตรฐานที่นี่?

เราพิจารณาแต่ละค่าส่วนที่เหลือเป็นตัวประมาณสำหรับข้อผิดพลาด "ของ" และประเมินข้อผิดพลาดมาตรฐาน "รวม" ของตัวประมาณเหล่านี้ทั้งหมดหรือไม่


6
ฉันคิดว่านั่นเป็นสิ่งที่ R ฉันไม่คิดว่าซอฟต์แวร์อื่น ๆ จำเป็นต้องใช้การใช้ถ้อยคำนั้น & 'ส่วนเบี่ยงเบนมาตรฐานที่เหลืออยู่' เป็นเรื่องธรรมดาในตำราเรียนเช่น ฉันไม่มีคำตอบ แต่ฉันคิดเสมอว่ามันแปลกที่ R ใช้วลีนั้น
gung - Reinstate Monica

@gung: นั่นอาจเป็นคำอธิบาย! เมื่อ googling "ข้อผิดพลาดมาตรฐานส่วนที่เหลือ" ในเครื่องหมายคำพูดฉันได้รับเพียง 0.1% ของการเข้าชมมากกว่าโดยไม่มีคำพูด ...
Michael M

ฉันสามารถใช้คำตอบนั้น (ไม่ใช่ -) ถ้าคุณต้องการ
gung - Reinstate Monica

1
@ gung เป็นเรื่องตลกว่าการใช้ซอฟต์แวร์เฉพาะทำให้ความคิดของคุณเป็นอย่างไร: ฉันไม่เคยเรียกมันว่า "SD ที่เหลือ" - ไฟล์ที่เหลือไม่ใช่ข้อมูล แต่เป็นข้อผิดพลาดดังนั้นข้อผิดพลาดที่เหลือจึงน่าจะเป็นชื่อที่เหมาะสม แต่ถ้าคุณคิดเกี่ยวกับมันมันดูเหมือนว่าสิ่งที่อาร์
ทิม

2
@ ถึงเวลามันอาจถูกพิจารณาว่าถูกต้องประมาณค่าเบี่ยงเบนมาตรฐานของข้อผิดพลาดแต่ส่วนที่เหลือไม่ได้เป็นข้อผิดพลาดทางเทคนิคด้วยตนเอง และไม่ใช่ข้อผิดพลาดมาตรฐานของ SD ข้อผิดพลาดสำหรับสิ่งที่คุ้มค่า
gung - Reinstate Monica

คำตอบ:


12

ฉันคิดว่าการใช้ถ้อยคำเฉพาะกับsummary.lm()ผลลัพธ์ของ R ขอให้สังเกตว่ามูลค่าพื้นฐานจริง ๆ แล้วเรียกว่า "sigma" ( summary.lm()$sigma) ฉันไม่คิดว่าซอฟต์แวร์อื่นจะใช้ชื่อนั้นในการเบี่ยงเบนมาตรฐานของส่วนที่เหลือ นอกจากนี้วลี 'ส่วนเบี่ยงเบนมาตรฐานที่เหลืออยู่' นั้นเป็นเรื่องธรรมดาในตำราเช่น ฉันไม่รู้ว่าสิ่งนั้นเป็นถ้อยคำที่ใช้ในsummary.lm()ผลลัพธ์ของ R แต่ฉันคิดเสมอว่ามันแปลก


เป็นวิธีการที่summary.lm(reg)$sigmaแตกต่างจากsd(reg$residuals)?
airstrike

3
@ AndréTerraองศาอิสระที่ถูกต้องคือ n - p ซึ่งเป็นข้อมูลสรุปที่ใช้ sd ใช้ var ที่ใช้ n - 1 องศาอิสระ หากคุณคำนวณค่าเบี่ยงเบนมาตรฐานของเศษซากหารด้วย n - p ด้วยตนเองคุณจะได้คำตอบเดียวกับที่สรุปไว้
Jdub

3
เพื่ออ้างอิง gung ฉันอ้างอิงจากเอกสาร R ของstats::sigma: ชื่อผิดพลาด "ข้อผิดพลาดมาตรฐานที่เหลืออยู่" ได้รับส่วนหนึ่งของ R (และ S) เอาท์พุทมากเกินไปที่จะเปลี่ยนได้อย่างง่ายดาย
NRH

2

จากการฝึกอบรมเศรษฐมิติของฉันมันถูกเรียกว่า "ข้อผิดพลาดมาตรฐานส่วนที่เหลือ" เพราะมันเป็นค่าประมาณของ "ส่วนเบี่ยงเบนมาตรฐานส่วนที่เหลือ" ที่แท้จริง ดูคำถามที่เกี่ยวข้องนี้ที่ยืนยันคำศัพท์นี้

การค้นหาของ Google สำหรับข้อผิดพลาดมาตรฐานที่เหลือยังแสดงให้เห็นถึงความนิยมมากดังนั้นจึงไม่แปลก R ฉันลองทั้งสองคำด้วยคำพูดและทั้งคู่ก็ปรากฏขึ้นประมาณ 60,000 ครั้ง


น่าสนใจ แต่ทำไมคุณถึงเรียกการประมาณค่าความเบี่ยงเบนมาตรฐานของตัวแปรสุ่มใด ๆ (เช่นคำที่ผิดพลาดและไม่ใช่ตัวประมาณที่เฉพาะเจาะจง) เป็น "ข้อผิดพลาดมาตรฐาน"
Michael M

ความคิดของฉันคือเราจำเป็นต้องมีชื่อสำหรับการประเมิน (เพื่อแยกความแตกต่างจากค่าจริง) ชื่อใด ๆ ก็ดีเหมือนกัน แต่แน่นอนว่าบางคนมีความรู้เกี่ยวกับนิรุกติศาสตร์มากขึ้นสามารถนำเสนอเหตุผลที่ดีกว่า โปรดทราบว่ามีการขนานอย่างแน่นอนกับข้อผิดพลาดมาตรฐานสัมประสิทธิ์ซึ่งเป็นการประมาณค่าเบี่ยงเบนมาตรฐานของสัมประสิทธิ์
ไฮเซนเบิร์ก

0

กล่าวอย่างง่ายข้อผิดพลาดมาตรฐานของกลุ่มตัวอย่างคือการประมาณว่าค่าเฉลี่ยตัวอย่างน่าจะมาจากค่าเฉลี่ยของประชากรมากแค่ไหนในขณะที่ค่าเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่างคือระดับที่บุคคลภายในกลุ่มตัวอย่างแตกต่างจากค่าเฉลี่ยตัวอย่าง

ข้อผิดพลาดมาตรฐาน - Wikipedia, สารานุกรมฟรี


6
นี่เป็นเรื่องจริง แต่ไม่ได้ตอบคำถาม สิ่งที่ R เรียกว่า "ข้อผิดพลาดมาตรฐานส่วนที่เหลือ" ไม่ใช่ "การประมาณว่าค่าเฉลี่ยตัวอย่างน่าจะมาจากค่าเฉลี่ยประชากรมากแค่ไหน"
gung - Reinstate Monica

0

แบบจำลองการถดถอยแบบติดตั้งใช้พารามิเตอร์เพื่อสร้างการคาดคะเนจุดซึ่งเป็นวิธีการตอบสนองที่สังเกตได้หากคุณต้องทำซ้ำการศึกษาด้วยค่า XX เดียวกันด้วยจำนวนอนันต์ครั้ง ( เมื่อแบบจำลองเชิงเส้นเป็นจริง )

ความแตกต่างระหว่างค่าที่คาดการณ์เหล่านี้และค่าที่ใช้เพื่อให้พอดีกับแบบจำลองนั้นเรียกว่า " ส่วนที่เหลือ " ซึ่งเมื่อทำการจำลองกระบวนการรวบรวมข้อมูลมีคุณสมบัติของตัวแปรสุ่มที่มีค่า 0 จากนั้นจึงนำค่าส่วนที่เหลือที่สังเกตได้มาประเมินความแปรปรวนในค่าเหล่านี้และประเมินการกระจายตัวตัวอย่างของพารามิเตอร์

บันทึก:

เมื่อข้อผิดพลาดมาตรฐานที่ตกค้างเป็น 0 อย่างแม่นยำโมเดลจะพอดีกับข้อมูลอย่างสมบูรณ์ (น่าจะเกิดจากการ overfitting)

หากข้อผิดพลาดมาตรฐานส่วนที่เหลือไม่สามารถแสดงให้เห็นถึงความแตกต่างอย่างมีนัยสำคัญจากความแปรปรวนในการตอบสนองแบบไม่มีเงื่อนไขนั้นมีหลักฐานเพียงเล็กน้อยที่ชี้ให้เห็นว่าแบบจำลองเชิงเส้นมีความสามารถในการทำนายใด ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.