“ ความแปรปรวนคงที่” ในแบบจำลองการถดถอยเชิงเส้นหมายความว่าอะไร?


53

การมี "ความแปรปรวนคงที่" ในคำที่ผิดพลาดหมายถึงอะไร อย่างที่ฉันเห็นเรามีข้อมูลที่มีตัวแปรตามหนึ่งตัวแปรและตัวแปรอิสระหนึ่งตัว ความแปรปรวนคงที่เป็นหนึ่งในสมมติฐานของการถดถอยเชิงเส้น ฉันสงสัยว่า homoscedasticity หมายถึงอะไร เนื่องจากแม้ว่าฉันมี 500 แถวฉันจะมีค่าความแปรปรวนเดียวซึ่งแน่นอนว่าคงที่ ฉันควรเปรียบเทียบความแปรปรวนแบบใดกับตัวแปรใด

คำตอบ:


34

หมายความว่าเมื่อคุณพล็อตข้อผิดพลาดแต่ละรายการเทียบกับค่าที่คาดการณ์ความแปรปรวนของข้อผิดพลาดที่คาดการณ์ค่าควรเป็นค่าคงที่ ดูลูกศรสีแดงในภาพด้านล่างความยาวของเส้นสีแดง (พร็อกซีของความแปรปรวน) เหมือนกัน

ป้อนคำอธิบายรูปภาพที่นี่


1
โอเคเข้าใจเเล้ว.!! แต่เนื่องจากเป็นข้อสมมติฐานเราไม่จำเป็นต้องตรวจสอบสมมติฐานก่อนเรียกใช้โมเดล และทำไมเราจึงต้องการสมมติฐานนี้
Mukul

2
สมมติฐานบางข้อสามารถทดสอบได้หลังจากเรียกใช้โมเดลแล้ว การคำนวณแบบจำลองเป็นเพียงคณิตศาสตร์และไม่เหมือนกับการตีความแบบจำลอง
John

6
ช่วงไม่แปรปรวนเท่ากับ Penguin Knight ดังนั้นคุณอาจต้องการอัปเดตข้อความของคุณที่นี่
John

4
หากข้อสันนิษฐานความแปรปรวนของคุณไม่ถูกต้องก็มักจะหมายความว่าข้อผิดพลาดมาตรฐานไม่ถูกต้องและการทดสอบสมมติฐานใด ๆ สามารถสรุปข้อผิดพลาดได้ (จอห์นที่ต่างออกไป)
John

4
ฉันแตกต่างกันเล็กน้อย ฉันจะไม่บอกว่าความแตกต่างแบบ heteroscedasticity หมายความว่าข้อผิดพลาดมาตรฐานของ betas ของคุณไม่ถูกต้อง แต่แทนที่จะเป็นตัวประมาณ OLS ไม่ใช่ตัวประมาณแบบเอนเอียงที่มีประสิทธิภาพมากที่สุดอีกต่อไป นั่นคือคุณสามารถได้รับพลังงาน / ความแม่นยำมากขึ้นถ้าคุณมีความแปรปรวนคงที่ (อาจเป็นเพราะการแปลงของ Y) หรือถ้าคุณนำค่าคงที่แบบไม่คงที่มาพิจารณา (อาจผ่านตัวประมาณกำลังสองน้อยที่สุด)
gung - Reinstate Monica

58


Y=β0+β1X+εwhere εN(0,σε2)
β0+β1Xσε2

σε2XYεβ0, β1, σε2)Xσε2

Y=β0+β1X+εwhere εN(0,f(X)) where f(X)=exp(γ0+γ1X)and γ10
Xf(X) X

X. อย่างไรก็ตามฉันมักจะคิดว่าการดูแปลงนั้นดีที่สุด @Penquin_Knight ทำงานได้ดีมากในการแสดงว่าค่าความแปรปรวนคงที่เป็นอย่างไรโดยการพล็อตส่วนที่เหลือของแบบจำลองที่ homoscedasticity มีค่าเทียบกับค่าติดตั้ง Heteroscedasticity สามารถตรวจพบในพล็อตของข้อมูลดิบหรือในสเกลที่ตั้ง (หรือเรียกอีกอย่างว่าสเปรดระดับ) R สะดวกในการแปลงหลังให้คุณด้วยการโทรถึงplot.lm(model, which=2); มันคือสแควร์รูทของค่าสัมบูรณ์ของเศษเหลือเทียบกับค่าติดตั้งพร้อมกับเส้นโค้งlowess ที่ซ้อนทับอย่างเป็นประโยชน์ คุณต้องการให้ lowess พอดีที่จะไม่แบน

พิจารณาแปลงด้านล่างซึ่งเปรียบเทียบว่าข้อมูล homoscedastic กับ heteroscedastic อาจมีลักษณะอย่างไรในตัวเลขทั้งสามประเภทที่แตกต่างกัน สังเกตรูปร่างของช่องทางสำหรับแปลง heteroscedastic สองแปลงด้านบนและเส้นที่มีลักษณะลาดเอียงขึ้นด้านล่างในช่วงสุดท้าย

ป้อนคำอธิบายรูปภาพที่นี่

เพื่อความสมบูรณ์นี่คือรหัสที่ฉันใช้ในการสร้างข้อมูลเหล่านี้:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)

1
ขอบคุณมันมีประโยชน์มาก คุณช่วยอธิบายได้ไหมว่าทำไมเราถึงต้องมีข้อสันนิษฐานนี้ในภาษาของคนธรรมดา
Mukul

5
ไม่เป็นไร @Mukul ข้อสันนิษฐานของ homoscedasticity (ความแปรปรวนคงที่) จำเป็นต้องใช้ในการประมาณค่า OLS (กล่าวคือซอฟต์แวร์ขั้นตอนเริ่มต้นใช้ในการประมาณค่า Betas) ขั้นตอนการประมาณค่าที่จะสร้างการกระจายตัวอย่างของ Betas ที่มีข้อผิดพลาดมาตรฐานแคบที่สุดของกระบวนการประเมินทั้งหมด การแจกแจงตัวอย่างซึ่งมีศูนย์กลางที่มูลค่าที่แท้จริง คือมันเป็นสิ่งจำเป็นสำหรับประมาณการ OLS จะเป็นความแปรปรวนต่ำสุดประมาณเป็นกลาง
gung - Reinstate Monica

5
p(p(1p))/n)

2
@gung ในความคิดเห็นของคุณคุณใส่ตัวเอียงในทุกคำในวลีค่าความแปรปรวนขั้นต่ำที่ไม่เอนเอียง ฉันเข้าใจว่าด้วยความต่างกันตัวประมาณจะมีประสิทธิภาพน้อยลง (ความแปรปรวนมากขึ้น) แต่มันจะมีอคติด้วยหรือไม่
user1205901

5
@ user1205901 มันยังคงเป็นกลาง
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.