การถดถอยเชิงเส้นอย่างง่ายที่มีข้อผิดพลาดแบบเกาส์เป็นคุณลักษณะที่ดีมากซึ่งไม่ได้ทำให้แบบจำลองเชิงเส้นทั่วไป
ในรุ่นทั่วไปเชิงเส้นการตอบสนองดังต่อไปนี้บางส่วนกระจายให้ได้รับค่าเฉลี่ย การถดถอยเชิงเส้นเป็นไปตามรูปแบบนี้ ถ้าเรามี
yi=β0+β1xi+ϵi
ด้วยϵi∼N(0,σ)
แล้วเรายังมี
yi∼N(β0+β1xi,σ)
โอเคดังนั้นการตอบสนองจะตามการแจกแจงที่ได้รับสำหรับตัวแบบเชิงเส้นทั่วไป แต่สำหรับการถดถอยเชิงเส้นเราก็มีว่าส่วนที่เหลือเป็นไปตามการกระจายแบบเกาส์เซียน เหตุใดจึงเน้นว่าส่วนที่เหลือเป็นเรื่องปกติเมื่อไม่ใช่กฎทั่วไป เพราะมันเป็นกฎที่มีประโยชน์มากกว่า สิ่งที่ดีเกี่ยวกับการคิดเกี่ยวกับภาวะปกติของสิ่งตกค้างคือสิ่งนี้ง่ายต่อการตรวจสอบมาก หากเราลบค่าเฉลี่ยที่ประมาณออกค่าคงที่ทั้งหมดควรมีค่าความแปรปรวนเท่ากันและค่าเฉลี่ยเดียวกัน (0) และจะกระจายประมาณคร่าวๆ (หมายเหตุ: ฉันพูดว่า "ประมาณ" เพราะถ้าเราไม่มีค่าประมาณที่สมบูรณ์แบบของ พารามิเตอร์การถดถอยซึ่งแน่นอนว่าเราทำไม่ได้ความแปรปรวนของการประมาณของϵiจะมีความแปรปรวนที่แตกต่างกันตามช่วงของxแต่หวังว่าจะมีความแม่นยำเพียงพอในการประมาณการว่านี่เป็นสิ่งที่ละเลยไม่ได้!)x
บนมืออื่น ๆ ที่กำลังมองหาที่เท็มเพลต 's เราไม่สามารถจริงๆบอกได้ว่าพวกเขาเป็นเรื่องปกติถ้าพวกเขาทุกคนมีวิธีการที่แตกต่างกัน ตัวอย่างเช่นพิจารณาโมเดลต่อไปนี้:yi
yi=0+2×xi+ϵi
ด้วยและx i ∼ Bernoulli ( p = 0.5 )ϵi∼N(0,0.2)xi∼Bernoulli(p=0.5)
จากนั้นจะ bimodal สูง แต่ไม่ได้ละเมิดข้อสมมติฐานของการถดถอยเชิงเส้น! ในทางตรงกันข้ามส่วนที่เหลือจะเป็นไปตามการกระจายปกติประมาณyi
นี่คือR
รหัสที่จะอธิบาย
x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')