เหตุใดการถดถอยเชิงเส้นจึงมีข้อสันนิษฐานเกี่ยวกับส่วนที่เหลือ แต่แบบจำลองเชิงเส้นทั่วไปมีสมมติฐานในการตอบสนอง


14

ทำไมการถดถอยเชิงเส้นและโมเดลทั่วไปจึงมีสมมติฐานที่ไม่สอดคล้องกัน?

  • ในการถดถอยเชิงเส้นเราถือว่าส่วนที่เหลือมาจาก Gaussian
  • ในการถดถอยอื่น ๆ (การถดถอยโลจิสติกส์การถดถอยพิษ) เราคิดว่าการตอบสนองนั้นมาจากการแจกแจงบางส่วน (ทวินามการเป็นพิษ ฯลฯ )

เหตุใดบางครั้งจึงถือว่าเวลาที่เหลืออยู่และเวลาอื่น ๆ เป็นเพราะเราต้องการได้มาซึ่งคุณสมบัติที่แตกต่างกันหรือไม่?


แก้ไข: ฉันคิดว่าเครื่องหมาย 999 แสดงสองรูปแบบที่เท่ากัน อย่างไรก็ตามฉันมีข้อสงสัยเพิ่มเติมอีกหนึ่งข้อเกี่ยวกับ iid:

คำถามอื่น ๆ ของฉัน มีข้อสมมติฐานในเรื่องการถดถอยโลจิสติกหรือไม่? แสดงโมเดลเชิงเส้นทั่วไปไม่มีสมมติฐาน iid (อิสระ แต่ไม่เหมือนกัน)

นั่นคือความจริงที่ว่าสำหรับการถดถอยเชิงเส้นหากเราตั้งสมมติฐานว่ามีส่วนที่เหลือเราจะมี iid แต่ถ้าเราตั้งสมมติฐานในการตอบสนองเราจะมีตัวอย่างที่เป็นอิสระ แต่ไม่เหมือนกัน (Gaussian แตกต่างกัน )μ


คำตอบ:


12

การถดถอยเชิงเส้นอย่างง่ายที่มีข้อผิดพลาดแบบเกาส์เป็นคุณลักษณะที่ดีมากซึ่งไม่ได้ทำให้แบบจำลองเชิงเส้นทั่วไป

ในรุ่นทั่วไปเชิงเส้นการตอบสนองดังต่อไปนี้บางส่วนกระจายให้ได้รับค่าเฉลี่ย การถดถอยเชิงเส้นเป็นไปตามรูปแบบนี้ ถ้าเรามี

yi=β0+β1xi+ϵi

ด้วยϵiN(0,σ)

แล้วเรายังมี

yiN(β0+β1xi,σ)

โอเคดังนั้นการตอบสนองจะตามการแจกแจงที่ได้รับสำหรับตัวแบบเชิงเส้นทั่วไป แต่สำหรับการถดถอยเชิงเส้นเราก็มีว่าส่วนที่เหลือเป็นไปตามการกระจายแบบเกาส์เซียน เหตุใดจึงเน้นว่าส่วนที่เหลือเป็นเรื่องปกติเมื่อไม่ใช่กฎทั่วไป เพราะมันเป็นกฎที่มีประโยชน์มากกว่า สิ่งที่ดีเกี่ยวกับการคิดเกี่ยวกับภาวะปกติของสิ่งตกค้างคือสิ่งนี้ง่ายต่อการตรวจสอบมาก หากเราลบค่าเฉลี่ยที่ประมาณออกค่าคงที่ทั้งหมดควรมีค่าความแปรปรวนเท่ากันและค่าเฉลี่ยเดียวกัน (0) และจะกระจายประมาณคร่าวๆ (หมายเหตุ: ฉันพูดว่า "ประมาณ" เพราะถ้าเราไม่มีค่าประมาณที่สมบูรณ์แบบของ พารามิเตอร์การถดถอยซึ่งแน่นอนว่าเราทำไม่ได้ความแปรปรวนของการประมาณของϵiจะมีความแปรปรวนที่แตกต่างกันตามช่วงของxแต่หวังว่าจะมีความแม่นยำเพียงพอในการประมาณการว่านี่เป็นสิ่งที่ละเลยไม่ได้!)x

บนมืออื่น ๆ ที่กำลังมองหาที่เท็มเพลต 's เราไม่สามารถจริงๆบอกได้ว่าพวกเขาเป็นเรื่องปกติถ้าพวกเขาทุกคนมีวิธีการที่แตกต่างกัน ตัวอย่างเช่นพิจารณาโมเดลต่อไปนี้:yi

yi=0+2×xi+ϵi

ด้วยและx iBernoulli ( p = 0.5 )ϵiN(0,0.2)xiBernoulli(p=0.5)

จากนั้นจะ bimodal สูง แต่ไม่ได้ละเมิดข้อสมมติฐานของการถดถอยเชิงเส้น! ในทางตรงกันข้ามส่วนที่เหลือจะเป็นไปตามการกระจายปกติประมาณyi

นี่คือRรหัสที่จะอธิบาย

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

histograms


yi=1+2×xi+ϵi

3
@ hxd1011: ใช่นี่คือความแตกต่างระหว่างการแจกแจงแบบแยกส่วน (ชัดเจนไม่ปกติ) และการแจกแจงแบบมีเงื่อนไขให้ x (เรารู้ว่าเป็นเรื่องปกติเนื่องจากเราจำลองมัน!) การไม่คิดเกี่ยวกับความแตกต่างระหว่างการแจกแจงแบบมีเงื่อนไขและส่วนเกินเป็นข้อผิดพลาดที่พบบ่อยมาก
หน้าผา AB

14

i=1,,n

Yi=β0+β1Xi1++βkXik+ϵi,
ϵiσ2Xi1,,XikYiβ0+β1Xi1++βkXikσ2

Xi1,,Xikβ0+β1Xi1++βkXik

โมเดลการถดถอยเชิงเส้นหลายแบบปกติที่มีข้อผิดพลาดปกติคือโมเดลเชิงเส้นแบบทั่วไปพร้อมการตอบสนองปกติและลิงก์ประจำตัว

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.