OLS vs. Poisson GLM พร้อมลิงค์ตัวตน


11

คำถามของฉันเปิดเผยความเข้าใจที่ไม่ดีของฉันเกี่ยวกับการถดถอยปัวซองและ GLMs โดยทั่วไป นี่คือข้อมูลปลอมที่จะแสดงคำถามของฉัน:

### some fake data
x=c(1:14)
y=c(0,  1,  2,  3,  1,  4,  9, 18, 23, 31, 20, 25, 37, 45)

บางฟังก์ชั่นที่กำหนดเองเพื่อกลับ psuedo-R2:

### functions of pseudo-R2

psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}

predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}

พอดีกับรุ่นสี่รุ่น: OLS, Gaussian GLM พร้อมลิงค์ตัวตน, ปัวซอง GLM พร้อมลิงค์บันทึก, ปัวซอง GLM พร้อมลิงค์ตัวตน

#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)

summary(mdl.ols)$r.squared
predR2(y, pred.ols)

#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)

psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)

#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log))  #transform

psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)

#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)

psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)

ในที่สุดวางแผนการทำนาย:

#### Plot the Fit
plot(x, y) 
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")

ฉันมีคำถาม 2 ข้อ:

  1. ปรากฏว่าค่าสัมประสิทธิ์และการคาดการณ์ออกมาจาก OLS และ Gaussian GLM พร้อมลิงค์ตัวตนเหมือนกันทุกประการ สิ่งนี้เป็นจริงเสมอหรือไม่?

  2. ฉันประหลาดใจมากที่การประมาณและการคาดการณ์ของ OLS นั้นแตกต่างจาก Poisson GLM มากโดยมีลิงก์ตัวตน ฉันคิดว่าทั้งสองวิธีจะพยายามประมาณ E (Y | X) ฟังก์ชั่นความน่าจะเป็นอย่างไรเมื่อฉันใช้ลิงก์ประจำตัวสำหรับปัวซอง



1
หากคุณต้องการทำกำลังสองน้อยที่สุดเพื่อประมาณโมเดลปัวซองด้วยลิงก์ตัวตนคุณสามารถใส่แบบจำลองกำลังสองน้อยที่สุดได้อย่างมีน้ำหนัก mdl.wols = lm (y ~ x, น้ำหนัก = 1 / log (y + 1.00000000001) ที่บันทึก (y + 1.00000000001) จะถูกนำมาใช้เป็นค่าประมาณความแปรปรวนครั้งแรก (sqrt (y + 1E-10)) เช่นกัน - การประมาณค่าของแบบจำลองดังกล่าวจะใกล้เคียงกับ Poisson GLM มากด้วยการเชื่อมโยงตัวตน ...
Tom Wenseleers

คำตอบ:


14
  1. ใช่พวกเขาเป็นสิ่งเดียวกัน MLE สำหรับ Gaussian นั้นคือกำลังสองน้อยที่สุดดังนั้นเมื่อคุณทำ Gaussian GLM ด้วยลิงค์ตัวตนคุณกำลังทำ OLS

  2. a) " ฉันคิดว่าทั้งสองวิธีจะพยายามประมาณ E (Y | X) "

    จริง ๆ แล้วพวกเขาทำ แต่วิธีการที่คาดหวังตามเงื่อนไขคาดว่าเป็นฟังก์ชั่นของข้อมูลที่ไม่เหมือนกัน แม้ว่าเราจะไม่สนใจการแจกแจง (และวิธีการที่ข้อมูลป้อนโอกาส) และคิดเกี่ยวกับ GLM เพียงในแง่ของค่าเฉลี่ยและความแปรปรวน (ราวกับว่ามันเป็นแค่การถดถอยแบบถ่วงน้ำหนัก) ความแปรปรวนของปัวซองเพิ่มขึ้นด้วยค่าเฉลี่ยดังนั้น น้ำหนักสัมพัทธ์ในการสังเกตจะแตกต่างกัน

    b) " ฟังก์ชั่นความน่าจะเป็นอย่างไรเมื่อฉันใช้ลิงค์ประจำตัวสำหรับปัวซอง? "

    L(β0,β1)=Πผมอี-λผมλผมYผม/Yผม!

    =ประสบการณ์(Σผม-λผม+Yผมเข้าสู่ระบบ(λผม)-เข้าสู่ระบบ(Yผม!))λผม=β0+β1xผม

    =ประสบการณ์(Σผม-(β0+β1xผม)+Yผมเข้าสู่ระบบ(β0+β1xผม)-เข้าสู่ระบบ(Yผม!))


4
รายละเอียดเกี่ยวกับจุดที่สองของ Glen_b เรื่องหนึ่งที่ฉันบอกตัวเองซึ่งฉันพบว่าค่อนข้างชัดเจนว่าเมื่อค่าเฉลี่ยตามเงื่อนไขโดยประมาณเพิ่มขึ้นในโมเดลปัวซองรูปแบบจะได้รับการยอมรับมากขึ้นของค่าข้อมูลที่อยู่ห่างจากค่าเฉลี่ยตามเงื่อนไข ตัดกันนี้ด้วยโมเดลเชิงเส้นตรงซึ่งมีความทนทานสม่ำเสมอไม่ว่าค่าเฉลี่ยเชิงเงื่อนไขจะเป็นเท่าไหร่
Matthew Drury

@Glen_b ฉันขอให้คุณชี้แจงสิ่งที่คุณพูดว่า: "ดังนั้นข้อมูลจะเข้าสู่โอกาส" คุณกำลังบอกว่าความเป็นไปได้ของแบบจำลองนั้นแตกต่างกันระหว่าง OLS และ POisson (link = identity) เมื่อทำการติดตั้งด้วย MLE หรือไม่? คือถ้าเหมาะสม OLS โดยใช้ MLE คุณใช้ฟังก์ชันความน่าจะเป็นสำหรับการแจกแจงแบบปกติเพื่อคำนวณความน่าจะเป็นของความพอดีเมื่อเทียบกับฟังก์ชันความน่าจะเป็นจากการแจกแจงปัวซองในกรณีหลังหรือไม่?
อเล็กซ์

1
@Alex Right; OLS เป็น ML ที่ความเป็นไปได้ของ Gaussian และ Gaussian ไม่ใช่ความเป็นไปได้ของปัวซอง
Glen_b
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.