OLS vs. Poisson GLM พร้อมลิงค์ตัวตน

คำถามของฉันเปิดเผยความเข้าใจที่ไม่ดีของฉันเกี่ยวกับการถดถอยปัวซองและ GLMs โดยทั่วไป นี่คือข้อมูลปลอมที่จะแสดงคำถามของฉัน:

### some fake data
x=c(1:14)
y=c(0,  1,  2,  3,  1,  4,  9, 18, 23, 31, 20, 25, 37, 45)

บางฟังก์ชั่นที่กำหนดเองเพื่อกลับ psuedo-R2:

### functions of pseudo-R2

psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}

predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}

พอดีกับรุ่นสี่รุ่น: OLS, Gaussian GLM พร้อมลิงค์ตัวตน, ปัวซอง GLM พร้อมลิงค์บันทึก, ปัวซอง GLM พร้อมลิงค์ตัวตน

#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)

summary(mdl.ols)$r.squared
predR2(y, pred.ols)

#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)

psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)

#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log))  #transform

psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)

#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)

psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)

ในที่สุดวางแผนการทำนาย:

#### Plot the Fit
plot(x, y) 
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")

ฉันมีคำถาม 2 ข้อ:

ปรากฏว่าค่าสัมประสิทธิ์และการคาดการณ์ออกมาจาก OLS และ Gaussian GLM พร้อมลิงค์ตัวตนเหมือนกันทุกประการ สิ่งนี้เป็นจริงเสมอหรือไม่?
ฉันประหลาดใจมากที่การประมาณและการคาดการณ์ของ OLS นั้นแตกต่างจาก Poisson GLM มากโดยมีลิงก์ตัวตน ฉันคิดว่าทั้งสองวิธีจะพยายามประมาณ E (Y | X) ฟังก์ชั่นความน่าจะเป็นอย่างไรเมื่อฉันใช้ลิงก์ประจำตัวสำหรับปัวซอง

generalized-linear-model poisson-distribution

— วิลเลียมชิว
แหล่งที่มา

เกี่ยวข้อง: stats.stackexchange.com/questions/142338/…

— kjetil b halvorsen

หากคุณต้องการทำกำลังสองน้อยที่สุดเพื่อประมาณโมเดลปัวซองด้วยลิงก์ตัวตนคุณสามารถใส่แบบจำลองกำลังสองน้อยที่สุดได้อย่างมีน้ำหนัก mdl.wols = lm (y ~ x, น้ำหนัก = 1 / log (y + 1.00000000001) ที่บันทึก (y + 1.00000000001) จะถูกนำมาใช้เป็นค่าประมาณความแปรปรวนครั้งแรก (sqrt (y + 1E-10)) เช่นกัน - การประมาณค่าของแบบจำลองดังกล่าวจะใกล้เคียงกับ Poisson GLM มากด้วยการเชื่อมโยงตัวตน ...

— Tom Wenseleers

ใช่พวกเขาเป็นสิ่งเดียวกัน MLE สำหรับ Gaussian นั้นคือกำลังสองน้อยที่สุดดังนั้นเมื่อคุณทำ Gaussian GLM ด้วยลิงค์ตัวตนคุณกำลังทำ OLS
a) " ฉันคิดว่าทั้งสองวิธีจะพยายามประมาณ E (Y | X) "

จริง ๆ แล้วพวกเขาทำ แต่วิธีการที่คาดหวังตามเงื่อนไขคาดว่าเป็นฟังก์ชั่นของข้อมูลที่ไม่เหมือนกัน แม้ว่าเราจะไม่สนใจการแจกแจง (และวิธีการที่ข้อมูลป้อนโอกาส) และคิดเกี่ยวกับ GLM เพียงในแง่ของค่าเฉลี่ยและความแปรปรวน (ราวกับว่ามันเป็นแค่การถดถอยแบบถ่วงน้ำหนัก) ความแปรปรวนของปัวซองเพิ่มขึ้นด้วยค่าเฉลี่ยดังนั้น น้ำหนักสัมพัทธ์ในการสังเกตจะแตกต่างกัน

b) " ฟังก์ชั่นความน่าจะเป็นอย่างไรเมื่อฉันใช้ลิงค์ประจำตัวสำหรับปัวซอง? "

$\mathcal{L}(\beta_0,\beta_1) = \prod_i e^{-\lambda_i}\lambda_i^{y_i}/y_i!$

$\qquad\qquad\,=\exp(\sum_i -\lambda_i+{y_i}\log(\lambda_i)-\log{(y_i!)}\,)\quad$ $\lambda_i=\beta_0+\beta_1 x_i$

$\qquad\qquad\,=\exp(\sum_i -(\beta_0+\beta_1 x_i)+{y_i}\log(\beta_0+\beta_1 x_i)-\log{(y_i!)}\,)$

— Glen_b -Reinstate Monica
แหล่งที่มา

รายละเอียดเกี่ยวกับจุดที่สองของ Glen_b เรื่องหนึ่งที่ฉันบอกตัวเองซึ่งฉันพบว่าค่อนข้างชัดเจนว่าเมื่อค่าเฉลี่ยตามเงื่อนไขโดยประมาณเพิ่มขึ้นในโมเดลปัวซองรูปแบบจะได้รับการยอมรับมากขึ้นของค่าข้อมูลที่อยู่ห่างจากค่าเฉลี่ยตามเงื่อนไข ตัดกันนี้ด้วยโมเดลเชิงเส้นตรงซึ่งมีความทนทานสม่ำเสมอไม่ว่าค่าเฉลี่ยเชิงเงื่อนไขจะเป็นเท่าไหร่

— Matthew Drury

@Glen_b ฉันขอให้คุณชี้แจงสิ่งที่คุณพูดว่า: "ดังนั้นข้อมูลจะเข้าสู่โอกาส" คุณกำลังบอกว่าความเป็นไปได้ของแบบจำลองนั้นแตกต่างกันระหว่าง OLS และ POisson (link = identity) เมื่อทำการติดตั้งด้วย MLE หรือไม่? คือถ้าเหมาะสม OLS โดยใช้ MLE คุณใช้ฟังก์ชันความน่าจะเป็นสำหรับการแจกแจงแบบปกติเพื่อคำนวณความน่าจะเป็นของความพอดีเมื่อเทียบกับฟังก์ชันความน่าจะเป็นจากการแจกแจงปัวซองในกรณีหลังหรือไม่?

— อเล็กซ์

@Alex Right; OLS เป็น ML ที่ความเป็นไปได้ของ Gaussian และ Gaussian ไม่ใช่ความเป็นไปได้ของปัวซอง

— Glen_b