เป็นไปได้อย่างไรที่ Poisson GLM ยอมรับหมายเลขที่ไม่ใช่จำนวนเต็ม?


17

ฉันตกตะลึงกับความจริงที่ว่า Poisson GLM ยอมรับตัวเลขที่ไม่ใช่จำนวนเต็ม! ดู:

ข้อมูล (เนื้อหาของdata.txt):

1   2001    0.25  1
1   2002    0.5   1
1   2003    1     1
2   2001    0.25  1
2   2002    0.5   1
2   2003    1     1

สคริปต์ R:

t        <- read.table("data.txt")
names(t) <- c('site', 'year', 'count', 'weight')
tm       <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, 
                family = "quasipoisson")  # also works with family="poisson"
years    <- 2001:2003
plot(years, exp(c(0, tail(coef(tm), length(years)-1))), type = "l")

ดัชนีปีผลเป็น "คาดว่า" คือในปีที่ผ่าน1-2-42001-2003

แต่เป็นไปได้อย่างไรที่ Poisson GLM ใช้ตัวเลขที่ไม่ใช่จำนวนเต็ม? การแจกแจงปัวซงเป็นจำนวนเต็มเสมอ!


2
คุณช่วยอธิบายสิ่งที่คุณต้องการรู้ได้อย่างแน่นอน? อัลกอริธึมที่เหมาะสมเกี่ยวข้องกับวิธีที่ไม่ใช่จำนวนเต็มอย่างไร หรือทำไม R ไม่ตรวจสอบว่าการตอบสนองเป็นจำนวนเต็มหรือไม่ หรือว่ามีอะไรผิดปกติในผลลัพธ์เมื่อไม่ได้ระบุจำนวนเต็ม?
Momo

@ โมโมใช่คำถามเหล่านี้น่าสนใจ!
อยากรู้อยากเห็น

2
โปรดแก้ไขคำถามของคุณเพื่อสะท้อนว่า คุณมีแนวโน้มที่จะได้รับคำตอบที่ดีด้วยวิธีนี้
Momo

8
ไม่ว่าสิ่งนี้จะเป็นเรื่องจริงตามจริงfamily="poisson"เช่นกัน แต่โปรดทราบว่าตัวอย่างของคุณไม่ใช่ Poisson GLM เนื่องจากคุณกำลังใช้งานquasipoissonครอบครัวซึ่งขึ้นอยู่กับความสัมพันธ์ระหว่างค่าเฉลี่ยและความแปรปรวนอยู่แล้วดังนั้นในนั้น กรณีไม่ควรแปลกใจที่จะใช้หมายเลขที่ไม่ใช่จำนวนเต็ม
Aaron - Reinstate Monica

1
ต่อไปนี้เป็นข้อมูลอ้างอิงบางส่วนเกี่ยวกับสาเหตุที่อาจมีเหตุผล
Dimitriy V. Masterov

คำตอบ:


17

แน่นอนว่าคุณถูกต้องแล้วว่าการแจกแจงแบบปัวซองนั้นถูกกำหนดไว้สำหรับจำนวนเต็มเท่านั้น อย่างไรก็ตามการสร้างแบบจำลองทางสถิติเป็นศิลปะของการประมาณที่ดี (" แบบจำลองทั้งหมดผิด ") และมีบางครั้งที่เหมาะสมที่จะปฏิบัติต่อข้อมูลที่ไม่ใช่จำนวนเต็มราวกับว่ามันเป็น [ประมาณ] ปัวซอง

ตัวอย่างเช่นหากคุณส่งผู้สังเกตการณ์สองคนออกไปเพื่อบันทึกข้อมูลการนับเดียวกันอาจเกิดขึ้นได้ว่าผู้สังเกตการณ์ทั้งสองไม่เห็นด้วยกับการนับเสมอ - คนหนึ่งอาจพูดว่ามีบางสิ่งเกิดขึ้น 3 ครั้งในขณะที่อีกคนบอกว่ามันเกิดขึ้น 4 ครั้ง เป็นเรื่องที่ดีที่จะมีตัวเลือกให้ใช้ 3.5 เมื่อปรับค่าสัมประสิทธิ์ปัวซองของคุณให้เหมาะสมแทนที่จะต้องเลือกระหว่าง 3 และ 4

การคำนวณแบบแฟคทอเรียลในปัวซองนั้นทำให้ดูเหมือนยากที่จะทำงานกับผู้ที่ไม่ใช่จำนวนเต็ม แต่มีการวางนัยทั่วไปอย่างต่อเนื่องของแฟคทอเรียล นอกจากนี้การดำเนินการประมาณค่าความน่าจะเป็นสูงสุดสำหรับ Poisson ไม่ได้เกี่ยวข้องกับฟังก์ชั่นแฟกทอ, เมื่อคุณลดความซับซ้อนของการแสดงออก


15

สำหรับการตอบสนองหากคุณถือว่าลอการิทึมของความคาดหวังของมันคือการรวมกันเชิงเส้นของทำนายx E Y ฉัน = exp β T x ฉัน และความแปรปรวนของมันเท่ากับความคาดหวัง Var Y ฉัน = E Y ฉัน แล้วประมาณการที่สอดคล้องกันสำหรับการถดถอย สัมประสิทธิ์βสามารถรับได้โดยการแก้สมการคะแนนสำหรับแบบจำลองปัวซอง: n ฉันx ฉัน( y ฉัน - exp β T x ฉัน ) = 0yx

EYi=expβTxi
VarYi=EYi
β
inxi(yiexpβTxi)=0
แน่นอนความสอดคล้องไม่ได้หมายความถึงความถูกต้องของการทดสอบหรือช่วงความเชื่อมั่นใด ๆ ; โอกาสที่ไม่ได้ระบุ

สิ่งนี้ตามมาจากวิธีการของช่วงเวลาที่เราเรียนรู้ที่โรงเรียน & นำไปสู่การประมาณสมการทั่วไป

@ Aaron ชี้ให้เห็นว่าคุณใช้ quasi-Poisson พอดีในรหัสของคุณ นั่นหมายถึงความแปรปรวนเป็นสัดส่วนกับค่าเฉลี่ย

VarYi=ϕEYi

ϕ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.