การกระจายตัวใน summary.glm ()


13

ฉันทำ glm.nb โดย

glm1<-glm.nb(x~factor(group))

กับกลุ่มที่เป็น categorial และ x เป็นตัวแปรเมทริกซ์ เมื่อฉันพยายามที่จะได้รับการสรุปผลที่ฉันได้รับผลลัพธ์ที่แตกต่างกันเล็กน้อยขึ้นอยู่กับว่าผมใช้หรือsummary() ให้ฉันsummary.glmsummary(glm1)

    ...
Coefficients:
                    Estimate Std. Error z value Pr(>|z|)  
    (Intercept)       0.1044     0.1519   0.687   0.4921  
    factor(gruppe)2   0.1580     0.2117   0.746   0.4555  
    factor(gruppe)3   0.3531     0.2085   1.693   0.0904 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 1)

ในขณะที่ summary.glm (glm1) ให้ฉัน

    ...
Coefficients:
                    Estimate Std. Error t value Pr(>|t|)  
    (Intercept)       0.1044     0.1481   0.705   0.4817  
    factor(gruppe)2   0.1580     0.2065   0.765   0.4447  
    factor(gruppe)3   0.3531     0.2033   1.737   0.0835 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067)

ฉันเข้าใจความหมายของพารามิเตอร์การกระจายตัว แต่ไม่ใช่ของเส้น

(Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067).

ในหนังสือบอกว่ามันจะเป็นการกระจายตัวโดยประมาณ แต่ดูเหมือนว่าจะเป็นการประมาณที่ไม่ดีเนื่องจาก 0.95 ไม่ใกล้เคียงกับ 0.7109 หรือการกระจายตัวโดยประมาณนั้นแตกต่างจากพารามิเตอร์การกระจายตัวโดยประมาณหรือไม่ ฉันเดาว่าฉันต้องตั้งค่าการกระจายในsummary.nb(x, dispersion=)บางสิ่งบางอย่าง แต่ฉันไม่แน่ใจว่าถ้าฉันต้องตั้งค่าการกระจายตัวเป็น 1 (ซึ่งจะให้ผลลัพธ์เดียวกันกับsummary()หรือถ้าฉันควรแทรกค่าประมาณของพารามิเตอร์การกระจาย ในกรณีนี้นำไปสู่summary.nb(glm1, dispersion=0.7109)หรืออย่างอื่นหรือไม่หรือฉันสบายดีกับการใช้เพียงsummary(glm1)?


3
ใช้การสรุป () ตามที่มันส่งไปยังวิธีการ S3 ที่เหมาะสมสำหรับ negbin คลาส การกระจายตัวต้องเป็น 1 สิ่งที่ได้รับคือทีต้าซึ่งเรียกว่าพารามิเตอร์รูปร่างดีกว่าเพื่อหลีกเลี่ยงความสับสน ดูยังstats.stackexchange.com/questions/27773/how-does-glm-nb-work/...
Momo

คำตอบ:


13

ประการแรกคุณไม่ควรใช้ในวัตถุของคลาสsummary.glm "negbin"ถ้าคุณดูที่รหัสฟังก์ชันสำหรับขวาที่ด้านบนคุณจะเห็นการคำนวณของsummary.glm dispersionโปรดทราบว่าsummary.glm มีเพียงเกี่ยวกับแบบจำลองที่สามารถติดตั้งได้glmดังนั้นจึงแยกตระกูล binomial และ Poisson ออกมาสำหรับการดูแลเป็นพิเศษโดยที่พารามิเตอร์การกระจายจะถือว่าเท่ากับ 1 สำหรับรุ่นอื่นที่ไม่ใช่คำนวณจาก โมเดลวัตถุ แต่โปรดทราบว่านี่เป็นไปตามสมมติฐานที่ว่านี่เหมาะสำหรับครอบครัวที่ไม่ใช่ทวินามหรือปัวซอง สำหรับรูปแบบการติดตั้งโดยมี ดังนั้นเมื่อคุณใช้ϕϕϕfamilyglm.nb"Negative Binomial(theta)"summary.glmในรูปแบบที่ติดตั้งโดยglm.nbรหัสใน

if (is.null(dispersion)) 
    dispersion <- if (object$family$family %in% c("poisson", 
        "binomial")) 
        1
    else if (df.r > 0) {
        est.disp <- TRUE
        if (any(object$weights == 0)) 
                warning("observations with zero weight not used for calculating dispersion")
            sum((object$weights * object$residuals^2)[object$weights > 
            0])/df.r
    }

การทดสอบสำหรับ"poisson"หรือ"binomial"ล้มเหลวและมันก็คำนวณที่ในความเป็นจริงที่เกิดขึ้นจริงก็จะถือว่าเท่ากับ 1 โดยเริ่มต้นสำหรับครอบครัวแห่งนี้ (ตามความหมายของϕsummary.negbin

มีปัญหาเกี่ยวกับเรื่องนี้คือมันเป็นเพียงง่ายที่จะเรียกวิธีการที่ถูกต้องและจัดหาค่าแตกต่างกันสำหรับผ่านการโต้แย้งϕdispersion

ประการที่สองคุณเข้าใจผิดออก เมื่อคุณเห็น

Negative Binomial(0.7109)

ตามที่ฉันพูดถึงข้างต้นจำนวนที่ยกมาในวงเล็บคือพารามิเตอร์ของการแจกแจงเชิงลบแบบทวินาม ค่านี้ประมาณว่าระหว่างการฟิตติ้ง มันไม่ใช่ , พารามิเตอร์การกระจายและด้วยเหตุนี้ตัวเลขทั้งสองจึงไม่ควรเท่ากัน; มันเป็นแค่ตัวเลขสองตัวไวθ^ϕ

ในฐานะที่เป็นคำนวณการกระจาย (รหัสต่อไปนี้ที่ผมอ้างสูงกว่า) จะสวยใกล้เคียงกับหนึ่ง (~ 0.95) สมมติฐานที่ว่าใช้สำหรับข้อผิดพลาดมาตรฐานคือไม่ได้อยู่ในเลวร้ายเกินไป แน่นอนคุณสามารถทำได้ϕ = 1ϕϕ=1summary.negbin

summary(glm1, dispersion = 0.9509)

และได้รับการส่งออกที่เพิ่มขึ้นว่าnegbinวิธีการที่จะช่วยให้คุณบวกคำนวณมากกว่าค่าสันนิษฐาน\ϕ


5
+1 คำอธิบายที่ดี ฉันมีสองความคิดเห็นเล็ก ๆ : พารามิเตอร์การกระจายตัวในทวินามปัวซองและลบทวินามที่มีพารามิเตอร์รูปร่างที่รู้จักคือ 1 โดยนิยามของตระกูลเอ็กซ์โปเนนเชียล (ไม่ใช่สมมติฐาน) เมื่อคุณบอกว่าการกระจายตัวที่แตกต่างกันสามารถประมาณและส่งไปยังวิธีการสรุปได้ดังนั้นคุณจะต้องระมัดระวังเพราะจะทำการเข้าไปในอาณาเขตเสมือนซึ่งมีความหมายโดยเฉพาะอย่างยิ่งสำหรับโอกาส
Momo

@Momo พูดอย่างนั้นดี ฉันฉีกขาดระหว่างสิ่งที่คุณระบุและรายละเอียดของหน้าความช่วยเหลือสำหรับฟังก์ชั่นที่เกี่ยวข้อง
Reinstate Monica - G. Simpson

2

จาก Venables & Ripley (2002), สถิติประยุกต์สมัยใหม่พร้อม S : 'Theta' กำหนดการกระจายแกมม่าที่มีรูปร่าง & scaleดังนั้นจึงหมายถึง & แปรปรวน . ให้เป็นตัวแปรสุ่มที่มีการแจกแจงนี้ การตอบสนองนั้นมีการแจกแจงแบบมีเงื่อนไขบนในขณะที่ปัวซองมีค่าเฉลี่ยโดยที่เป็นฟังก์ชันของตัวทำนายและค่าสัมประสิทธิ์ขึ้นอยู่กับการเชื่อมโยงที่คุณเลือก การกระจายตัวของมันคือลบทวินามด้วยฟังก์ชันมวล1θ 111θ1 EYEμEμ1θEYEμEμ

f(y)=Γ(θ+y)Γ(θ)y!μyθθ(μ+θ)θ+y

ความคาดหวัง

EY=μ

& ความแปรปรวน

VarY=μ+μ2θ

@Momo ชี้ให้เห็นว่าพารามิเตอร์การกระจายตัวเป็นอีกสิ่งหนึ่งโดยสิ้นเชิง สำหรับโมเดลทวินามลบและโมเดลปัวซอง (จริง) มันถูกกำหนดเป็นค่าหนึ่ง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.