การตรวจสอบค่าคงที่สำหรับค่าปกติในโมเดลเชิงเส้นทั่วไป


12

กระดาษนี้ใช้แบบจำลองเชิงเส้นทั่วไป (ทั้งการแจกแจงแบบทวินามและลบแบบทวินามลบ) เพื่อวิเคราะห์ข้อมูล แต่ในส่วนการวิเคราะห์ทางสถิติของวิธีการมีคำสั่งนี้:

... และลำดับที่สองโดยการสร้างแบบจำลองข้อมูลการแสดงตนโดยใช้ตัวแบบการถดถอยโลจิสติกและข้อมูลเวลาการค้นหาโดยใช้แบบจำลองเชิงเส้นทั่วไป (GLM) การแจกแจงแบบทวินามลบพร้อมฟังก์ชั่นบันทึกการเชื่อมโยงถูกใช้เพื่อสร้างแบบจำลองข้อมูลเวลาการหาอาหาร (Welsh et al. 1996) และตรวจสอบความเพียงพอของแบบจำลอง ใช้การทดสอบ Shapiro – Wilk หรือ Kolmogorov – Smirnov เพื่อทดสอบภาวะปกติทั้งนี้ขึ้นอยู่กับขนาดตัวอย่าง ข้อมูลถูกบันทึกการแปลงก่อนการวิเคราะห์ให้เป็นไปตามปกติ

หากพวกเขาถือว่าการแจกแจงข้อผิดพลาดทวินามและลบทวินามก็แน่นอนว่าพวกเขาไม่ควรตรวจสอบความเป็นปกติของเศษซาก?


2
โปรดทราบว่าข้อผิดพลาดจะไม่กระจาย binomially - แต่ละการตอบสนองจะมีการกระจาย binomially กับความน่าจะเป็นพารามิเตอร์ที่กำหนดโดยค่าทำนายสอดคล้องตามคำตอบหนึ่งในคำถามอื่น ๆ ของคุณ
Scortchi - Reinstate Monica

3
ไม่มีอะไรในการถดถอยแบบทวินามหรือการลบทวินามมากกว่าที่จะเป็นปกติ หากเป็นการตอบสนองที่พวกเขาแปลงนั่นอาจจะต่อต้านได้อย่างมาก มันจะขันสกรูขึ้น GLM
Glen_b

1
ไม่ชัดเจนจากคำพูดของคุณสิ่งที่พวกเขากำลังทดสอบความเป็นจริงสำหรับมาตรฐาน (คุณแน่ใจหรือไม่ว่ามันคือเศษเหลือทิ้ง) หรือสำหรับการวิเคราะห์ที่พวกเขาเปลี่ยนแปลงข้อมูล (คุณแน่ใจหรือไม่ว่าเป็น GLM)
Scortchi - Reinstate Monica

ฉันได้ขยายการอ้างอิงเล็กน้อย มีคนยืนยันได้หรือไม่ว่าผู้เขียนบทความคนใดทำผิดหรือถูก?
luciano

ฉันเกรงว่ามันยังไม่ชัดเจนนัก - ติดต่อผู้เขียนเพื่อขอรายละเอียดว่าพวกเขาดำเนินการวิเคราะห์อย่างไรหากยังไม่ได้อธิบายที่อื่นในเอกสารหรือเอกสารอ้างอิง
Scortchi - Reinstate Monica

คำตอบ:


16

ส่วนที่เหลือของความเบี่ยงเบน (หรือเพียร์สัน) NB นั้นไม่ได้รับการคาดหวังว่าจะมีการแจกแจงแบบปกติยกเว้นรุ่น Gaussian สำหรับกรณีการถดถอยแบบลอจิสติกตามที่ @Stat บอกว่าค่าเบี่ยงเบนส่วนเบี่ยงเบนมาตรฐานสำหรับการสังเกต thนั้นได้รับจากiyi

riD=2|log(1π^i)|

ถ้า &yi=0

riD=2|log(π^i)|

ถ้า , ที่คือความน่าจะเป็นของ Bernoulli เนื่องจากแต่ละค่าสามารถใช้เพียงหนึ่งในสองค่าเท่านั้นการล้างค่าการแจกแจงของพวกเขาไม่สามารถเป็นปกติได้แม้จะเป็นรุ่นที่ระบุอย่างถูกต้อง:yi=1πi^

#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))

#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

พล็อต QQ n = 1

แต่ถ้ามีทำซ้ำการสังเกตสำหรับรูปแบบตัวทำนายและความเบี่ยงเบนที่เหลือถูกกำหนดเพื่อรวบรวมสิ่งเหล่านี้nii

riD=sgn(yiniπ^i)2[yilogyinπ^i+(niyi)logniyini(1π^i)]

(โดยที่นับจากความสำเร็จตั้งแต่ 0 ถึง ) จากนั้นเมื่อมีขนาดใหญ่ขึ้นการแจกแจงส่วนที่เหลือจะใกล้เคียงกับมาตรฐานมากขึ้น:n ฉันn ฉันyinini

#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

พล็อต QQ n = 30

สิ่งที่มีความคล้ายคลึงกับปัวซองหรือลบ GLMs แบบทวินาม: สำหรับจำนวนที่คาดการณ์ไว้ต่ำการกระจายตัวของสิ่งที่เหลือนั้นไม่ต่อเนื่องและเอียง

อย่างน้อยก็ไม่ปกติที่คอของฉันที่จะทำการทดสอบอย่างเป็นทางการเกี่ยวกับภาวะปกติ; หากการทดสอบภาวะปกตินั้นไม่มีประโยชน์อย่างเป็นรูปธรรมเมื่อแบบจำลองของคุณใช้ความแน่นอนตามปกติแล้วFortioriก็จะไร้ประโยชน์หากไม่เป็นเช่นนั้น อย่างไรก็ตามสำหรับโมเดลที่ไม่อิ่มตัวการวินิจฉัยส่วนที่เหลือแบบกราฟิกนั้นมีประโยชน์สำหรับการประเมินสถานะและลักษณะของการขาดความพอดีการยึดถือกฎเกณฑ์ด้วยการเหน็บแนมหรือกำปั้นของเกลือขึ้นอยู่กับจำนวนของการจำลองซ้ำตามรูปแบบการทำนาย


1

สิ่งที่พวกเขาทำถูกต้อง! ฉันจะให้คุณอ้างอิงถึงตรวจสอบอีกครั้ง ดูหัวข้อ 13.4.4 ในการวิเคราะห์การถดถอยเชิงเส้นเบื้องต้นรุ่นที่ 5โดย Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining โดยเฉพาะอย่างยิ่งดูตัวอย่างในหน้า 460 ที่พวกเขาพอดีกับ glom binomial และตรวจสอบสองครั้งสมมติฐานของ "Deviance เหลือ" ดังที่กล่าวไว้ในหน้า 458 นี่เป็นเพราะ "ค่าเบี่ยงเบนเบี่ยงเบนทำตัวเหมือนกับเศษซากธรรมดาทำในแบบจำลองการถดถอยเชิงเส้นตามทฤษฎีมาตรฐาน" มันสมเหตุสมผลแล้วถ้าคุณวาดมันบนมาตราส่วนความน่าจะเป็นปกติรวมถึงค่าที่พอดี ดูหน้าอ้างอิง 456 อีกครั้ง ในตัวอย่างที่มีให้ในหน้า 460 และ 461 ไม่เพียง แต่สำหรับกรณีทวินามเท่านั้น แต่ยังสำหรับ Poisson glm และแกมมาด้วย (link = log) พวกเขาได้ตรวจสอบบรรทัดฐานของส่วนเบี่ยงเบนความเบี่ยงเบน
สำหรับกรณีทวินามส่วนเบี่ยงเบนที่เหลือถูกกำหนดเป็น:

riD=2|ln(1πi^)|
ถ้าและถ้า 1 ตอนนี้การเข้ารหัสใน R เพื่อแสดงให้คุณเห็นว่าคุณจะได้มันมาอย่างไร:yi=0yi=1
riD=2|ln(πi^)|
yi=1
> attach(npk)

> #Fitting binomila glm
> fit.1=glm(P~yield,family=binomial(logit))
> 
> #Getting deviance residuals directly
> rd=residuals(fit.1,type = c("deviance"))
> rd
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 
> 
> #Estimated success probabilities
> pi.hat=fitted(fit.1)
> 
> #Obtaining deviance residuals directly
> rd.check=-sqrt(2*abs(log(1-pi.hat)))
> rd.check[P==1]=sqrt(2*abs(log(pi.hat[P==1])))
> rd.check
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 

ตรวจสอบที่นี่สำหรับกรณีปัวซองด้วย


2
ตัวอย่างของคุณเป็นตัวเลือกที่แปลก ไม่ให้คุณ PP หรือ QQ พล็อตของผู้ที่เหลืออันซ์; ถ้าเป็นเช่นนั้นคุณสรุปอะไร?
Scortchi - Reinstate Monica

5
ประเด็นก็คือในกรณีนี้ไม่มีเหตุผลที่จะตรวจสอบความเป็นไปได้ของสิ่งตกค้าง - โดยปกติแล้วพวกเขาจะไม่ได้รับการแจกแจงอย่างชัดเจนและไม่ควรเป็นเช่นนั้น เป็นเพียงเมื่อจำนวนการสังเกตสำหรับแต่ละรูปแบบการทำนายเพิ่มขึ้นว่าการกระจายของส่วนที่เหลือ (หนึ่งที่เหลือจะถูกคำนวณต่อรูปแบบการทำนาย) มีแนวโน้มที่จะเป็นปกติ ในทำนองเดียวกันสำหรับโมเดลปัวซงหรือโมเดลทวินามลบ - การนับจะต้องมีขนาดใหญ่สำหรับการประมาณค่าปกติจะดี
Scortchi - Reinstate Monica

2
คำถามคือควรจะแจกแจงค่าส่วนที่เหลือจากแบบจำลองเชิงเส้นทั่วไป คำตอบของคุณดูเหมือนจะเป็น "ใช่" อย่างไม่มีเงื่อนไข (แม้ว่าแหล่งข้อมูลของคุณจะมีคุณสมบัติที่จำเป็นอย่างแน่นอน แต่ผู้อ่านทุกคนจะไม่ตรวจสอบ) จากนั้นคุณให้ตัวอย่างที่ไม่มีเหตุผลเลยที่จะคาดหวังว่าส่วนที่เหลือจะกระจายตามปกติแม้ว่ารูปแบบที่ระบุไว้ถูกต้อง: ผู้อ่านไม่ระวังจะถือว่าพวกเขาควรจะเป็น & ที่พวกเขาไม่ชัดเจนนี่คือ ดังนั้นตัวอย่างของการตรวจจับแบบจำลองข้อมูลผิดพลาดโดยการตรวจสอบสิ่งตกค้าง (แม้ว่าคุณจะ ...
Scortchi - Reinstate Monica

2
... ไม่ได้บอกว่าเป็น) ดังนั้นฉันคิดว่าคำตอบนั้นต้องการคำอธิบายที่ชัดเจนว่ามีประโยชน์
Scortchi - Reinstate Monica

2
ความคิดเห็นของ IMO @ Scortchi มีความสมเหตุสมผลที่นี่ ดูสิ่งที่ฉันสามารถเห็นหนังสือ Montgomery บนหน้าตัวอย่างของ Google หนังสือพวกเขาทำพล็อต QQ แต่ไม่ได้ทำการทดสอบปกติจริงเช่นที่กล่าวไว้โดยโปสเตอร์ต้นฉบับ แน่นอนว่าการทำพล็อต QQ นั้นสมเหตุสมผลในการทดสอบวินิจฉัย แต่ในสถานการณ์ที่สมจริงมาก ๆ จะไม่ปกติ
Andy W
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.