การตีความค่าส่วนที่เหลือและค่าเบี่ยงเบนมาตรฐานใน GLM R


47

จะแปลความหมายของ Null และ Residual Deviance ใน GLM ใน R ได้อย่างไร? อย่างที่เราบอกว่า AIC ที่เล็กกว่านั้นดีกว่า มีการตีความที่คล้ายกันและรวดเร็วสำหรับความเบี่ยงเบนด้วยหรือไม่

ความเบี่ยงเบนว่าง: 1146.1 เมื่อ 1,077 องศาอิสระส่วนที่เหลือเบี่ยงเบน: 4589.4 เมื่อ 1,099 องศาอิสระ AIC: 11089

คำตอบ:


74

ให้ LL = loglikelihood

นี่คือสรุปย่อของสิ่งที่คุณเห็นจากเอาต์พุตสรุป (glm.fit)

Null Deviance = 2 (LL (รุ่นอิ่มตัว) - LL (รุ่น Null)) บน df = df_Sat - df_Null

Residual Deviance = 2 (LL (รุ่นอิ่มตัว) - LL (รุ่นที่เสนอ)) df = df_Sat - df_Proposed

อิ่มตัวรุ่นคือรุ่นที่ถือว่าแต่ละจุดข้อมูลที่มีค่าของตัวเอง (ซึ่งหมายความว่าคุณมี n พารามิเตอร์เพื่อประเมิน.)

Null รุ่นถือว่าแน่นอน "ตรงข้าม" ในการที่จะถือว่าเป็นพารามิเตอร์หนึ่งสำหรับทุกจุดข้อมูลซึ่งหมายความว่าคุณจะประเมิน 1 พารามิเตอร์

เสนอรุ่นถือว่าคุณสามารถอธิบายจุดที่ข้อมูลของคุณด้วยพารามิเตอร์ + p ระยะตัดเพื่อให้คุณมี P + 1 พารามิเตอร์

ถ้าNull Devianceของคุณมีขนาดเล็กมากนั่นหมายความว่า Null Model อธิบายข้อมูลได้ค่อนข้างดี ในทำนองเดียวกันกับอันซ์ที่เหลือ

ขนาดเล็กจริงๆหมายถึงอะไร หากโมเดลของคุณ "ดี" แสดงว่าDevianceของคุณมีองศาอิสระ (df_sat - df_model) องศาโดยประมาณ

หากคุณต้องการเปรียบเทียบรุ่น Null กับรุ่นที่เสนอคุณสามารถดูได้

(Null Deviance - Residual Deviance)ประมาณ Chi ^ 2 โดยมีdf เสนอ - df Null = (n- (p + 1)) - (n-1) = p

ผลลัพธ์ที่คุณให้โดยตรงจาก R คืออะไร พวกมันดูแปลก ๆ นิดหน่อยเพราะโดยทั่วไปแล้วคุณจะเห็นว่าองศาอิสระที่รายงานบน Null นั้นสูงกว่าระดับความเป็นอิสระที่รายงานบน Residual เสมอ นั่นเป็นเพราะอีกครั้ง Null Deviance df = อิ่มตัว df - Null df = n-1 ส่วนที่เหลือ deviance df = อิ่มตัว df - เสนอ df = n- (p + 1)


ใช่นั่นเป็นประโยชน์อย่างมากสำหรับการเขียน @TeresaStat ขอบคุณ แข็งแกร่งแค่ไหน? คำจำกัดความเปลี่ยนไปหรือไม่หากคุณกำลังพูดถึงโมเดลพหุนามแทนที่จะเป็นGLM?
Hack-R

@Teresa: ใช่ผลลัพธ์เหล่านี้มาจาก R. เหตุใดจึงเป็นเช่นนี้ มีปัญหากับรุ่นนี้ไหม?
Anjali

@ Hack-R: ขอโทษที่ตอบกลับมาช้าฉันยังใหม่กับ Stackexchange สำหรับโมเดลมัลติโนเมียลคุณไม่ได้ใช้ฟังก์ชั่น glm ใน R และเอาต์พุตต่างกัน คุณจะต้องดูทั้งรูปแบบอัตราต่อรองสัดส่วนหรือการถดถอยอันดับ, ฟังก์ชัน mlogit มันคุ้มค่าที่จะอ่านนิดหน่อยเกี่ยวกับ multinomial glms พวกเขามีสมมติฐานต่างกันเล็กน้อย หากฉันไปถึงได้ในช่วงพักฉันจะอัปเดตสิ่งนี้พร้อมข้อมูลเพิ่มเติม
TeresaStat

@Anjali ฉันไม่แน่ใจว่าทำไมคุณถึงได้ผลลัพธ์เช่นนั้นใน R. มันยากที่จะทราบโดยไม่เห็นข้อมูล / ผลลัพธ์ของคุณ โดยทั่วไปฉันไม่เห็นว่าทำไมองศาอิสระที่เหลือจะสูงกว่าค่า null df คุณประเมินค่าพารามิเตอร์กี่ตัว
TeresaStat

1
@ user4050 เป้าหมายของการสร้างแบบจำลองโดยทั่วไปสามารถมองได้ว่าใช้พารามิเตอร์จำนวนน้อยที่สุดเพื่ออธิบายการตอบสนองของคุณมากที่สุด หากต้องการทราบว่าจะใช้พารามิเตอร์จำนวนเท่าใดคุณต้องพิจารณาถึงประโยชน์ของการเพิ่มพารามิเตอร์อีกหนึ่งพารามิเตอร์ หากพารามิเตอร์เสริมอธิบายจำนวนมาก (สร้างความเบี่ยงเบนสูง) จากรุ่นที่มีขนาดเล็กของคุณคุณต้องมีพารามิเตอร์เพิ่มเติม เพื่อให้ได้ปริมาณมากคุณต้องใช้ทฤษฎีทางสถิติ ทฤษฎีบอกเราว่าความเบี่ยงเบนคือไคกำลังสองที่มีองศาอิสระเท่ากับความแตกต่างของพารามิเตอร์ระหว่างสองโมเดลของคุณ ชัดเจนกว่านี้ไหม?
TeresaStat

13

ความเบี่ยงเบนว่างจะแสดงให้เห็นว่าแบบจำลองนั้นตอบสนองได้ดีเพียงใดโดยไม่มีการขัดขวาง

การเบี่ยงเบนที่เหลือแสดงให้เห็นว่าแบบจำลองการตอบสนองนั้นดีเพียงใดเมื่อมีการรวมตัวทำนาย จากตัวอย่างของคุณจะเห็นได้ว่าความเบี่ยงเบนเพิ่มขึ้น 3443.3 เมื่อมีการเพิ่มตัวแปรตัวทำนาย 22 ตัว (หมายเหตุ: องศาความเป็นอิสระ = ไม่จากการสังเกตการณ์ - จำนวนผู้ทำนาย) การเบี่ยงเบนที่เพิ่มขึ้นนี้เป็นหลักฐานของการขาดความเหมาะสมอย่างมีนัยสำคัญ

นอกจากนี้เรายังสามารถใช้การเบี่ยงเบนที่เหลือเพื่อทดสอบว่าสมมติฐานว่างเป็นจริงหรือไม่ (เช่นแบบจำลองการถดถอยโลจิสติกให้ข้อมูลที่เหมาะสมเพียงพอสำหรับข้อมูล) สิ่งนี้เป็นไปได้เพราะค่าเบี่ยงเบนจะถูกกำหนดโดยค่าไค - สแควร์ที่ระดับอิสระ เพื่อทดสอบความสำคัญเราสามารถค้นหาค่า p ที่เกี่ยวข้องโดยใช้สูตรด้านล่างใน R:

p-value = 1 - pchisq(deviance, degrees of freedom)

จากการใช้ค่าเบี่ยงเบนที่เหลือข้างต้นและ DF คุณจะได้รับ p-value ประมาณศูนย์แสดงว่ามีการขาดหลักฐานที่สำคัญในการสนับสนุนสมมติฐานว่าง

> 1 - pchisq(4589.4, 1099)
[1] 0

2
คุณจะรู้ได้อย่างไรว่าสิ่งที่ถูกตัดออกมานั้นดี / ไม่ดีตามความเบี่ยงเบนและจำนวนของตัวแปรทำนาย (โดยไม่มี pchisq)? มันเป็นเพียงแค่ถ้า Residual Deviance> NULL Deviance หรือมีช่วง / อัตราส่วน?
Hack-R

3
คำตอบของคุณไม่ผิด แต่อาจมีการเข้าใจผิด ในความเป็นจริงมันถูกเข้าใจผิด (cf ที่นี่ ) คุณสามารถอธิบายความแตกต่างที่เป็นนัยในรหัสของคุณได้หรือไม่?
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.