Deviance และ GLM
อย่างเป็นทางการเราสามารถดูความเบี่ยงเบนเป็นระยะทางระหว่างแบบจำลองความน่าจะเป็นสองแบบ ในบริบทของ GLM จะมีค่าเป็นสองเท่าของอัตราการบันทึกของความน่าจะเป็นระหว่างรุ่นสองแบบซ้อนโดยที่คือรูปแบบ "เล็กกว่า"; นั่นคือข้อ จำกัด เชิงเส้นในพารามิเตอร์โมเดล (เทียบกับNeyman – Pearson lemma ) ตามที่ @suncoolsu กล่าว ดังนั้นจึงสามารถใช้เพื่อทำการเปรียบเทียบแบบจำลองได้ นอกจากนี้ยังสามารถมองเห็นได้ว่าเป็นลักษณะทั่วไปของ RSS ที่ใช้ในการประมาณค่า OLS (ANOVA, การถดถอย) เพราะมันเป็นตัวชี้วัดความดี - พอดีพอดีของแบบจำลองที่ได้รับการประเมินเมื่อเปรียบเทียบกับตัวแบบ null (สกัดกั้นเท่านั้น) มันทำงานร่วมกับ LM ได้เช่นกัน:ℓ1/ ℓ0ℓ0
> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)
ส่วนที่เหลือ SS (RSS) คำนวณได้เป็นซึ่งได้มาจาก:ε^tε^
> t(residuals(lm.res))%*%residuals(lm.res)
[,1]
[1,] 98.66754
หรือจาก (ยังไม่ได้ปรับ)R2
> summary(lm.res)
Call:
lm(formula = y ~ x)
(...)
Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175
F-statistic: 71.97 on 1 and 98 DF, p-value: 2.334e-13
ตั้งแต่โดยที่คือความแปรปรวนทั้งหมด โปรดทราบว่ามันสามารถใช้ได้โดยตรงในตาราง ANOVA เช่นR2=1−RSS/TSSTSS
> summary.aov(lm.res)
Df Sum Sq Mean Sq F value Pr(>F)
x 1 72.459 72.459 71.969 2.334e-13 ***
Residuals 98 98.668 1.007
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
ตอนนี้ดูความเบี่ยงเบน:
> deviance(lm.res)
[1] 98.66754
อันที่จริงแล้วสำหรับโมเดลเชิงเส้นค่าเบี่ยงเบนเท่ากับ RSS (คุณอาจจำได้ว่าการประมาณ OLS และ ML ตรงกันในกรณีนี้)
Deviance และรถเข็น
เราสามารถมองเห็นรถเข็นเป็นวิธีการจัดสรรแล้วบุคคลที่มีข้อความในชั้นเรียนโดยพลการ (ในบริบทการจัดหมวดหมู่) ต้นไม้สามารถดูได้ว่าเป็นแบบจำลองความน่าจะเป็นสำหรับการเป็นสมาชิกระดับบุคคล ดังนั้นในแต่ละโหนดเรามีการแจกแจงความน่าจะเป็นเหนือคลาส อะไรคือสิ่งที่สำคัญที่นี่คือใบของต้นไม้ที่ให้เราเป็นตัวอย่างที่สุ่มจากการกระจายพหุนามที่ระบุโดย{} ดังนั้นเราสามารถกำหนดความเบี่ยงเบนของต้นไม้เป็นผลรวมของใบไม้ทั้งหมดnipiknikpikD
Di=−2∑kniklog(pik),
ติดตาม Venables และ Ripley's ( MASS , Springer 2002, 4th ed.) หากคุณมีการเข้าถึงข้อมูลอ้างอิงที่จำเป็นนี้สำหรับผู้ใช้ R (IMHO) คุณสามารถตรวจสอบด้วยตัวเองว่าวิธีการดังกล่าวใช้วิธีการแยกโหนดและปรับต้นไม้ให้เหมาะสมกับข้อมูลที่สังเกตได้หรือไม่ (หน้า 255 ff) โดยทั่วไปความคิดที่จะลดโดยการตัดแต่งกิ่งต้นไม้,ที่คือจำนวนของโหนดในต้นไม้Tที่นี่เรารับรู้ค่าใช้จ่ายที่ซับซ้อนค้าปิด ที่นี่เทียบเท่ากับแนวคิดของความไม่บริสุทธิ์ของโหนด (เช่นความหลากหลายของการแจกแจงที่โหนดที่กำหนด) ซึ่งจะขึ้นอยู่กับการวัดของเอนโทรปีหรือการได้รับข้อมูลหรือดัชนี Gini ที่รู้จักกันดีกำหนดเป็นD+α#(T)#(T)TD 1 - ∑ k p 2 ฉันkD1−∑kp2ik (สัดส่วนที่ไม่รู้จักประมาณจากสัดส่วนโหนด)
ด้วยต้นไม้การถดถอยความคิดนั้นค่อนข้างคล้ายกันและเราสามารถสร้างแนวความคิดเบี่ยงเบนเป็นผลรวมของกำลังสองที่กำหนดสำหรับบุคคลโดยj
Di=∑j(yj−μi)2,
รวมยอดใบไม้ทั้งหมด นี่คือรูปแบบความน่าจะเป็นที่การพิจารณาภายในแต่ละใบเป็นของเกาส์2) การอ้างถึง Venables และ Ripley (หน้า 256), "เป็นความเบี่ยงเบนขนาดปกติสำหรับ GLA แบบเกาส์เซียอย่างไรก็ตามการกระจายที่โหนดภายในของต้นไม้นั้นเป็นส่วนผสมของการแจกแจงแบบปกติและดังนั้นจึงเหมาะสมเฉพาะที่ใบไม้ กระบวนการสร้างต้นไม้จะต้องถูกมองว่าเป็นแบบจำลองความน่าจะเป็นแบบลำดับชั้นคล้ายกับการเลือกตัวแปรไปข้างหน้าในการถดถอย " ส่วนที่ 9.2 ให้ข้อมูลโดยละเอียดเพิ่มเติมเกี่ยวกับการนำไปใช้ แต่คุณสามารถดูฟังก์ชันได้แล้วN(μi,σ2)DDirpart
residuals()
rpart
วัตถุที่ "deviance residuals" ถูกคำนวณเป็นสแควร์รูทของลบสองเท่าของลอการิทึมของโมเดลที่ติดตั้ง
การแนะนำให้รู้จักกับการแบ่งพาร์ติชันแบบเรียกซ้ำโดยใช้รูทีน rpartโดย Atkinson และ Therneau ก็เป็นจุดเริ่มต้นที่ดีเช่นกัน สำหรับความคิดเห็นทั่วไปเพิ่มเติม (รวมถึงการห่อ) ฉันอยากจะแนะนำ