มีกฎการให้คะแนนที่เหมาะสมและเคร่งครัดสองสามข้อสำหรับข้อมูลนับที่คุณสามารถใช้ได้ กฎการให้คะแนนมีบทลงโทษนำมาใช้กับเป็นการกระจายการทำนายและค่าสังเกต พวกเขามีคุณสมบัติที่พึงประสงค์จำนวนมากสิ่งแรกและสำคัญที่สุดที่การคาดการณ์ที่ใกล้เคียงกับความน่าจะเป็นที่แท้จริงจะได้รับการลงโทษน้อยกว่าและมีการคาดการณ์ที่ดีที่สุด (ไม่เหมือนใคร) และหนึ่งคือ ดังนั้นการลดความคาดหวังของหมายถึงการรายงานความน่าจะเป็นที่แท้จริง ดูยังวิกิพีเดียP y s ( y , P )s(y,P)Pys(y,P)
บ่อยครั้งที่หนึ่งใช้ค่าเฉลี่ยของค่าที่คาดการณ์ไว้ทั้งหมดเป็น
S=1n∑ni=1s(y(i),P(i))
กฎที่จะต้องใช้นั้นขึ้นอยู่กับวัตถุประสงค์ของคุณ แต่ฉันจะอธิบายลักษณะคร่าวๆเมื่อใช้แต่ละอย่างได้ดี
ในสิ่งต่อไปนี้ฉันใช้สำหรับฟังก์ชันมวลความน่าจะเป็นทำนายและฟังก์ชันการแจกแจงสะสมแบบทำนายได้ Aทำงานมากกว่าการสนับสนุนทั้งหมดของการแจกแจงการนับ (เช่น ) หมายถึงฟังก์ชั่นตัวบ่งชี้ และคือค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของการแจกแจงการทำนาย (ซึ่งโดยปกติแล้วจะเป็นปริมาณที่ประมาณโดยตรงในแบบจำลองข้อมูลการนับ) f(y)F ( y ) ∑ k 0 , 1 , … ,Pr(Y=y)F(y)∑kฉันμ σ0,1,…,∞Iμσ
กฎการให้คะแนนที่เหมาะสมอย่างเคร่งครัด
- คะแนน Brier : (เสถียรสำหรับขนาดที่ไม่สมดุลในการทำนายเชิงหมวดหมู่)s(y,P)=−2f(y)+∑kf2(k)
- คะแนน Dawid-Sebastiani : (เหมาะสำหรับการเลือกรูปแบบการทำนายทั่วไปมีเสถียรภาพสำหรับขนาดความไม่สมดุลในการพยากรณ์เชิงหมวดหมู่)s(y,P)=(y−μσ)2+2logσ
- คะแนนความเบี่ยงเบน: (เป็นคำการทำให้เป็นมาตรฐานที่ขึ้นอยู่กับเท่านั้นในโมเดลปัวซองมันมักจะถูกนำมาใช้เป็นค่าเบี่ยงเบนอิ่มตัวซึ่งดีสำหรับการใช้งานโดยประมาณจาก กรอบ MLg y ys(y,P)=−2logf(y)+gygyy
- คะแนนลอการิทึม : (คำนวณได้ง่ายมากมีความเสถียรสำหรับความไม่สมดุลของขนาดในการพยากรณ์เชิงหมวดหมู่)s(y,P)=−logf(y)
- คะแนนความน่าจะเป็นอันดับ : (ดีสำหรับการเปรียบเทียบการคาดการณ์ที่แตกต่างกันของการนับที่สูงมาก; ไวต่อความไม่สมดุลของขนาดs(y,P)=∑k{F(k)−I(y≤k)}2
- คะแนนทรงกลม : (เสถียรสำหรับความไม่สมดุลของขนาดในการพยากรณ์เชิงหมวดหมู่)s(y,P)=f(y)∑kf2(k)√
กฎการให้คะแนนอื่น ๆ (ไม่ค่อยเหมาะสม แต่มักจะใช้)
- คะแนนข้อผิดพลาดทั้งหมด :(ไม่เหมาะสม)s(y,P)=|y−μ|
- คะแนนความผิดพลาดกำลังสอง : (ไม่เหมาะสมอย่างยิ่ง; ไวต่อการผิดปกติ; ไวต่อความไม่สมดุลของขนาดในการพยากรณ์เชิงหมวดหมู่)s(y,P)=(y−μ)2
- คะแนนข้อผิดพลาดกำลังสองของ Pearson ที่ทำให้เป็นมาตรฐาน : (ไม่ถูกต้องเหมาะสม, ไวต่อค่าผิดปกติ; สามารถใช้ตรวจสอบว่าแบบจำลองตรวจสอบว่าคะแนนเฉลี่ยหรือไม่ แตกต่างจาก 1 อย่างมากสำหรับความไม่สมดุลของขนาดในตัวทำนายหมวดหมู่)s(y,P)=(y−μσ)2
ตัวอย่างรหัส R สำหรับกฎที่เหมาะสมอย่างเคร่งครัด:
library(vcdExtra)
m1 <- glm(Freq ~ mental, family=poisson, data=Mental)
# scores for the first observation
mu <- predict(m1, type="response")[1]
x <- Mental$Freq[1]
# logarithmic (equivalent to deviance score up to a constant)
-log(dpois(x, lambda=mu))
# quadratic (brier)
-2*dpois(x,lambda=mu) + sapply(mu, function(x){ sum(dpois(1:1000,lambda=x)^2) })
# spherical
- dpois(x,mu) / sqrt(sapply(mu, function(x){ sum(dpois(1:1000,lambda=x)^2) }))
# ranked probability score
sum(ppois((-1):(x-1), mu)^2) + sum((ppois(x:10000,mu)-1)^2)
# Dawid Sebastiani
(x-mu)^2/mu + log(mu)