ข้อผิดพลาดของตัวชี้วัดสำหรับโมเดลพัวซองที่ผ่านการตรวจสอบความถูกต้อง


29

ฉันข้ามการตรวจสอบรูปแบบที่พยายามทำนายการนับ หากนี่เป็นปัญหาการจำแนกเลขฐานสองฉันจะคำนวณ AUC แบบพับได้และถ้านี่เป็นปัญหาการถดถอยฉันจะคำนวณ RMSE หรือ Mae แบบ out-of-fold

สำหรับโมเดลปัวซงฉันสามารถใช้เมตริกข้อผิดพลาดใดในการประเมิน "ความถูกต้อง" ของการคาดการณ์ที่ไม่อยู่ในกลุ่มตัวอย่าง มีส่วนขยายของปัวซองของ AUC ที่ดูว่าการทำนายลำดับค่าที่แท้จริงดีเพียงใด

ดูเหมือนว่าการแข่งขัน Kaggle จำนวนมากสำหรับการนับ (เช่นจำนวนคะแนนโหวตที่เป็นประโยชน์ที่รีวิวร้องเอ๋งจะได้รับหรือจำนวนวันที่ผู้ป่วยจะใช้จ่ายในโรงพยาบาล) ใช้ข้อผิดพลาดรากหมายถึงบันทึกกำลังสองหรือ RMLSE


/ แก้ไข: สิ่งหนึ่งที่ฉันได้ทำคือการคำนวณ deciles ของค่าที่คาดการณ์ไว้และจากนั้นดูที่การนับจริงโดย binned by decile ถ้า decile 1 อยู่ในระดับต่ำ decile 10 จะสูงและ decile ในระหว่างนั้นเพิ่มขึ้นอย่างเคร่งครัดฉันได้เรียกโมเดล "ดี" แต่ฉันประสบปัญหาในการหาจำนวนกระบวนการนี้และฉันเชื่อว่ามันดีกว่า เข้าใกล้

/ แก้ไข 2: ฉันกำลังมองหาสูตรที่ใช้ค่าที่คาดการณ์และตามจริงและส่งกลับเมตริก "ข้อผิดพลาด" หรือ "ความแม่นยำ" บางส่วน แผนของฉันคือการคำนวณฟังก์ชั่นนี้เกี่ยวกับข้อมูลที่อยู่นอกกรอบในระหว่างการตรวจสอบความถูกต้องและจากนั้นใช้เพื่อเปรียบเทียบแบบจำลองที่หลากหลาย (เช่นการปัวซองการถดถอยแบบฟอเรสต์แบบสุ่มและGBM )

RMSE = sqrt(mean((predicted-actual)^2))ตัวอย่างเช่นหนึ่งฟังก์ชั่นดังกล่าวเป็น อีกฟังก์ชั่นดังกล่าวจะเป็นAUC ดูเหมือนว่าฟังก์ชั่นจะไม่เหมาะกับข้อมูลปัวซอง


สำหรับโมเดลปัวซองคุณสามารถใช้ความเบี่ยงเบนได้; ซึ่งคล้ายกับ MSE แต่เหมาะกับปัวซอง ถ้าคุณตัวอย่างขนาดไม่เล็ก MSE ที่มีน้ำหนักจะค่อนข้างคล้ายกัน
Glen_b -Reinstate Monica

@Glen_b สูตรการเบี่ยงเบนคืออะไร
ซัค

1
อันซ์ คุณจะปรับโมเดลปัวซองของคุณอย่างไร
Glen_b -Reinstate Monica

สองวิธีที่แตกต่างกันตั้งแต่การถดถอยปัวซองที่ถูกลงโทษไปจนถึง gbm ฉันกำลังมองหาข้อผิดพลาดที่ดีในการเปรียบเทียบแบบจำลองต่างๆ ขอบคุณสำหรับคำแนะนำ.
ซัค

การถดถอยปัวซองอย่างน้อยควรให้ความเบี่ยงเบนแก่คุณโดยอัตโนมัติ
Glen_b -Reinstate Monica

คำตอบ:


37

มีกฎการให้คะแนนที่เหมาะสมและเคร่งครัดสองสามข้อสำหรับข้อมูลนับที่คุณสามารถใช้ได้ กฎการให้คะแนนมีบทลงโทษนำมาใช้กับเป็นการกระจายการทำนายและค่าสังเกต พวกเขามีคุณสมบัติที่พึงประสงค์จำนวนมากสิ่งแรกและสำคัญที่สุดที่การคาดการณ์ที่ใกล้เคียงกับความน่าจะเป็นที่แท้จริงจะได้รับการลงโทษน้อยกว่าและมีการคาดการณ์ที่ดีที่สุด (ไม่เหมือนใคร) และหนึ่งคือ ดังนั้นการลดความคาดหวังของหมายถึงการรายงานความน่าจะเป็นที่แท้จริง ดูยังวิกิพีเดียP y s ( y , P )s(y,P)Pys(y,P)

บ่อยครั้งที่หนึ่งใช้ค่าเฉลี่ยของค่าที่คาดการณ์ไว้ทั้งหมดเป็น

S=1ni=1ns(y(i),P(i))

กฎที่จะต้องใช้นั้นขึ้นอยู่กับวัตถุประสงค์ของคุณ แต่ฉันจะอธิบายลักษณะคร่าวๆเมื่อใช้แต่ละอย่างได้ดี

ในสิ่งต่อไปนี้ฉันใช้สำหรับฟังก์ชันมวลความน่าจะเป็นทำนายและฟังก์ชันการแจกแจงสะสมแบบทำนายได้ Aทำงานมากกว่าการสนับสนุนทั้งหมดของการแจกแจงการนับ (เช่น ) หมายถึงฟังก์ชั่นตัวบ่งชี้ และคือค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของการแจกแจงการทำนาย (ซึ่งโดยปกติแล้วจะเป็นปริมาณที่ประมาณโดยตรงในแบบจำลองข้อมูลการนับ) f(y)F ( y ) k 0 , 1 , ,Pr(Y=y)F(y)kฉันμ σ0,1,,Iμσ

กฎการให้คะแนนที่เหมาะสมอย่างเคร่งครัด

  • คะแนน Brier : (เสถียรสำหรับขนาดที่ไม่สมดุลในการทำนายเชิงหมวดหมู่)s(y,P)=2f(y)+kf2(k)
  • คะแนน Dawid-Sebastiani : (เหมาะสำหรับการเลือกรูปแบบการทำนายทั่วไปมีเสถียรภาพสำหรับขนาดความไม่สมดุลในการพยากรณ์เชิงหมวดหมู่)s(y,P)=(yμσ)2+2logσ
  • คะแนนความเบี่ยงเบน: (เป็นคำการทำให้เป็นมาตรฐานที่ขึ้นอยู่กับเท่านั้นในโมเดลปัวซองมันมักจะถูกนำมาใช้เป็นค่าเบี่ยงเบนอิ่มตัวซึ่งดีสำหรับการใช้งานโดยประมาณจาก กรอบ MLg y ys(y,P)=2logf(y)+gygyy
  • คะแนนลอการิทึม : (คำนวณได้ง่ายมากมีความเสถียรสำหรับความไม่สมดุลของขนาดในการพยากรณ์เชิงหมวดหมู่)s(y,P)=logf(y)
  • คะแนนความน่าจะเป็นอันดับ : (ดีสำหรับการเปรียบเทียบการคาดการณ์ที่แตกต่างกันของการนับที่สูงมาก; ไวต่อความไม่สมดุลของขนาดs(y,P)=k{F(k)I(yk)}2
  • คะแนนทรงกลม : (เสถียรสำหรับความไม่สมดุลของขนาดในการพยากรณ์เชิงหมวดหมู่)s(y,P)=f(y)kf2(k)

กฎการให้คะแนนอื่น ๆ (ไม่ค่อยเหมาะสม แต่มักจะใช้)

  • คะแนนข้อผิดพลาดทั้งหมด :(ไม่เหมาะสม)s(y,P)=|yμ|
  • คะแนนความผิดพลาดกำลังสอง : (ไม่เหมาะสมอย่างยิ่ง; ไวต่อการผิดปกติ; ไวต่อความไม่สมดุลของขนาดในการพยากรณ์เชิงหมวดหมู่)s(y,P)=(yμ)2
  • คะแนนข้อผิดพลาดกำลังสองของ Pearson ที่ทำให้เป็นมาตรฐาน : (ไม่ถูกต้องเหมาะสม, ไวต่อค่าผิดปกติ; สามารถใช้ตรวจสอบว่าแบบจำลองตรวจสอบว่าคะแนนเฉลี่ยหรือไม่ แตกต่างจาก 1 อย่างมากสำหรับความไม่สมดุลของขนาดในตัวทำนายหมวดหมู่)s(y,P)=(yμσ)2

ตัวอย่างรหัส R สำหรับกฎที่เหมาะสมอย่างเคร่งครัด:

library(vcdExtra)
m1 <- glm(Freq ~ mental, family=poisson, data=Mental) 

# scores for the first observation
mu <- predict(m1, type="response")[1]
x  <- Mental$Freq[1]

# logarithmic (equivalent to deviance score up to a constant) 
-log(dpois(x, lambda=mu))

# quadratic (brier)
-2*dpois(x,lambda=mu) + sapply(mu, function(x){ sum(dpois(1:1000,lambda=x)^2) })

# spherical
- dpois(x,mu) / sqrt(sapply(mu, function(x){ sum(dpois(1:1000,lambda=x)^2) }))

# ranked probability score
sum(ppois((-1):(x-1), mu)^2) + sum((ppois(x:10000,mu)-1)^2)

# Dawid Sebastiani
(x-mu)^2/mu + log(mu)

@ โมโมเป็นกระทู้เก่า แต่ดีมากและมีประโยชน์ อย่างไรก็ตามคำถามเกี่ยวกับคะแนนลอการิทึม -log(f(y))คุณฟังก์ชั่นที่ใช้ เป็น-สัญญาณที่จริงๆควรจะมี? ในลิงก์กฎการให้คะแนนของคุณ ( en.wikipedia.org/wiki/Scoring_rule#Logarithmic_scoring_rule ) คะแนนลอการิทึมนั้นไม่มีเครื่องหมายลบ: L(r,i)=ln(ri)เป็นเรื่องปกติหรือไม่ ในที่สุดในกรณีนั้นคะแนนที่สูงขึ้นจะดีกว่าหรือแย่ที่สุด?
Bastien

มันจะดีกว่า (หรืออย่างน้อยอนุรักษ์นิยมและสมจริงมากขึ้น) ในการคำนวณมาตรการเหล่านี้ในชุดข้อมูลการตรวจสอบความถูกต้องที่ไม่ได้เป็นส่วนหนึ่งของข้อมูลที่ใช้ในการประเมินแบบจำลองหรือไม่?
เฟร็ด

ระบุว่า GLMs เหมาะสมกับการใช้ซ้ำอย่างน้อยกำลังสองน้อยที่สุดเช่นในbwlewis.github.io/GLMสิ่งที่จะคัดค้านจริงของการคำนวณ R2 ถ่วงน้ำหนักในระดับการเชื่อมโยง GLM ใช้น้ำหนัก 1 / แปรปรวนเป็นน้ำหนัก (ซึ่ง glm ให้กลับ ในน้ำหนักสล็อตใน glm พอดี) ไหม สิ่งนี้จะใช้ได้กับ glisson ของ Poisson ใช่ไหม
Tom Wenseleers

ดูstats.stackexchange.com/questions/412580/…สำหรับตัวอย่างที่ทำซ้ำได้ ...
Tom Wenseleers
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.