วิธีการคำนวณคะแนนความมั่นใจในการถดถอย (พร้อมฟอเรสต์แบบสุ่ม / XGBoost) สำหรับการทำนายแต่ละครั้งใน R อย่างไร


11

มีวิธีในการรับคะแนนความเชื่อมั่น (เราสามารถเรียกได้ว่าเป็นค่าความเชื่อมั่นหรือความน่าจะเป็น) สำหรับแต่ละค่าที่คาดการณ์เมื่อใช้อัลกอริทึมเช่นการสุ่มป่าหรือการไล่ระดับสีมากขึ้น สมมติว่าคะแนนความเชื่อมั่นนี้จะอยู่ในช่วงตั้งแต่ 0 ถึง 1 และแสดงว่าฉันมีความมั่นใจเกี่ยวกับการทำนายโดยเฉพาะอย่างไร

จากสิ่งที่ฉันพบในอินเทอร์เน็ตเกี่ยวกับความมั่นใจมักจะวัดจากช่วงเวลา นี่คือตัวอย่างของช่วงความเชื่อมั่นที่คำนวณด้วยconfpredฟังก์ชันจากlavaไลบรารี:

library(lava)
set.seed(123)
n     <- 200
x     <- seq(0,6,length.out=n)
delta <- 3
ss    <- exp(-1+1.5*cos((x-delta)))
ee    <- rnorm(n,sd=ss)
y     <- (x-delta)+3*cos(x+4.5-delta)+ee
d     <- data.frame(y=y,x=x)
newd  <- data.frame(x=seq(0,6,length.out=50))
cc    <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd)
if (interactive()) { ##'
  plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y")
  with(cc, lava::confband(newd$x, lwr, upr, fit,  lwd=3, polygon=T, 
                          col=Col("blue"), border=F))
}

เอาต์พุตโค้ดให้ช่วงความมั่นใจเท่านั้น:

กราฟแสดงจุดการทำนายและช่วงความมั่นใจ

นอกจากนี้ยังมีห้องสมุดconformalแต่ฉันใช้สำหรับช่วงเวลาความเชื่อมั่นในการถดถอย: "มาตรฐานช่วยให้การคำนวณข้อผิดพลาดการทำนายในกรอบการทำนายตามมาตรฐาน: (i) p.values ​​สำหรับการจำแนกและ (ii) ช่วงความเชื่อมั่นสำหรับการถดถอย "

ดังนั้นจึงมีวิธี:

  1. เพื่อให้ได้ค่าความเชื่อมั่นสำหรับการทำนายในปัญหาการถดถอยใด ๆ

  2. หากไม่มีวิธีมันจะมีความหมายที่จะใช้สำหรับการสังเกตแต่ละครั้งเป็นคะแนนความเชื่อมั่นนี้:

    ระยะห่างระหว่างขอบเขตบนและล่างของช่วงความเชื่อมั่น (เช่นในตัวอย่างผลลัพธ์ด้านบน) ดังนั้นในกรณีนี้ความกว้างที่มากขึ้นคือช่วงความมั่นใจความไม่แน่นอนที่มากขึ้น (แต่สิ่งนี้ไม่ได้คำนึงถึงว่าในช่วงเวลาใดเป็นค่าจริง)


1
ดูในrandomForestCIแพ็คเกจโดย Stephan Wager และเอกสารที่เกี่ยวข้องกับ Susan Athey โปรดทราบว่ามี CIs เท่านั้น 'แต่คุณสามารถกำหนดช่วงการทำนายได้โดยคำนวณความแปรปรวนที่เหลือ
generic_user

คำตอบ:


4

สิ่งที่คุณอ้างถึงว่าเป็นคะแนนความเชื่อมั่นสามารถรับได้จากความไม่แน่นอนในการคาดการณ์รายบุคคล (เช่นโดยการใช้อินเวอร์สของมัน)

การวัดจำนวนความไม่แน่นอนนี้เป็นไปได้เสมอกับการบรรจุถุงและค่อนข้างตรงไปตรงมาในป่าสุ่ม - แต่การประเมินเหล่านี้มีอคติ เดิมพันอื่น ๆ (2014) อธิบายสองขั้นตอนเพื่อให้ได้สิ่งที่ไม่แน่นอนเหล่านี้มีประสิทธิภาพมากขึ้นและมีอคติน้อยลง สิ่งนี้มีพื้นฐานมาจาก jackknife-after-bootstrap และอคติที่ไม่ได้รับการแก้ไข คุณสามารถค้นหาการใช้งานในแพคเกจการวิจัยและrangergrf

เมื่อเร็ว ๆ นี้สิ่งนี้ได้รับการปรับปรุงโดยใช้ป่าสุ่มที่สร้างขึ้นด้วยต้นไม้อนุมานตามเงื่อนไข จากการศึกษาแบบจำลอง (Brokamp et al. 2018) ตัวประมาณค่า Jackknife ขนาดเล็กดูเหมือนจะประมาณการข้อผิดพลาดในการทำนายได้แม่นยำมากขึ้นเมื่อใช้ต้นไม้อนุมานตามเงื่อนไขเพื่อสร้างป่าสุ่ม RFinferนี้จะดำเนินการในแพคเกจ


Wager, S. , Hastie, T. , & Efron, B. (2014) ช่วงเวลาความเชื่อมั่นสำหรับป่าสุ่ม: Jackknife และ Jackknife ที่เล็กที่สุด วารสารการวิจัยการเรียนรู้ของเครื่อง, 15 (1), 1625-1651

Brokamp, ​​C. , Rao, MB, Ryan, P. , & Jandarov, R. (2017) การเปรียบเทียบวิธีการแบ่งตัวอย่างซ้ำและวิธีการแยกแบบวนซ้ำในฟอเรสต์แบบสุ่มสำหรับการประเมินความแปรปรวนแบบซีโมติกโดยใช้ Jackknife แบบไม่ จำกัด สถิติ, 6 (1), 360-372

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.