โดยปกติเราไม่สามารถวาดเส้นโค้ง ROC สำหรับตัวแยกประเภทแยกเช่นต้นไม้ตัดสินใจ ฉันถูกไหม? มีวิธีใดในการวาดเส้นโค้ง ROC สำหรับ Dtrees หรือไม่?
โดยปกติเราไม่สามารถวาดเส้นโค้ง ROC สำหรับตัวแยกประเภทแยกเช่นต้นไม้ตัดสินใจ ฉันถูกไหม? มีวิธีใดในการวาดเส้นโค้ง ROC สำหรับ Dtrees หรือไม่?
คำตอบ:
สำหรับต้นไม้การตัดสินใจชั้นเรียนจะยังคงคาดการณ์ด้วยความมั่นใจในระดับหนึ่ง คำตอบได้รับโดย @rapaio แล้ว แต่ฉันจะขยายออกไปเล็กน้อย
ลองนึกภาพต้นไม้ตัดสินใจดังต่อไปนี้ (เป็นรุ่นบิตการแก้ไขเล็ก ๆ น้อย ๆ นี้อย่างใดอย่างหนึ่ง )
ในแต่ละโหนดนั้นไม่เพียง แต่ฉลากระดับเสียงส่วนใหญ่เท่านั้น แต่ยังรวมถึงสิ่งอื่น ๆ ที่จบลงที่ใบไม้นั้นดังนั้นเราจึงสามารถกำหนดระดับความแน่นอนให้กับใบไม้นั้นที่เราคาดการณ์ฉลากได้
ตัวอย่างเช่นพิจารณาข้อมูลต่อไปนี้
เราเรียกใช้และกำหนดคะแนนให้กับผลลัพธ์ไม่ใช่ป้ายกำกับจริง ด้วยสิ่งนี้เราสามารถวาดเส้นโค้ง ROC ตามที่แนะนำไว้ที่นี่
แม้ว่าจะมีความรู้สึกเล็กน้อยที่จะใช้เพื่อปรับเกณฑ์ของคุณ (เนื่องจากแน่นอนว่าไม่มีสิ่งใดเป็นเกณฑ์ในต้นไม้การตัดสินใจ) แต่ก็ยังสามารถใช้ในการคำนวณ AUC ซึ่งในกรณีนี้คือ 0.92
ใช้รหัส R ที่นี่:
outlook = c('rain', 'overcast', 'rain', 'sunny', 'rain',
'rain', 'sunny', 'overcast', 'overcast', 'overcast',
'sunny', 'sunny', 'rain', 'rain', 'overcast',
'sunny', 'overcast', 'overcast', 'sunny', 'sunny',
'sunny', 'overcast')
humidity = c(79, 74, 80, 60, 65, 79, 60, 74, 77, 80,
71, 70, 80, 65, 70, 56, 80, 70, 56, 70,
71, 77)
windy = c(T, T, F, T, F, T, T, T, T, F, T, F, F, F, T, T, F, T, T, F, T, T)
play = c(F, F, T, F, T, F, F, T, T, T, F, F, T, T, T, T, T, T, F, T, F, T)
game = data.frame(outlook, humidity, windy, play)
game$score = NA
attach(game)
game$score[outlook == 'sunny' & humidity <= 70] = 5/8
game$score[outlook == 'sunny' & humidity > 70] = 1 - 3/4
game$score[outlook == 'overcast'] = 4/5
game$score[outlook == 'rain' & windy == T] = 1 - 2/2
game$score[outlook == 'rain' & windy == F] = 3/3
detach(game)
game$predict = game$score >= 0.5
game$correct = game$predict == game$play
library(ROCR)
pred = prediction(game$score, game$play)
roc = performance(pred, measure="tpr", x.measure="fpr")
plot(roc, col="orange", lwd=2)
lines(x=c(0, 1), y=c(0, 1), col="red", lwd=2)
auc = performance(pred, 'auc')
slot(auc, 'y.values')