ฉันมีความยากลำบากในการทำความเข้าใจวิธีตีความผลลัพธ์ความสำคัญของตัวแปรจากแพ็คเกจ Random Forest การลดความแม่นยำหมายถึงการลดลงของความแม่นยำของแบบจำลองจากการอนุญาตให้ใช้ค่าในแต่ละคุณสมบัติ
นี่เป็นคำแถลงเกี่ยวกับสถานที่ทั้งหมดหรือเกี่ยวกับค่าเฉพาะภายในสถานที่หรือไม่? ไม่ว่าในกรณีใดค่าเฉลี่ยลดลงในความแม่นยำจำนวนหรือสัดส่วนของการสังเกตที่จำแนกอย่างไม่ถูกต้องโดยการลบคุณลักษณะ (หรือค่าจากคุณลักษณะ) ออกจากแบบจำลองหรือไม่
สมมติว่าเรามีรูปแบบดังต่อไปนี้:
require(randomForest)
data(iris)
set.seed(1)
dat <- iris
dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other'))
model.rf <- randomForest(Species~., dat, ntree=25,
importance=TRUE, nodesize=5)
model.rf
varImpPlot(model.rf)
Call:
randomForest(formula = Species ~ ., data = dat, ntree = 25,
proximity = TRUE, importance = TRUE, nodesize = 5)
Type of random forest: classification
Number of trees: 25
No. of variables tried at each split: 2
OOB estimate of error rate: 3.33%
Confusion matrix:
other virginica class.error
other 97 3 0.03
virginica 2 48 0.04
ในรุ่นนี้อัตรา OOB ค่อนข้างต่ำ (ประมาณ 5%) ทว่าค่าเฉลี่ยลดลงในความแม่นยำสำหรับตัวทำนาย (Petal.Length) ที่มีค่าสูงสุดในการวัดนี้มีค่าประมาณ 8 เท่านั้น
สิ่งนี้หมายความว่าการลบ Petal ความยาวออกจากตัวแบบจะส่งผลให้มีความผิดพลาดเพิ่มเติมอีก 8 ข้อโดยเฉลี่ยหรือไม่?
ค่าเฉลี่ยลดลงในความแม่นยำของกลีบดอกไม้ความยาวจะต่ำเพียงใดเนื่องจากระดับสูงสุดในการวัดนี้และตัวแปรอื่น ๆ จึงมีค่าที่ต่ำกว่าสำหรับการวัดนี้