เมื่อสร้างโมเดล CART (โดยเฉพาะแผนผังการจำแนกหมวดหมู่) โดยใช้ rpart (ใน R) มันมักจะน่าสนใจที่จะรู้ว่าอะไรคือความสำคัญของตัวแปรต่างๆที่นำมาใช้กับโมเดล
ดังนั้นคำถามของฉันคือ: มีมาตรการทั่วไปสำหรับการจัดอันดับ / การวัดความสำคัญของตัวแปรของตัวแปรที่มีส่วนร่วมในรูปแบบ CART อย่างไร และสิ่งนี้จะคำนวณได้อย่างไรโดยใช้ R (ตัวอย่างเช่นเมื่อใช้แพ็คเกจ rpart)
ตัวอย่างเช่นต่อไปนี้เป็นรหัสจำลองสร้างขึ้นเพื่อให้คุณแสดงโซลูชันของคุณ ตัวอย่างนี้มีโครงสร้างเพื่อให้ชัดเจนว่าตัวแปร x1 และ x2 เป็น "สำคัญ" ในขณะที่ (ในบางแง่) x1 มีความสำคัญมากกว่า x2 (เนื่องจาก x1 ควรใช้กับกรณีเพิ่มเติมดังนั้นจึงมีผลต่อโครงสร้างของข้อมูลมากขึ้น จากนั้น x2)
set.seed(31431)
n <- 400
x1 <- rnorm(n)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
x5 <- rnorm(n)
X <- data.frame(x1,x2,x3,x4,x5)
y <- sample(letters[1:4], n, T)
y <- ifelse(X[,2] < -1 , "b", y)
y <- ifelse(X[,1] < 0 , "a", y)
require(rpart)
fit <- rpart(y~., X)
plot(fit); text(fit)
info.gain.rpart(fit) # your function - telling us on each variable how important it is
(ยินดีรับการอ้างอิงเสมอ)