มีวิธีการที่แตกต่างกันสำหรับการทำนายของตัวแปรลำดับและตัวแปรเด็ดขาด
สิ่งที่ฉันไม่เข้าใจคือความแตกต่างนี้สำคัญอย่างไร มีตัวอย่างง่าย ๆ ที่สามารถบอกได้ชัดเจนว่าเกิดอะไรขึ้นถ้าฉันสั่งออเดอร์? ภายใต้สถานการณ์ใดมันไม่สำคัญ? ตัวอย่างเช่นหากตัวแปรอิสระทุกหมวดหมู่ / ลำดับก็จะมีความแตกต่าง?
คำถามที่เกี่ยวข้องนี้มุ่งเน้นไปที่ประเภทของตัวแปรอิสระ ที่นี่ฉันถามเกี่ยวกับตัวแปรผลลัพธ์
แก้ไข: ฉันเห็นจุดที่ใช้โครงสร้างคำสั่งซื้อเพื่อลดจำนวนพารามิเตอร์โมเดล แต่ฉันก็ยังไม่มั่นใจจริงๆ
นี่คือตัวอย่าง (นำมาจากบทนำสู่การถดถอยโลจิสติกที่ได้รับคำสั่งซึ่งเท่าที่ฉันสามารถเห็นการถดถอยโลจิสติกอันดับไม่ดีกว่าการถดถอยโลจิสติกพหุนาม
library(nnet)
library(MASS)
gradapply <- read.csv(url("http://www.ats.ucla.edu/stat/r/dae/ologit.csv"), colClasses=c("factor", "factor", "factor", "numeric"))
ordered_result <- function() {
train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9))
train_data <- gradapply[train_rows,]
test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),]
m <- polr(apply~pared+gpa, data=train_data)
pred <- predict(m, test_data)
return(sum(pred==test_data$apply))
}
multinomial_result <- function() {
train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9))
train_data <- gradapply[train_rows,]
test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),]
m <- multinom(apply~pared+gpa, data=train_data)
pred <- predict(m, test_data)
return(sum(pred==test_data$apply))
}
n <- 100
polr_res <- replicate(n, ordered_result())
multinom_res <- replicate(n, multinomial_result())
boxplot(data.frame(polr=polr_res, multinom=multinom_res))
ซึ่งแสดงการกระจายของจำนวนการเดาที่ถูกต้อง (จาก 40) ของอัลกอริทึมทั้งสอง
แก้ไข 2:เมื่อฉันใช้เป็นวิธีการให้คะแนนต่อไปนี้
return(sum(abs(as.numeric(pred)-as.numeric(test_data$apply)))
และลงโทษการคาดคะเน "ผิดมาก" polr ยังดูไม่ดีเช่นเนื้อเรื่องข้างบนไม่เปลี่ยนแปลงมากนัก
ordered factor
ซึ่งจะปรับปรุงผลลัพธ์: gradapply$apply <-factor(gradapply$apply, levels= c('unlikely', 'somewhat likely', 'very likely') , ordered = TRUE)
แต่ก็ไม่ได้ทำให้แตกต่าง ถ้าคุณดูที่ความแม่นยำทั้งสองจะคล้ายกันมาก ความแม่นยำไม่ได้เป็นตัวชี้วัดที่ดีที่จะพึ่งพาเพียงอย่างเดียว