วิธีการใช้ R gbm with distribution =“ adaboost”?


9

เอกสารระบุว่า R gbm พร้อมด้วยการแจกจ่าย = "adaboost" สามารถใช้สำหรับปัญหาการจำแนกประเภท 0-1 พิจารณาส่วนรหัสต่อไปนี้:

gbm_algorithm <- gbm(y ~ ., data = train_dataset, distribution = "adaboost", n.trees = 5000)
gbm_predicted <- predict(gbm_algorithm, test_dataset, n.trees = 5000)

มันสามารถพบได้ในเอกสารที่ทำนาย. ggb

ส่งคืนเวกเตอร์การทำนาย ตามค่าเริ่มต้นการคาดการณ์จะอยู่ในระดับของ f (x)

อย่างไรก็ตามสเกลเฉพาะนั้นไม่ชัดเจนสำหรับกรณีของการแจกจ่าย = "adaboost"

ใครสามารถช่วยในการตีความของผลตอบแทนที่คาดการณ์ไว้ .gbm และให้ความคิดของการแปลงไปยังเอาต์พุต 0-1?


คำถามนี้ดูเหมือนจะเป็นเพียงเกี่ยวกับวิธีการตีความผลลัพธ์ R และไม่เกี่ยวกับปัญหาทางสถิติที่เกี่ยวข้อง (แม้ว่าจะไม่ได้ทำให้ Q ไม่ดี) เช่นนี้มันถูกถามดีกว่า & อาจจะได้รับคำตอบในStack Overflowไม่ใช่ที่นี่ โปรดอย่าข้ามโพสต์ (SE กีดกันอย่างยิ่ง) หากคุณต้องการให้ Q โอนย้ายข้อมูลได้เร็วขึ้นโปรดตั้งค่าสถานะเพื่อให้ผู้ดูแลให้ความสนใจ
gung - Reinstate Monica

4
@ gung ดูเหมือนคำถามทางสถิติที่ถูกต้องสำหรับฉัน แพคเกจ GBM ระบุ Deviance ที่ใช้สำหรับ adaboost แต่ไม่ชัดเจนสำหรับฉันว่า f (x) คืออะไรและจะแปลงกลับไปเป็นมาตราส่วนความน่าจะเป็นได้อย่างไร (อาจต้องใช้ Platt scaling) cran.r-project.org/web/packages/gbm/vignettes/gbm.pdf
B_Miner

คำตอบ:


11

วิธี adaboost ให้การคาดการณ์ในระดับ logit คุณสามารถแปลงเป็นเอาต์พุต 0-1:

gbm_predicted<-plogis(2*gbm_predicted)

บันทึก 2 * ภายใน logis


11

คุณยังสามารถรับความน่าจะเป็นได้โดยตรงจากpredict.gbmฟังก์ชั่น

predict(gbm_algorithm, test_dataset, n.trees = 5000, type = 'response')

3

ฟังก์ชั่นการเชื่อมโยง AdaBoost อธิบายไว้ที่นี่ ตัวอย่างนี้แสดงคำอธิบายโดยละเอียดของการคำนวณ:

library(gbm);
set.seed(123);
n          <- 1000;
sim.df     <- data.frame(x.1 = sample(0:1, n, replace=TRUE), 
                         x.2 = sample(0:1, n,    replace=TRUE));
prob.array <- c(0.9, 0.7, 0.2, 0.8);
df$y       <- rbinom(n, size = 1, prob=prob.array[1+sim.df$x.1+2*sim.df$x.2])
n.trees    <- 10;
shrinkage  <- 0.01;

gbmFit <- gbm(
  formula           = y~.,
  distribution      = "bernoulli",
  data              = sim.df,
  n.trees           = n.trees,
  interaction.depth = 2,
  n.minobsinnode    = 2,
  shrinkage         = shrinkage,
  bag.fraction      = 0.5,
  cv.folds          = 0,
  # verbose         = FALSE
  n.cores           = 1
);

sim.df$logods  <- predict(gbmFit, sim.df, n.trees = n.trees);  #$
sim.df$prob    <- predict(gbmFit, sim.df, n.trees = n.trees, type = 'response');  #$
sim.df$prob.2  <- plogis(predict(gbmFit, sim.df, n.trees = n.trees));  #$
sim.df$logloss <- sim.df$y*log(sim.df$prob) + (1-sim.df$y)*log(1-sim.df$prob);  #$


gbmFit <- gbm(
  formula           = y~.,
  distribution      = "adaboost",
  data              = sim.df,
  n.trees           = n.trees,
  interaction.depth = 2,
  n.minobsinnode    = 2,
  shrinkage         = shrinkage,
  bag.fraction      = 0.5,
  cv.folds          = 0,
  # verbose         = FALSE
  n.cores           = 1
);

sim.df$exp.scale  <- predict(gbmFit, sim.df, n.trees = n.trees);  #$
sim.df$ada.resp   <- predict(gbmFit, sim.df, n.trees = n.trees, type = 'response');  #$
sim.df$ada.resp.2 <- plogis(2*predict(gbmFit, sim.df, n.trees = n.trees));  #$
sim.df$ada.error  <- -exp(-sim.df$y * sim.df$exp.scale);  #$

sim.df[1:20,]

ฉันแก้ไขไม่ได้เพราะฉันเปลี่ยนน้อยเกินไป ´df y´ y´shouldbe´sim.df
Ric
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.