คำถามติดแท็ก gbm

กลุ่มของอัลกอริทึมที่รวมโมเดลการคาดการณ์ที่อ่อนแอเข้ากับโมเดลการคาดการณ์ที่ชัดเจน วิธีการที่พบมากที่สุดเรียกว่าการเพิ่มการไล่ระดับสีและแบบจำลองที่อ่อนแอที่ใช้บ่อยที่สุดคือการจำแนกประเภท / การถดถอย

2
คำอธิบายที่ใช้งานง่ายของความแตกต่างระหว่างต้นไม้การไล่ระดับสีไล่โทนสี (GBM) และ Adaboost
ฉันพยายามเข้าใจความแตกต่างระหว่าง GBM และ Adaboost นี่คือสิ่งที่ฉันเข้าใจ: มีอัลกอริธึมการเพิ่มประสิทธิภาพทั้งสองซึ่งเรียนรู้จากข้อผิดพลาดของรุ่นก่อนหน้าและในที่สุดก็สร้างผลรวมถ่วงน้ำหนักของโมเดล GBM และ Adaboost ค่อนข้างคล้ายกันยกเว้นฟังก์ชั่นการสูญเสีย แต่ก็ยังเป็นเรื่องยากสำหรับฉันที่จะเข้าใจความแตกต่างระหว่างพวกเขา ใครสามารถให้คำอธิบายแบบหยั่งรู้ได้
48 boosting  gbm  adaboost 

7
ทำไม Random Forest ไม่จัดการค่าที่ขาดหายไปในตัวทำนาย?
อะไรคือเหตุผลทางทฤษฎีที่จะไม่จัดการกับค่าที่ขาดหายไป? เครื่องเร่งการไล่ระดับสีต้นไม้การถดถอยจัดการค่าที่ขาดหายไป ทำไม Random Forest ถึงไม่ทำเช่นนั้น?

5
ความลึกของการโต้ตอบหมายถึงอะไรใน GBM
ฉันมีคำถามเกี่ยวกับพารามิเตอร์ความลึกของการโต้ตอบใน gbm ใน R นี่อาจเป็นคำถาม noob ซึ่งฉันต้องขออภัย แต่พารามิเตอร์ที่ฉันเชื่อว่าหมายถึงจำนวนของโหนดขั้วในต้นไม้โดยทั่วไปบ่งบอกถึงวิธี X ปฏิสัมพันธ์ระหว่างผู้ทำนายหรือไม่ แค่พยายามที่จะเข้าใจวิธีการทำงาน นอกจากนี้ฉันได้รับแบบจำลองที่แตกต่างกันมากถ้าฉันมีชุดข้อมูลที่มีตัวแปรปัจจัยสองตัวที่แตกต่างกันเมื่อเทียบกับชุดข้อมูลเดียวกันยกเว้นตัวแปรตัวประกอบสองตัวนั้นรวมกันเป็นปัจจัยเดียว (เช่นระดับ X ในปัจจัย 1, Y ระดับในปัจจัย 2) ปัจจัย X * Y) หลังมีความหมายมากกว่าเดิม ฉันคิดว่าการเพิ่มความลึกของการมีปฏิสัมพันธ์จะทำให้ความสัมพันธ์นี้ดีขึ้น

1
บทบาทของพารามิเตอร์ n.minobsinnode ของ GBM ใน R [ปิด]
คำถามนี้ไม่น่าจะช่วยผู้เข้าชมในอนาคต มันเกี่ยวข้องเฉพาะกับพื้นที่ทางภูมิศาสตร์ขนาดเล็กช่วงเวลาที่เฉพาะเจาะจงหรือสถานการณ์ที่แคบเป็นพิเศษซึ่งโดยทั่วไปไม่สามารถใช้ได้กับผู้ชมทั่วโลกของอินเทอร์เน็ต สำหรับความช่วยเหลือในการทำคำถามนี้มากขึ้นบังคับในวงกว้างไปที่ศูนย์ช่วยเหลือ ปิดให้บริการใน7 ปีที่ผ่านมา ฉันต้องการทราบว่าพารามิเตอร์n.minobsinnode มีความหมายอย่างไรในแพ็คเกจ GBM ฉันอ่านคู่มือ แต่ไม่ชัดเจนว่ามันทำอะไร ตัวเลขนั้นควรเล็กหรือใหญ่เพื่อปรับปรุงผลลัพธ์
21 r  gbm 

3
XGBoost vs Python Sklearn ทำให้ต้นไม้ดีขึ้น
ฉันพยายามเข้าใจว่า XGBoost ทำงานอย่างไร ฉันเข้าใจอยู่แล้วว่าต้นไม้ที่ถูกไล่ระดับสีนั้นทำงานบน Python sklearn ได้อย่างไร สิ่งที่ไม่ชัดเจนสำหรับฉันคือถ้า XGBoost ทำงานในลักษณะเดียวกัน แต่เร็วกว่าหรือหากมีความแตกต่างพื้นฐานระหว่างมันกับการใช้งานของหลาม เมื่อฉันอ่านเอกสารนี้ http://learningsys.org/papers/LearningSys_2015_paper_32.pdf ฉันดูเหมือนว่าผลลัพธ์สุดท้ายที่ออกมาจาก XGboost จะเหมือนกับในการใช้งาน Python แต่ความแตกต่างที่สำคัญคือวิธีที่ XGboost พบว่าการแยกที่ดีที่สุดที่จะทำในต้นไม้การถดถอยแต่ละต้น โดยพื้นฐานแล้ว XGBoost ให้ผลลัพธ์เหมือนกัน แต่เร็วกว่า ถูกต้องหรือมีอย่างอื่นที่ฉันหายไปหรือไม่

2
การจำแนกประเภท GBM ประสบกับขนาดคลาสที่ไม่สมดุลหรือไม่?
ฉันกำลังจัดการกับปัญหาการจำแนกประเภทไบนารีภายใต้การดูแล ฉันต้องการใช้แพคเกจ GBM เพื่อจัดประเภทบุคคลเป็นไม่ติดเชื้อ / ติดเชื้อ ฉันติดเชื้อมากกว่าคนที่ติดเชื้อ 15 เท่า ฉันสงสัยว่ารุ่น GBM ประสบปัญหาในกรณีที่ขนาดไม่สมดุลหรือไม่? ฉันไม่พบการอ้างอิงใด ๆ ที่ตอบคำถามนี้ ฉันพยายามปรับน้ำหนักโดยการกำหนดน้ำหนัก 1 ให้กับบุคคลที่ไม่ได้รับเชื้อและน้ำหนัก 15 ถึงผู้ติดเชื้อ แต่ฉันได้รับผลลัพธ์ที่ไม่ดี

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
ทำนายช่วงเวลาสำหรับอัลกอริทึมการเรียนรู้ของเครื่อง
ฉันต้องการทราบว่ากระบวนการที่อธิบายด้านล่างนี้ถูกต้อง / ยอมรับได้และมีเหตุผลใด ๆ แนวคิด: อัลกอริธึมการเรียนรู้ภายใต้การดูแลไม่ถือว่าโครงสร้างหรือการแจกแจงเกี่ยวกับข้อมูล ในตอนท้ายของวันที่พวกเขาออกประมาณการจุด ฉันหวังว่าจะให้ปริมาณความไม่แน่นอนของการประมาณการอย่างใด ตอนนี้กระบวนการสร้างแบบจำลอง ML นั้นเป็นการสุ่มโดยเนื้อแท้ (เช่นในการสุ่มตัวอย่างสำหรับการตรวจสอบข้ามสำหรับการปรับค่าพารามิเตอร์และการสุ่มใน Stochastic GBM) ดังนั้นท่อส่งแบบจำลองจะให้ผลลัพธ์ที่แตกต่างกันสำหรับตัวทำนายเดียวกันกับเมล็ดแต่ละอัน ความคิดที่ไร้เดียงสาของฉันคือการเรียกใช้กระบวนการนี้ซ้ำแล้วซ้ำอีกเพื่อหาการกระจายของการทำนายและฉันหวังว่าฉันจะสามารถทำให้แถลงการณ์เกี่ยวกับความไม่แน่นอนของการทำนายได้ หากเป็นเรื่องสำคัญชุดข้อมูลที่ฉันทำงานด้วยจะเล็กมาก (ประมาณ 200 แถว) มันสมเหตุสมผลหรือไม่ เพื่อความกระจ่างแจ้งฉันไม่ได้ทำการบูตข้อมูลด้วยวิธีดั้งเดิม (เช่นฉันไม่ได้สุ่มตัวอย่างข้อมูลใหม่) ชุดข้อมูลเดียวกันถูกใช้ในการวนซ้ำทุกครั้งฉันแค่ใช้การสุ่มใน xval และ stochastic GBM

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

1
วิธีค้นหาช่วงเวลาการคาดคะเนของ GBM
ฉันกำลังทำงานกับรุ่น GBM โดยใช้ชุดคาเร็ตและมองหาวิธีการแก้ช่วงการทำนายสำหรับข้อมูลที่คาดการณ์ไว้ ฉันค้นหาอย่างกว้างขวาง แต่มีความคิดเล็กน้อยเพื่อค้นหาช่วงเวลาการคาดการณ์สำหรับ Random Forest ความช่วยเหลือใด ๆ / รหัส R จะได้รับการชื่นชมอย่างมาก!

4
วิธีการเลือกจำนวนของต้นไม้ในรูปแบบการถดถอยที่เพิ่มขึ้นทั่วไป?
มีกลยุทธ์ในการเลือกจำนวนต้นไม้ใน GBM หรือไม่? โดยเฉพาะntreesการโต้แย้งในRเรื่องgbmฟังก์ชั่น ฉันไม่เห็นว่าทำไมคุณไม่ควรตั้งค่าntreesที่เหมาะสมที่สุด ฉันสังเกตเห็นว่าต้นไม้จำนวนมากขึ้นลดความแปรปรวนของผลลัพธ์ได้จากหลาย GBM อย่างชัดเจน ฉันไม่คิดว่าต้นไม้จำนวนมากจะนำไปสู่การ overfitting ความคิดใด ๆ

1
การกระทบยอดต้นไม้เพิ่มความถดถอย (BRT), รุ่นเพิ่มทั่วไป (GBM), และเครื่องเพิ่มความลาดชัน (GBM)
คำถาม: อะไรคือความแตกต่างระหว่างต้นไม้ถดถอยที่ได้รับการส่งเสริม (BRT) และรุ่นที่ได้รับการส่งเสริมทั่วไป (GBM)? พวกเขาสามารถใช้แทนกันได้? เป็นรูปแบบเฉพาะของอื่น ๆ ? ทำไมริดจ์เวย์ใช้วลีที่ว่า "Generalized Boosted Regression Models" (GBM) เพื่ออธิบายสิ่งที่ Friedman เคยเสนอให้เป็น "Gradient Boosting Machine" (GBM) มาก่อน? คำย่อสองตัวนี้เหมือนกันอธิบายสิ่งเดียวกัน แต่มาจากวลีที่แตกต่างกัน พื้นหลัง: ฉันมีปัญหาในการพิจารณาว่าข้อกำหนด BRT และ GBM แตกต่างกันอย่างไร จากสิ่งที่ฉันเข้าใจทั้งสองเป็นคำศัพท์เพื่ออธิบายการจัดหมวดหมู่และต้นไม้การถดถอยที่มีการสุ่มรวมอยู่ด้วยการส่งเสริมบางอย่าง (เช่นการบรรจุถุง bootstrapping การตรวจสอบข้าม) นอกจากนี้จากสิ่งที่ฉันรวบรวมคำศัพท์ GBM ได้รับการประกาศเกียรติคุณเป็นครั้งแรกโดย Friedman (2001) ในกระดาษของเขา "การประมาณฟังก์ชั่นโลภ: เครื่องเร่งการไล่ระดับสี" ริดจ์เวย์ได้ดำเนินการตามขั้นตอนที่อธิบายโดยฟรีดแมนในปี 2549 ในแพ็คเกจของเขา "Generalized Boosted Regression Models" …

2
จะค้นหาค่าที่ดีที่สุดสำหรับพารามิเตอร์การปรับแต่งในการเพิ่มต้นไม้ได้อย่างไร?
ฉันรู้ว่ามีพารามิเตอร์การปรับแต่ง 3 แบบในรูปแบบต้นไม้ที่เพิ่มขึ้นเช่น จำนวนต้นไม้ (จำนวนการวนซ้ำ) พารามิเตอร์การหดตัว จำนวนของการแยก (ขนาดของต้นไม้แต่ละต้น) คำถามของฉันคือ: สำหรับพารามิเตอร์การปรับแต่ละค่าฉันจะหาค่าที่ดีที่สุดได้อย่างไร และวิธีการอะไร โปรดทราบว่า: พารามิเตอร์การหดตัวและจำนวนพารามิเตอร์ trees ทำงานร่วมกันเช่นค่าที่น้อยกว่าสำหรับพารามิเตอร์การหดตัวจะนำไปสู่ค่าที่สูงขึ้นสำหรับจำนวนต้นไม้ และเราต้องคำนึงเรื่องนี้ด้วย ฉันสนใจเป็นพิเศษในวิธีการค้นหาค่าที่เหมาะสมที่สุดสำหรับจำนวนการแบ่ง มันควรจะขึ้นอยู่กับการตรวจสอบข้ามหรือความรู้เกี่ยวกับรูปแบบโดเมนที่อยู่เบื้องหลัง? และสิ่งเหล่านี้ถูกนำไปใช้ในgbmแพ็คเกจใน R อย่างไร

3
วิธีการใช้ R gbm with distribution =“ adaboost”?
เอกสารระบุว่า R gbm พร้อมด้วยการแจกจ่าย = "adaboost" สามารถใช้สำหรับปัญหาการจำแนกประเภท 0-1 พิจารณาส่วนรหัสต่อไปนี้: gbm_algorithm <- gbm(y ~ ., data = train_dataset, distribution = "adaboost", n.trees = 5000) gbm_predicted <- predict(gbm_algorithm, test_dataset, n.trees = 5000) มันสามารถพบได้ในเอกสารที่ทำนาย. ggb ส่งคืนเวกเตอร์การทำนาย ตามค่าเริ่มต้นการคาดการณ์จะอยู่ในระดับของ f (x) อย่างไรก็ตามสเกลเฉพาะนั้นไม่ชัดเจนสำหรับกรณีของการแจกจ่าย = "adaboost" ใครสามารถช่วยในการตีความของผลตอบแทนที่คาดการณ์ไว้ .gbm และให้ความคิดของการแปลงไปยังเอาต์พุต 0-1?
9 r  gbm 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.