สถิติและข้อมูลขนาดใหญ่ gbm

2

คำอธิบายที่ใช้งานง่ายของความแตกต่างระหว่างต้นไม้การไล่ระดับสีไล่โทนสี (GBM) และ Adaboost

ฉันพยายามเข้าใจความแตกต่างระหว่าง GBM และ Adaboost นี่คือสิ่งที่ฉันเข้าใจ: มีอัลกอริธึมการเพิ่มประสิทธิภาพทั้งสองซึ่งเรียนรู้จากข้อผิดพลาดของรุ่นก่อนหน้าและในที่สุดก็สร้างผลรวมถ่วงน้ำหนักของโมเดล GBM และ Adaboost ค่อนข้างคล้ายกันยกเว้นฟังก์ชั่นการสูญเสีย แต่ก็ยังเป็นเรื่องยากสำหรับฉันที่จะเข้าใจความแตกต่างระหว่างพวกเขา ใครสามารถให้คำอธิบายแบบหยั่งรู้ได้

48 boosting gbm adaboost

7

ทำไม Random Forest ไม่จัดการค่าที่ขาดหายไปในตัวทำนาย?

อะไรคือเหตุผลทางทฤษฎีที่จะไม่จัดการกับค่าที่ขาดหายไป? เครื่องเร่งการไล่ระดับสีต้นไม้การถดถอยจัดการค่าที่ขาดหายไป ทำไม Random Forest ถึงไม่ทำเช่นนั้น?

42 random-forest missing-data gbm

5

ความลึกของการโต้ตอบหมายถึงอะไรใน GBM

ฉันมีคำถามเกี่ยวกับพารามิเตอร์ความลึกของการโต้ตอบใน gbm ใน R นี่อาจเป็นคำถาม noob ซึ่งฉันต้องขออภัย แต่พารามิเตอร์ที่ฉันเชื่อว่าหมายถึงจำนวนของโหนดขั้วในต้นไม้โดยทั่วไปบ่งบอกถึงวิธี X ปฏิสัมพันธ์ระหว่างผู้ทำนายหรือไม่ แค่พยายามที่จะเข้าใจวิธีการทำงาน นอกจากนี้ฉันได้รับแบบจำลองที่แตกต่างกันมากถ้าฉันมีชุดข้อมูลที่มีตัวแปรปัจจัยสองตัวที่แตกต่างกันเมื่อเทียบกับชุดข้อมูลเดียวกันยกเว้นตัวแปรตัวประกอบสองตัวนั้นรวมกันเป็นปัจจัยเดียว (เช่นระดับ X ในปัจจัย 1, Y ระดับในปัจจัย 2) ปัจจัย X * Y) หลังมีความหมายมากกว่าเดิม ฉันคิดว่าการเพิ่มความลึกของการมีปฏิสัมพันธ์จะทำให้ความสัมพันธ์นี้ดีขึ้น

30 r machine-learning boosting gbm

1

บทบาทของพารามิเตอร์ n.minobsinnode ของ GBM ใน R [ปิด]

คำถามนี้ไม่น่าจะช่วยผู้เข้าชมในอนาคต มันเกี่ยวข้องเฉพาะกับพื้นที่ทางภูมิศาสตร์ขนาดเล็กช่วงเวลาที่เฉพาะเจาะจงหรือสถานการณ์ที่แคบเป็นพิเศษซึ่งโดยทั่วไปไม่สามารถใช้ได้กับผู้ชมทั่วโลกของอินเทอร์เน็ต สำหรับความช่วยเหลือในการทำคำถามนี้มากขึ้นบังคับในวงกว้างไปที่ศูนย์ช่วยเหลือ ปิดให้บริการใน7 ปีที่ผ่านมา ฉันต้องการทราบว่าพารามิเตอร์n.minobsinnode มีความหมายอย่างไรในแพ็คเกจ GBM ฉันอ่านคู่มือ แต่ไม่ชัดเจนว่ามันทำอะไร ตัวเลขนั้นควรเล็กหรือใหญ่เพื่อปรับปรุงผลลัพธ์

21 r gbm

3

XGBoost vs Python Sklearn ทำให้ต้นไม้ดีขึ้น

ฉันพยายามเข้าใจว่า XGBoost ทำงานอย่างไร ฉันเข้าใจอยู่แล้วว่าต้นไม้ที่ถูกไล่ระดับสีนั้นทำงานบน Python sklearn ได้อย่างไร สิ่งที่ไม่ชัดเจนสำหรับฉันคือถ้า XGBoost ทำงานในลักษณะเดียวกัน แต่เร็วกว่าหรือหากมีความแตกต่างพื้นฐานระหว่างมันกับการใช้งานของหลาม เมื่อฉันอ่านเอกสารนี้ http://learningsys.org/papers/LearningSys_2015_paper_32.pdf ฉันดูเหมือนว่าผลลัพธ์สุดท้ายที่ออกมาจาก XGboost จะเหมือนกับในการใช้งาน Python แต่ความแตกต่างที่สำคัญคือวิธีที่ XGboost พบว่าการแยกที่ดีที่สุดที่จะทำในต้นไม้การถดถอยแต่ละต้น โดยพื้นฐานแล้ว XGBoost ให้ผลลัพธ์เหมือนกัน แต่เร็วกว่า ถูกต้องหรือมีอย่างอื่นที่ฉันหายไปหรือไม่

20 scikit-learn boosting gbm xgboost

2

การจำแนกประเภท GBM ประสบกับขนาดคลาสที่ไม่สมดุลหรือไม่?

ฉันกำลังจัดการกับปัญหาการจำแนกประเภทไบนารีภายใต้การดูแล ฉันต้องการใช้แพคเกจ GBM เพื่อจัดประเภทบุคคลเป็นไม่ติดเชื้อ / ติดเชื้อ ฉันติดเชื้อมากกว่าคนที่ติดเชื้อ 15 เท่า ฉันสงสัยว่ารุ่น GBM ประสบปัญหาในกรณีที่ขนาดไม่สมดุลหรือไม่? ฉันไม่พบการอ้างอิงใด ๆ ที่ตอบคำถามนี้ ฉันพยายามปรับน้ำหนักโดยการกำหนดน้ำหนัก 1 ให้กับบุคคลที่ไม่ได้รับเชื้อและน้ำหนัก 15 ถึงผู้ติดเชื้อ แต่ฉันได้รับผลลัพธ์ที่ไม่ดี

16 r machine-learning boosting unbalanced-classes gbm

4

การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น

ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

4

ทำนายช่วงเวลาสำหรับอัลกอริทึมการเรียนรู้ของเครื่อง

ฉันต้องการทราบว่ากระบวนการที่อธิบายด้านล่างนี้ถูกต้อง / ยอมรับได้และมีเหตุผลใด ๆ แนวคิด: อัลกอริธึมการเรียนรู้ภายใต้การดูแลไม่ถือว่าโครงสร้างหรือการแจกแจงเกี่ยวกับข้อมูล ในตอนท้ายของวันที่พวกเขาออกประมาณการจุด ฉันหวังว่าจะให้ปริมาณความไม่แน่นอนของการประมาณการอย่างใด ตอนนี้กระบวนการสร้างแบบจำลอง ML นั้นเป็นการสุ่มโดยเนื้อแท้ (เช่นในการสุ่มตัวอย่างสำหรับการตรวจสอบข้ามสำหรับการปรับค่าพารามิเตอร์และการสุ่มใน Stochastic GBM) ดังนั้นท่อส่งแบบจำลองจะให้ผลลัพธ์ที่แตกต่างกันสำหรับตัวทำนายเดียวกันกับเมล็ดแต่ละอัน ความคิดที่ไร้เดียงสาของฉันคือการเรียกใช้กระบวนการนี้ซ้ำแล้วซ้ำอีกเพื่อหาการกระจายของการทำนายและฉันหวังว่าฉันจะสามารถทำให้แถลงการณ์เกี่ยวกับความไม่แน่นอนของการทำนายได้ หากเป็นเรื่องสำคัญชุดข้อมูลที่ฉันทำงานด้วยจะเล็กมาก (ประมาณ 200 แถว) มันสมเหตุสมผลหรือไม่ เพื่อความกระจ่างแจ้งฉันไม่ได้ทำการบูตข้อมูลด้วยวิธีดั้งเดิม (เช่นฉันไม่ได้สุ่มตัวอย่างข้อมูลใหม่) ชุดข้อมูลเดียวกันถูกใช้ในการวนซ้ำทุกครั้งฉันแค่ใช้การสุ่มใน xval และ stochastic GBM

14 machine-learning confidence-interval bootstrap supervised-learning gbm

1

แพคเกจ GBM กับ Caret ใช้ GBM

ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

1

วิธีค้นหาช่วงเวลาการคาดคะเนของ GBM

ฉันกำลังทำงานกับรุ่น GBM โดยใช้ชุดคาเร็ตและมองหาวิธีการแก้ช่วงการทำนายสำหรับข้อมูลที่คาดการณ์ไว้ ฉันค้นหาอย่างกว้างขวาง แต่มีความคิดเล็กน้อยเพื่อค้นหาช่วงเวลาการคาดการณ์สำหรับ Random Forest ความช่วยเหลือใด ๆ / รหัส R จะได้รับการชื่นชมอย่างมาก!

12 caret prediction-interval gbm

4

วิธีการเลือกจำนวนของต้นไม้ในรูปแบบการถดถอยที่เพิ่มขึ้นทั่วไป?

มีกลยุทธ์ในการเลือกจำนวนต้นไม้ใน GBM หรือไม่? โดยเฉพาะntreesการโต้แย้งในRเรื่องgbmฟังก์ชั่น ฉันไม่เห็นว่าทำไมคุณไม่ควรตั้งค่าntreesที่เหมาะสมที่สุด ฉันสังเกตเห็นว่าต้นไม้จำนวนมากขึ้นลดความแปรปรวนของผลลัพธ์ได้จากหลาย GBM อย่างชัดเจน ฉันไม่คิดว่าต้นไม้จำนวนมากจะนำไปสู่การ overfitting ความคิดใด ๆ

11 r machine-learning gbm

1

การกระทบยอดต้นไม้เพิ่มความถดถอย (BRT), รุ่นเพิ่มทั่วไป (GBM), และเครื่องเพิ่มความลาดชัน (GBM)

คำถาม: อะไรคือความแตกต่างระหว่างต้นไม้ถดถอยที่ได้รับการส่งเสริม (BRT) และรุ่นที่ได้รับการส่งเสริมทั่วไป (GBM)? พวกเขาสามารถใช้แทนกันได้? เป็นรูปแบบเฉพาะของอื่น ๆ ? ทำไมริดจ์เวย์ใช้วลีที่ว่า "Generalized Boosted Regression Models" (GBM) เพื่ออธิบายสิ่งที่ Friedman เคยเสนอให้เป็น "Gradient Boosting Machine" (GBM) มาก่อน? คำย่อสองตัวนี้เหมือนกันอธิบายสิ่งเดียวกัน แต่มาจากวลีที่แตกต่างกัน พื้นหลัง: ฉันมีปัญหาในการพิจารณาว่าข้อกำหนด BRT และ GBM แตกต่างกันอย่างไร จากสิ่งที่ฉันเข้าใจทั้งสองเป็นคำศัพท์เพื่ออธิบายการจัดหมวดหมู่และต้นไม้การถดถอยที่มีการสุ่มรวมอยู่ด้วยการส่งเสริมบางอย่าง (เช่นการบรรจุถุง bootstrapping การตรวจสอบข้าม) นอกจากนี้จากสิ่งที่ฉันรวบรวมคำศัพท์ GBM ได้รับการประกาศเกียรติคุณเป็นครั้งแรกโดย Friedman (2001) ในกระดาษของเขา "การประมาณฟังก์ชั่นโลภ: เครื่องเร่งการไล่ระดับสี" ริดจ์เวย์ได้ดำเนินการตามขั้นตอนที่อธิบายโดยฟรีดแมนในปี 2549 ในแพ็คเกจของเขา "Generalized Boosted Regression Models" …

9 machine-learning boosting gbm

2

จะค้นหาค่าที่ดีที่สุดสำหรับพารามิเตอร์การปรับแต่งในการเพิ่มต้นไม้ได้อย่างไร?

ฉันรู้ว่ามีพารามิเตอร์การปรับแต่ง 3 แบบในรูปแบบต้นไม้ที่เพิ่มขึ้นเช่น จำนวนต้นไม้ (จำนวนการวนซ้ำ) พารามิเตอร์การหดตัว จำนวนของการแยก (ขนาดของต้นไม้แต่ละต้น) คำถามของฉันคือ: สำหรับพารามิเตอร์การปรับแต่ละค่าฉันจะหาค่าที่ดีที่สุดได้อย่างไร และวิธีการอะไร โปรดทราบว่า: พารามิเตอร์การหดตัวและจำนวนพารามิเตอร์ trees ทำงานร่วมกันเช่นค่าที่น้อยกว่าสำหรับพารามิเตอร์การหดตัวจะนำไปสู่ค่าที่สูงขึ้นสำหรับจำนวนต้นไม้ และเราต้องคำนึงเรื่องนี้ด้วย ฉันสนใจเป็นพิเศษในวิธีการค้นหาค่าที่เหมาะสมที่สุดสำหรับจำนวนการแบ่ง มันควรจะขึ้นอยู่กับการตรวจสอบข้ามหรือความรู้เกี่ยวกับรูปแบบโดเมนที่อยู่เบื้องหลัง? และสิ่งเหล่านี้ถูกนำไปใช้ในgbmแพ็คเกจใน R อย่างไร

9 machine-learning cross-validation computational-statistics boosting gbm

3

วิธีการใช้ R gbm with distribution =“ adaboost”?

เอกสารระบุว่า R gbm พร้อมด้วยการแจกจ่าย = "adaboost" สามารถใช้สำหรับปัญหาการจำแนกประเภท 0-1 พิจารณาส่วนรหัสต่อไปนี้: gbm_algorithm <- gbm(y ~ ., data = train_dataset, distribution = "adaboost", n.trees = 5000) gbm_predicted <- predict(gbm_algorithm, test_dataset, n.trees = 5000) มันสามารถพบได้ในเอกสารที่ทำนาย. ggb ส่งคืนเวกเตอร์การทำนาย ตามค่าเริ่มต้นการคาดการณ์จะอยู่ในระดับของ f (x) อย่างไรก็ตามสเกลเฉพาะนั้นไม่ชัดเจนสำหรับกรณีของการแจกจ่าย = "adaboost" ใครสามารถช่วยในการตีความของผลตอบแทนที่คาดการณ์ไว้ .gbm และให้ความคิดของการแปลงไปยังเอาต์พุต 0-1?

9 r gbm

คำถามติดแท็ก gbm