คำถามติดแท็ก boosting

ตระกูลของอัลกอริธึมที่รวมโมเดลการทำนายที่อ่อนแอเข้ากับโมเดลการทำนายที่แข็งแกร่ง วิธีที่ใช้กันมากที่สุดเรียกว่าการไล่ระดับสีแบบไล่ระดับและแบบจำลองที่อ่อนแอที่ใช้กันมากที่สุดคือการจำแนกต้นไม้ / การถดถอย

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
ขั้นตอนวิธีการบรรจุถุงใดที่สืบทอดมาจากป่าสุ่ม
สำหรับการเพิ่มอัลกอริธึมฉันจะบอกว่าพวกมันมีวิวัฒนาการค่อนข้างดี ในช่วงต้นปี 1995 AdaBoost เปิดตัวหลังจากนั้นไม่นานมันก็เป็น Gradient Boosting Machine (GBM) เมื่อเร็ว ๆ นี้มีการเปิดตัว XGBoost ราว ๆ ปี 2015 ซึ่งมีความถูกต้องจัดการกับการมีน้ำหนักเกินและเป็นผู้ชนะการแข่งขัน Kaggle หลายครั้ง ในปี 2560 Microsoft ได้เปิดตัว LightGBM ซึ่งมีเวลาฝึกอบรมที่ต่ำกว่าอย่างมากเมื่อเทียบกับ XGBoost Yandex ยังได้รับการแนะนำให้รู้จักกับ CatBoost สำหรับการจัดการคุณสมบัติที่เป็นหมวดหมู่ ป่าสุ่มถูกนำมาใช้ในต้นปี 2000 แต่มีผู้สืบทอดที่สมควรได้รับมันหรือไม่? ฉันคิดว่าถ้าอัลกอริทึมการห่อที่ดีกว่า Random Forest มีอยู่ (ซึ่งสามารถนำไปใช้ในทางปฏิบัติได้ง่าย) มันจะได้รับความสนใจในสถานที่เช่น Kaggle นอกจากนี้ทำไมการส่งเสริมให้กลายเป็นเทคนิควงดนตรีที่ได้รับความนิยมมากขึ้นเป็นเพราะคุณสามารถสร้างต้นไม้น้อยลงสำหรับการทำนายที่ดีที่สุด?

1
เมื่อใดที่จะต้องการใช้ AdaBoost
ดังที่ฉันเคยได้ยินเกี่ยวกับตัวจําแนก AdaBoost ที่กล่าวถึงในที่ทำงานหลายครั้งฉันต้องการให้ความรู้สึกที่ดีขึ้นเกี่ยวกับวิธีการใช้งานและเมื่อใครต้องการใช้งาน ฉันได้ไปข้างหน้าและอ่านเอกสารและแบบฝึกหัดเกี่ยวกับสิ่งที่ฉันพบใน Google แต่มีลักษณะของตัวจําแนกซึ่งฉันยังคงมีปัญหาในการทำความเข้าใจ: บทเรียนส่วนใหญ่ที่ฉันเคยเห็นพูดถึง AdaBoost เป็นการหาชุดค่าผสมถ่วงน้ำหนักที่ดีที่สุดของตัวแยกประเภทจำนวนมาก เรื่องนี้ทำให้รู้สึกถึงฉัน สิ่งที่ไม่สมเหตุสมผลคือการนำไปใช้งาน (เช่น MALLET) ซึ่ง AdaBoost ดูเหมือนจะยอมรับผู้เรียนที่อ่อนแอเพียงคนเดียว สิ่งนี้มีเหตุผลอะไรบ้าง? หากมีตัวจําแนกเดียวที่มอบให้กับ AdaBoost มันจะไม่ส่งคืนลักษณนามเดียวกันนั้นด้วยน้ำหนัก 1 หรือไม่ มันสร้างลักษณนามใหม่จากลักษณนามแรกได้อย่างไร เมื่อไหร่ที่จะต้องการใช้ AdaBoost ฉันได้อ่านว่ามันควรจะเป็นหนึ่งในตัวแยกประเภทที่ดีที่สุดนอกกรอบ แต่เมื่อฉันพยายามเพิ่มตัวแยกประเภท MaxEnt ฉันได้รับคะแนน f- 70% ด้วย AdaBoost ทำการฆาตกรรมและทำให้ฉัน f- คะแนนของบางอย่างเช่น 15% พร้อมการเรียกคืนสูงมากและความแม่นยำต่ำมากแทน ดังนั้นตอนนี้ฉันสับสน เมื่อใดที่ฉันจะต้องการใช้ AdaBoost ฉันกำลังมองหาคำตอบที่เข้าใจง่ายมากกว่าที่จะเป็นคำตอบทางสถิติอย่างเคร่งครัดถ้าเป็นไปได้


3
R: อะไรที่ฉันเห็นในการพึ่งพาบางส่วนของ gbm และ RandomForest
ที่จริงแล้วฉันคิดว่าฉันเข้าใจสิ่งที่เราสามารถแสดงด้วยพล็อตการพึ่งพาบางส่วน แต่ใช้ตัวอย่างสมมุติง่าย ๆ ฉันรู้สึกงงงวย ในกลุ่มของรหัสต่อไปฉันจะสร้างสามตัวแปรอิสระ ( , B , C ) และขึ้นอยู่กับตัวแปร ( Y ) กับคแสดงให้เห็นความสัมพันธ์เชิงเส้นใกล้ชิดกับปีขณะที่และขเป็น uncorrelated กับY ฉันทำการวิเคราะห์การถดถอยด้วยต้นไม้การถดถอยที่เพิ่มขึ้นโดยใช้แพ็คเกจ R :gbm a <- runif(100, 1, 100) b <- runif(100, 1, 100) c <- 1:100 + rnorm(100, mean = 0, sd = 5) y <- 1:100 + rnorm(100, mean = 0, …

1
การไล่ระดับสีเป็นการส่งเสริมที่เหมาะสมสำหรับข้อมูลที่มีอัตราเหตุการณ์ต่ำเช่น 1% หรือไม่
ฉันพยายามไล่ระดับสีบนชุดข้อมูลที่มีอัตราเหตุการณ์ประมาณ 1% โดยใช้ Enterprise miner แต่ล้มเหลวในการสร้างเอาต์พุตใด ๆ คำถามของฉันคือเนื่องจากเป็นแนวทางการตัดสินใจโดยใช้ต้นไม้มันเป็นสิทธิที่จะใช้การไล่ระดับสีด้วยเหตุการณ์ระดับต่ำเช่นนี้หรือไม่?

3
ป่าสุ่มและการส่งเสริมพารามิเตอร์หรือไม่ใช่พารามิเตอร์หรือไม่
จากการอ่านการสร้างแบบจำลองทางสถิติที่ยอดเยี่ยม: ทั้งสองวัฒนธรรม (Breiman 2001)เราสามารถยึดความแตกต่างทั้งหมดระหว่างแบบจำลองทางสถิติแบบดั้งเดิม (เช่นการถดถอยเชิงเส้น) และอัลกอริทึมการเรียนรู้ของเครื่องจักร (เช่นการห่อป่าแบบสุ่ม Breiman วิพากษ์วิจารณ์แบบจำลองข้อมูล (พารามิเตอร์) เพราะพวกเขาอยู่บนพื้นฐานของข้อสันนิษฐานว่าการสังเกตนั้นถูกสร้างขึ้นโดยแบบจำลองที่เป็นทางการซึ่งเป็นที่รู้จักซึ่งกำหนดโดยนักสถิติซึ่งอาจเลียนแบบธรรมชาติได้ไม่ดี ในทางตรงกันข้าม ML algos จะไม่ถือว่าแบบจำลองที่เป็นทางการใด ๆ และเรียนรู้การเชื่อมโยงโดยตรงระหว่างตัวแปรอินพุตและเอาต์พุตจากข้อมูล ฉันตระหนักว่าบรรจุถุง / RF และการส่งเสริมการนอกจากนี้ยังมีการจัดเรียงของพารา: ยกตัวอย่างเช่นntree , mtryใน RF, อัตราการเรียนรู้ , ส่วนถุง , ซับซ้อนต้นไม้ใน Stochastic ไล่โทนสีต้นไม้เพิ่มขึ้นมีการปรับจูนทุกพารามิเตอร์ นอกจากนี้เรายังประมาณค่าพารามิเตอร์เหล่านี้จากข้อมูลเนื่องจากเราใช้ข้อมูลเพื่อค้นหาค่าที่ดีที่สุดของพารามิเตอร์เหล่านี้ ดังนั้นความแตกต่างคืออะไร? RF และ Boosted Trees เป็นโมเดลพาราเมตริกหรือไม่?

1
ทำไมไม่ใช้การเรียนทั้งมวลเสมอไป
สำหรับฉันแล้วดูเหมือนว่าการเรียนรู้ทั้งมวล WILL จะให้ประสิทธิภาพการทำนายที่ดีกว่าเสมอโดยมีเพียงสมมติฐานการเรียนรู้เดียว ดังนั้นทำไมเราไม่ใช้พวกเขาตลอดเวลา? ฉันเดาว่าอาจเป็นเพราะข้อ จำกัด การคำนวณ? (ถึงอย่างนั้นเราก็ใช้ผู้ทำนายที่อ่อนแอดังนั้นฉันไม่รู้)

9
กระตุ้นการตัดสินใจต้นไม้ในหลาม? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 เดือนที่ผ่านมา มีห้องสมุดไพ ธ อนที่ดีสำหรับการฝึกอบรมต้นไม้ตัดสินใจหรือไม่
13 python  cart  boosting 

2
แนวทางปฏิบัติที่ดีที่สุดสำหรับการเข้ารหัสคุณสมบัติที่เป็นหมวดหมู่สำหรับต้นไม้การตัดสินใจ
เมื่อการเข้ารหัสคุณสมบัติเชิงหมวดหมู่สำหรับการถดถอยเชิงเส้นมีกฎ: จำนวนของหุ่นควรน้อยกว่าหนึ่งในจำนวนทั้งหมดของระดับ (เพื่อหลีกเลี่ยงการ collinearity) มีกฎที่คล้ายกันสำหรับต้นไม้การตัดสินใจ (ถุง, เพิ่มขึ้น) หรือไม่? ฉันถามสิ่งนี้เพราะการฝึกฝนมาตรฐานใน Python ดูเหมือนว่าจะเพิ่มnระดับเป็นnหุ่น (sklearns ' OneHotEncoderหรือ Pandas' pd.get_dummies) ซึ่งดูเหมือนจะไม่ดีสำหรับฉัน สิ่งที่คุณจะแนะนำเป็นแนวทางปฏิบัติที่ดีที่สุดสำหรับการเข้ารหัสคุณสมบัติหมวดหมู่สำหรับต้นไม้การตัดสินใจ?

5
เครื่องจักรอัตโนมัติเรียนรู้ที่จะฝันหรือไม่?
เมื่อฉันค้นพบการเรียนรู้ของเครื่องฉันเห็นเทคนิคที่น่าสนใจต่าง ๆ เช่น: โดยอัตโนมัติขั้นตอนวิธีการปรับแต่งด้วยเทคนิคเช่นgrid search, ได้รับผลลัพธ์ที่ถูกต้องมากขึ้นผ่านการรวมกันของขั้นตอนวิธีการที่แตกต่างกันของ "พิมพ์" เหมือนกันว่าboosting, ได้รับผลลัพธ์ที่ถูกต้องมากขึ้นผ่านการรวมกันของขั้นตอนวิธีการที่แตกต่างกัน ( แต่ไม่ใช่ชนิดเดียวกันของอัลกอริทึม) ว่าstacking, และอาจมีอีกมากที่ฉันยังต้องค้นพบ ... คำถามของฉันมีดังต่อไปนี้: มีชิ้นส่วนเหล่านั้นทั้งหมด แต่เป็นไปได้หรือไม่ที่จะรวมเข้าด้วยกันเพื่อสร้างอัลกอริทึมที่ใช้เป็นข้อมูลที่ได้รับการทำความสะอาดและผลลัพธ์ที่ดีโดยการนำเอาเทคนิคที่ดีที่สุดออกมา? (แน่นอนว่ามันอาจจะมีประสิทธิภาพน้อยกว่าที่นักวิทยาศาสตร์ด้านข้อมูลมืออาชีพ แต่เขาจะดีกว่าฉัน!) ถ้าใช่คุณมีรหัสตัวอย่างหรือคุณรู้กรอบที่สามารถทำได้หรือไม่? แก้ไข:หลังจากคำตอบบางอย่างดูเหมือนว่าจะต้องแคบลงบางส่วน ลองยกตัวอย่างเรามีหนึ่งคอลัมน์ที่มีข้อมูลหมวดหมู่ลองเรียกมันมาyและเราต้องการทำนายจากข้อมูลตัวเลขที่เป็นข้อมูลXหุ่นหรือข้อมูลตัวเลขจริง (ความสูงอุณหภูมิ) เราถือว่าการทำความสะอาดเสร็จสิ้นแล้ว มีอัลกอริทึมที่มีอยู่ที่สามารถใช้ข้อมูลดังกล่าวและเอาท์พุททำนาย? (โดยการทดสอบอัลกอริธึมหลายตัวการปรับจูนการเพิ่มประสิทธิภาพ ฯลฯ ) ถ้าใช่มันมีประสิทธิภาพในการคำนวณ (การคำนวณเสร็จในเวลาที่เหมาะสมถ้าเราเปรียบเทียบกับอัลกอริทึมปกติ) และคุณมีตัวอย่างของรหัสหรือไม่?

3
เหตุใดการเพิ่มประสิทธิภาพจึงมีความอ่อนไหวต่อค่าผิดปกติ
ฉันพบบทความจำนวนมากที่ระบุว่าวิธีการส่งเสริมมีความอ่อนไหวต่อค่าผิดปกติ แต่ไม่มีบทความอธิบายว่าเพราะเหตุใด ในค่าประสบการณ์ของฉันไม่ดีสำหรับอัลกอริทึมการเรียนรู้ของเครื่อง แต่ทำไมวิธีการเพิ่มประสิทธิภาพจึงมีความอ่อนไหวเป็นพิเศษ อัลกอริธึมต่อไปนี้จะจัดอันดับในแง่ของความไวต่อค่าผิดปกติ: boost-tree, ป่าสุ่ม, เครือข่ายประสาท, SVM และวิธีการถดถอยแบบง่ายเช่นการถดถอยแบบโลจิสติกอย่างไร

1
ไล่ระดับสีสำหรับฟังก์ชั่นการสูญเสียโลจิสติก
ฉันจะถามคำถามที่เกี่ยวข้องกับคนนี้ ฉันพบตัวอย่างของการเขียนฟังก์ชันการสูญเสียที่กำหนดเองสำหรับ xgboost ที่นี่ : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We compute the 1st and 2nd gradient, as grad and hess preds <- 1/(1 + exp(-preds)) …

1
วิธีใช้ตอการตัดสินใจในฐานะผู้เรียนที่อ่อนแอใน Adaboost
ฉันต้องการใช้ Adaboost โดยใช้ Decision Stump ถูกต้องหรือไม่ที่จะทำการตัดสินใจตอให้มากที่สุดเท่าที่คุณสมบัติของชุดข้อมูลของเราในแต่ละการซ้ำของ Adaboost ตัวอย่างเช่นถ้าฉันมีชุดข้อมูลที่มี 24 คุณลักษณะฉันควรมีตัวแยกประเภทตอการตัดสินใจ 24 ครั้งในการวนซ้ำแต่ละครั้งหรือไม่ หรือฉันควรเลือกคุณสมบัติบางอย่างแบบสุ่มและสร้างตัวจําแนกพวกมันแทนคุณสมบัติทั้งหมดหรือไม่

2
ใช้ Adaboost กับ SVM สำหรับการจำแนกประเภท
ฉันรู้ว่าAdaboostพยายามที่จะสร้างลักษณนามที่แข็งแกร่งโดยใช้การรวมกันเชิงเส้นของชุดตัวจําแนกอ่อนแอ แต่ผมได้อ่านเอกสารบางคนบอก AdaBoost และจำแนกการทำงานในความสามัคคี (แม้ว่า SVM เป็นลักษณนามแรง) ในเงื่อนไขบางอย่างและกรณี ฉันไม่สามารถเข้าใจจากมุมมองสถาปัตยกรรมและการเขียนโปรแกรมว่าทำงานร่วมกันได้อย่างไร ฉันได้อ่านรายงานจำนวนมาก (อาจผิดพลาด) ซึ่งไม่ได้อธิบายอย่างชัดเจนว่าพวกเขาทำงานร่วมกันอย่างไร บางคนสามารถแสดงให้เห็นว่าพวกเขาทำงานร่วมกันอย่างไรเพื่อการจำแนกที่มีประสิทธิภาพ? ตัวชี้ไปยังเอกสาร / บทความ / วารสารก็จะได้รับการชื่นชม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.