คำถามติดแท็ก random-forest

ฟอเรสต์แบบสุ่มเป็นวิธีการเรียนรู้ด้วยเครื่องจักรโดยใช้การผสมผสานเอาท์พุทของต้นไม้ตัดสินใจจำนวนมาก

2
ตัวแปรสำคัญแบบสุ่มค่าลบของป่า
ฉันถามตัวเองว่าควรลบตัวแปรเหล่านั้นด้วยค่าความสำคัญของตัวแปรเชิงลบ ("% IncmsE") ในบริบทการถดถอยหรือไม่ และถ้ามันให้คำทำนายที่ดีกว่า คุณคิดอย่างไร?

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
กำลังตรวจสอบความแตกต่างระหว่างประชากร
บอกว่าเรามีตัวอย่างจากประชากรสองกลุ่ม A: และA Bสมมติว่าประชากรเหล่านี้ทำจากบุคคลและเราเลือกที่จะอธิบายบุคคลในแง่ของคุณสมบัติ คุณสมบัติบางอย่างเหล่านี้มีการจัดหมวดหมู่ (เช่นพวกเขาขับรถไปทำงานหรือไม่) และบางส่วนเป็นตัวเลข (เช่นความสูง) ขอเรียกคุณสมบัติเหล่านี้:X_n เรารวบรวมคุณลักษณะเหล่านี้หลายร้อยรายการ (เช่น n = 200) สมมติว่าใช้งานง่ายโดยไม่มีข้อผิดพลาดหรือเสียงรบกวนในทุกคนX1...XnX1...XnX_1 \ldots X_n เราตั้งสมมติฐานว่าประชากรสองคนนั้นแตกต่างกัน เป้าหมายของเราคือการตอบคำถามสองข้อต่อไปนี้: จริง ๆ แล้วพวกเขาแตกต่างกันอย่างมีนัยสำคัญ? อะไรคือความแตกต่างระหว่างพวกเขา? วิธีการเช่นต้นไม้ตัดสินใจ (เช่นป่าสุ่ม) และการวิเคราะห์การถดถอยเชิงเส้นสามารถช่วยได้ ตัวอย่างเช่นเราสามารถดูความสำคัญของคุณลักษณะในป่าสุ่มหรือสัมประสิทธิ์ที่เหมาะสมในการถดถอยเชิงเส้นเพื่อทำความเข้าใจกับสิ่งที่อาจแยกแยะกลุ่มเหล่านี้และสำรวจความสัมพันธ์ระหว่างคุณลักษณะและประชากร ก่อนที่ฉันจะไปตามเส้นทางนี้ฉันต้องการเข้าใจตัวเลือกของฉันที่นี่สิ่งที่ดีและทันสมัยกับการปฏิบัติที่ไม่ดี โปรดทราบว่าเป้าหมายของฉันไม่ใช่การคาดการณ์ต่อการทดสอบและการค้นหาความแตกต่างที่สำคัญระหว่างกลุ่ม อะไรคือหลักการในการแก้ไขปัญหานี้ ต่อไปนี้เป็นข้อกังวลของฉัน: วิธีการเช่นการวิเคราะห์การถดถอยเชิงเส้นอาจไม่ตอบอย่างเต็มที่ (2) ใช่ไหม? เช่นความพอดีสามารถช่วยค้นหาความแตกต่างบางอย่าง แต่ไม่ใช่ความแตกต่างที่สำคัญทั้งหมด ตัวอย่างเช่นความหลากหลายหลายระดับอาจทำให้เราไม่สามารถค้นหาคุณลักษณะทั้งหมดที่แตกต่างกันในแต่ละกลุ่ม (อย่างน้อยก็ในรูปแบบเดียว) ด้วยเหตุผลเดียวกันฉันคาดหวังว่า ANOVA จะไม่สามารถให้คำตอบเต็ม (2) ได้เช่นกัน ยังไม่ชัดเจนว่าวิธีการคาดการณ์จะตอบได้อย่างไร (1) ตัวอย่างเช่นฟังก์ชั่นการสูญเสียการจำแนกประเภท / การทำนายใดที่เราควรลด และเราจะทดสอบได้อย่างไรว่ากลุ่มแตกต่างกันอย่างมีนัยสำคัญเมื่อเรามีความเหมาะสมหรือไม่? ในที่สุดฉันกังวลว่าคำตอบที่ฉันได้รับ …

1
ลักษณนามเกี่ยวกับพีชคณิตข้อมูลเพิ่มเติมหรือไม่
ฉันได้อ่านลักษณนามพีชคณิต: วิธีการทั่วไปในการตรวจสอบข้ามอย่างรวดเร็วการฝึกอบรมออนไลน์และการฝึกอบรมแบบขนานและรู้สึกทึ่งกับประสิทธิภาพของอัลกอริทึมที่ได้รับ อย่างไรก็ตามดูเหมือนว่าเกินกว่า Naive Bayes (และ GBM) มีอัลกอริธึมไม่มากที่ปรับให้เข้ากับกรอบงาน มีเอกสารอื่น ๆ ที่ใช้ตัวแยกประเภทที่แตกต่างกันหรือไม่ (SVMs ป่าสุ่ม)

2
การกำหนดน้ำหนักให้มากขึ้นเพื่อการสังเกตการณ์ล่าสุดในการถดถอย
ฉันจะกำหนดน้ำหนักให้กับการสำรวจล่าสุดใน R มากขึ้นได้อย่างไร ฉันคิดว่านี่เป็นคำถามหรือความปรารถนาที่ถามบ่อย แต่ฉันมีเวลายากที่จะหาวิธีการใช้งาน ฉันพยายามค้นหาสิ่งนี้มาก แต่ฉันไม่สามารถหาตัวอย่างการปฏิบัติที่ดีได้ ในตัวอย่างของฉันฉันจะมีชุดข้อมูลขนาดใหญ่เมื่อเวลาผ่านไป ฉันต้องการบอกว่าใช้การยกน้ำหนักแบบเอกซ์โปเนนเชียลของแถวของข้อมูลที่ใหม่กว่า ดังนั้นฉันจะมีฟังก์ชันเลขชี้กำลังบางส่วนที่บอกว่าการสังเกตในปี 2558 มีความสำคัญมากกว่า ___ ในการฝึกอบรมแบบจำลองมากกว่าการสังเกตในปี 2012 ตัวแปรชุดข้อมูลของฉันมีการผสมผสานของค่าหมวดหมู่และตัวเลขและเป้าหมายของฉันคือค่าตัวเลข - หากเป็นสิ่งสำคัญ ฉันต้องการทดสอบ / ลองใช้โมเดลเช่น GBM / Random Forest โดยเฉพาะในแพ็คเกจ CARET ปรับปรุงคำถาม ฉันขอขอบคุณคำตอบที่ระบุไว้ด้านล่างเกี่ยวกับวิธีลดน้ำหนักแบบเอ็กซ์โปเนนเชียลตามระยะทางวันที่ระหว่างจุดสองจุด อย่างไรก็ตามเมื่อพูดถึงการฝึกอบรมรุ่นนี้ด้วยคาเร็ตน้ำหนักตัวประกอบมีอะไรกันแน่? ค่าน้ำหนักในแต่ละแถวการฝึกอบรมคือระยะห่างระหว่างบางจุดในอนาคตและเมื่อจุดนั้นเกิดขึ้นในอดีต น้ำหนักมีการเล่นเฉพาะในระหว่างการทำนายหรือไม่? เพราะถ้าพวกเขาเข้ามาในระหว่างการฝึกซ้อมนั่นจะไม่ทำให้เกิดปัญหาทุกอย่างเพราะ cross-folds ต่าง ๆ จะมีน้ำหนักต่างกันพยายามที่จะทำนายบางสิ่งที่อาจมีอยู่ก่อนหน้านี้ใช่ไหม?

2
การประมาณความผิดพลาดนอกถุงเพื่อเพิ่ม?
ในฟอเรสต์ฟอเรสต์ต้นไม้แต่ละต้นจะเติบโตขนานกันบนตัวอย่าง Boostrap ที่เป็นเอกลักษณ์ของข้อมูล เนื่องจากตัวอย่าง Boostrap แต่ละอันคาดว่าจะมีการสังเกตการณ์ที่เป็นเอกลักษณ์ประมาณ 63% ทำให้มีการสำรวจประมาณ 37% ของการสังเกตออกซึ่งสามารถใช้สำหรับการทดสอบต้นไม้ ตอนนี้ดูเหมือนว่าใน Stochastic Gradient Boosting ยังมีการคล้ายกับค่าใน RF:ต. ตBe r r o rOOBอีRRโอROOB_{error} หาก bag.fraction ถูกตั้งค่าเป็นมากกว่า 0 (แนะนำให้ 0.5) gbm จะคำนวณการประมาณค่าแบบไม่อยู่ในถุงเพื่อปรับปรุงประสิทธิภาพการทำนาย มันประเมินการลดความเบี่ยงเบนของข้อสังเกตเหล่านั้นที่ไม่ได้ใช้ในการเลือกแผนผังการถดถอยถัดไป แหล่งที่มา: Ridgeway (2007) , ส่วน 3.3 (หน้า 8) ฉันมีปัญหาในการเข้าใจวิธีการทำงาน / ใช้ได้ สมมติว่าฉันกำลังเพิ่มต้นไม้ในลำดับ ฉันกำลังปลูกต้นไม้นี้ในกลุ่มย่อยสุ่มของชุดข้อมูลดั้งเดิม ฉันสามารถทดสอบต้นไม้ต้นเดียวนี้ได้จากการสังเกตที่ไม่ได้นำมาปลูก ตกลง แต่เนื่องจากการส่งเสริมเป็นลำดับฉันจึงค่อนข้างใช้ลำดับของต้นไม้ทั้งหมดที่สร้างขึ้นเพื่อให้การคาดการณ์สำหรับการสังเกตจากซ้ายเหล่านั้น และมีโอกาสสูงที่ต้นไม้ก่อนหน้านี้จำนวนมากได้เห็นการสังเกตเหล่านี้แล้ว ดังนั้นรูปแบบนั้นไม่ได้ถูกทดสอบจริง ๆ ในแต่ละรอบจากการสังเกตการณ์ที่มองไม่เห็นเช่นเดียวกับ …

1
เกณฑ์การจำแนกประเภทใน RandomForest-sklearn
1) ฉันจะเปลี่ยนเกณฑ์การจำแนกได้อย่างไร (ฉันคิดว่าเป็น 0.5 โดยค่าเริ่มต้น) ใน RandomForest ใน sklearn 2) ฉันจะตัวอย่างน้อยใน sklearn ได้อย่างไร 3) ฉันมีผลลัพธ์ต่อไปนี้จากลักษณนาม RandomForest: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 0.74 0.87 0.80 4144 เฉลี่ย / รวม 0.75 0.74 0.73 7076 ก่อนข้อมูลไม่สมดุล (30% จากคลาส 0 และ 70% จากคลาส …

1
การตีความการประเมินความผิดพลาดนอกถุงสำหรับ RandomForestRegressor
ฉันใช้การสุ่มตัวอย่างแบบสุ่มของฟอเรสต์ในข้อมูลของฉันและฉันเห็นว่าคะแนน oob นั้นได้มาเป็น 0.83 ฉันไม่แน่ใจว่ามันจะเป็นเช่นนี้ได้อย่างไร ฉันหมายความว่าเป้าหมายของฉันมีค่าสูงในช่วง 10 ^ 7 ดังนั้นถ้าเป็น MSE มันน่าจะสูงกว่านี้มาก ฉันไม่เข้าใจสิ่งที่ 0.83 มีความหมายที่นี่ ฉันใช้การสุ่มตัวอย่าง RandomForestRegressor ของงูใหญ่ของชุดเครื่องมือ sklearn ฉันทำ model = RandomForestRegressor (max_depth = 7, n_estimators = 100, oob_score = True, n_jobs = -1) model.fit (trainX, trainY) จากนั้นฉันเห็น model.oob_score_ และรับค่าเช่น 0.83809026152005295

1
การทำนายด้วย randomForest (R) เมื่ออินพุตบางตัวมีค่าขาดหายไป (NA)
ฉันมีrandomForestรูปแบบการจำแนกที่ดีซึ่งฉันต้องการใช้ในแอปพลิเคชันที่ทำนายคลาสของเคสใหม่ กรณีใหม่มีค่าที่ขาดหายไปอย่างหลีกเลี่ยงไม่ได้ การทำนายจะไม่ทำงานเช่นนี้สำหรับ NAs ฉันจะทำสิ่งนี้ได้อย่างไร data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] case.na[,na.col]<-NA iris.rf <- randomForest(Species ~ ., data=iris[-na.row,]) # print(iris.rf) myrf.pred <- predict(iris.rf, case.na[-5], type="response") myrf.pred [1] <NA> ฉันพยายามmissForestแล้ว ฉันรวมข้อมูลดั้งเดิมและเคสใหม่แล้วเขย่าด้วยmissForestและรับค่าที่เป็นนัยสำหรับ NAs ในเคสใหม่ของฉัน การคำนวณที่หนักเกินไป data.imp <- missForest(data.with.na) แต่ต้องมีวิธีการใช้ rf-model เพื่อทำนายกรณีใหม่ที่มีค่าหายไปใช่ไหม?

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

3
อคติการตอบสนองการกระจายขึ้นอยู่กับการถดถอยป่าแบบสุ่ม
ฉันใช้แพ็คเกจ randomForest ใน R (R เวอร์ชั่น 2.13.1, randomForest เวอร์ชัน 4.6-2) สำหรับการถดถอยและสังเกตเห็นอคติที่สำคัญในผลลัพธ์ของฉัน: ข้อผิดพลาดในการทำนายขึ้นอยู่กับค่าของตัวแปรการตอบสนอง ค่าสูงนั้นคาดการณ์ไม่ได้และค่าต่ำจะทำนายค่ามากเกินไป ตอนแรกฉันสงสัยว่านี่เป็นผลมาจากข้อมูลของฉัน แต่ตัวอย่างง่าย ๆ ดังต่อไปนี้แสดงให้เห็นว่านี่เป็นสิ่งที่เกิดขึ้นจากอัลกอริธึมการสุ่มป่า: n = 1000; x1 = rnorm(n, mean = 0, sd = 1) response = x1 predictors = data.frame(x1=x1) rf = randomForest(x=predictors, y=response) error = response-predict(rf, predictors) plot(x1, error) ฉันสงสัยว่าอคตินั้นขึ้นอยู่กับการกระจายตัวของการตอบสนองตัวอย่างเช่นหากx1กระจายอย่างสม่ำเสมอจะไม่มีอคติ ถ้าx1มีการแจกแจงแบบ exponential อคติคือด้านเดียว โดยพื้นฐานแล้วค่าของการตอบสนองที่ส่วนท้ายของการแจกแจงแบบปกติคือค่าผิดปกติ …

1
อะไรคือความแตกต่างในทางปฏิบัติและการตีความระหว่างทางเลือกและการถดถอยโลจิสติก?
คำถามล่าสุดเกี่ยวกับทางเลือกในการถดถอยโลจิสติกใน Rให้ผลหลากหลายของคำตอบรวมถึง randomForest, gbm, rpart, bayesglm และโมเดลเสริมทั่วไป อะไรคือความแตกต่างในทางปฏิบัติและการตีความระหว่างวิธีการเหล่านี้กับการถดถอยโลจิสติก พวกเขาตั้งสมมติฐานอะไรบ้าง (หรือไม่ทำให้) สัมพันธ์กับการถดถอยโลจิสติกส์? เหมาะสำหรับการทดสอบสมมติฐานหรือไม่? เป็นต้น
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.