คำถามติดแท็ก random-forest

ฟอเรสต์แบบสุ่มเป็นวิธีการเรียนรู้ด้วยเครื่องจักรโดยใช้การผสมผสานเอาท์พุทของต้นไม้ตัดสินใจจำนวนมาก

1
ความหมายของแกน y ในพล็อตฟอเรสต์แบบสุ่มบางส่วนของ Forest
ฉันใช้RandomForestแพคเกจ R และสับสนในการตีความค่าของแกน Y ในแผนการพึ่งพาบางส่วนของพวกเขา ช่วยให้เอกสารระบุว่าพล็อตนั้นเป็น "การแสดงภาพกราฟิกของเอฟเฟกต์เล็กน้อยของตัวแปรในความน่าจะเป็นของชั้นเรียน" อย่างไรก็ตามฉันยังสับสนว่าแกน y หมายถึงอะไร โดยเฉพาะอย่างยิ่งค่าลบหมายถึงอะไร การมีอิทธิพลในทางลบต่อการทำนายชั้นเรียนอย่างถูกต้องหมายความว่าอย่างไร และอะไรคือคุณสมบัติที่สำคัญที่สุดจากตัวเลขเหล่านี้มันคือค่าสูงสุดรูปร่างของเทรนด์ ฯลฯ หรือไม่ คุณสามารถเปรียบเทียบแปลงบางส่วนกับแปลงบางส่วนของตัวแปรอื่น ๆ ได้หรือไม่? แปลงเหล่านี้อาจเปรียบเทียบกับเส้นโค้งการตอบสนองที่สร้างใน Maxent (ซอฟต์แวร์การสร้างแบบจำลองการกระจาย) ได้อย่างไร

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
ขั้นตอนแรกเรียนรู้การทำนายไทม์ทางการเงินโดยใช้การเรียนรู้ของเครื่อง
ฉันพยายามเข้าใจวิธีใช้การเรียนรู้ของเครื่องเพื่อทำนายไทม์ทางการเงิน 1 ขั้นตอนหรือมากกว่าในอนาคต ฉันมีช่วงเวลาทางการเงินพร้อมข้อมูลเชิงพรรณนาและฉันต้องการจัดทำแบบจำลองจากนั้นใช้แบบจำลองเพื่อทำนายขั้นตอนล่วงหน้า สิ่งที่ฉันได้ทำไปคือ: getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- GOOG$GOOG.High-GOOG$GOOG.Low tail(GOOG) GOOG.Open GOOG.High GOOG.Low GOOG.Close GOOG.Volume GOOG.Adjusted sma range 2013-05-07 863.01 863.87 850.67 857.23 1959000 857.23 828.214 13.20 2013-05-08 857.00 873.88 852.91 873.63 2468300 873.63 834.232 20.97 2013-05-09 870.84 879.66 868.23 871.48 2200600 871.48 840.470 11.43 2013-05-10 875.31 …

3
การทำนายข้อมูลนับด้วยฟอเรสต์แบบสุ่ม
ป่าสุ่มสามารถถูกฝึกให้ทำนายข้อมูลนับได้อย่างเหมาะสมหรือไม่? สิ่งนี้จะดำเนินการอย่างไร ฉันมีค่าค่อนข้างหลากหลายดังนั้นการจัดหมวดหมู่จึงไม่สมเหตุสมผล ถ้าฉันจะใช้การถดถอยฉันจะตัดทอนผลลัพธ์หรือไม่? ฉันหลงทางไปแล้ว ความคิดใด ๆ

2
Random Forest: จะเป็นอย่างไรถ้าฉันรู้ว่าตัวแปรมีความสำคัญ
ความเข้าใจของฉันเป็นเพื่อนที่ป่าสุ่มสุ่มmtryตัวแปรในการสร้างแต่ละต้นไม้ตัดสินใจ ดังนั้นถ้า mtry = ncol / 3 ดังนั้นแต่ละตัวแปรจะถูกใช้โดยเฉลี่ยใน 1 ใน 3 ของต้นไม้ และต้นไม้ 2/3 จะไม่ใช้มัน แต่ถ้าฉันรู้ว่าตัวแปรตัวเดียวน่าจะสำคัญมากมันจะดีหรือไม่ที่จะเพิ่มความน่าจะเป็นที่ตัวแปรนี้จะถูกเลือกในแต่ละต้น เป็นไปได้หรือไม่ที่มีแพ็คเกจสุ่มป่าไม้ใน R

2
RandomForest เลือกการถดถอยแทนการจัดหมวดหมู่
ฉันใช้แพคเกจrandomForestใน R และใช้ข้อมูล iris ป่าสุ่มที่สร้างขึ้นเป็นการจัดหมวดหมู่ แต่เมื่อฉันใช้ชุดข้อมูลที่มีคุณสมบัติประมาณ 700 รายการ (คุณสมบัติคือแต่ละพิกเซลในภาพขนาด 28x28 พิกเซล) และคอลัมน์ชื่อมีชื่อlabelที่randomForestสร้างขึ้นคือการถดถอย ฉันใช้บรรทัดต่อไปนี้: rf <- randomForest(label ~ ., data=train) ทำไมการถดถอยจึงถูกนำมาใช้แทนการจำแนก? read.csv()ข้อมูลจะถูกอ่านผ่าน
12 r  random-forest 

2
PCA และฟอเรสต์แบบสุ่ม
สำหรับการแข่งขัน Kaggle เมื่อเร็ว ๆ นี้ฉัน (กำหนดเอง) กำหนดคุณสมบัติเพิ่มเติมอีก 10 รายการสำหรับชุดการฝึกอบรมของฉันซึ่งจะใช้ในการฝึกอบรมตัวจําแนกป่าแบบสุ่ม ฉันตัดสินใจเรียกใช้ PCA บนชุดข้อมูลด้วยคุณสมบัติใหม่เพื่อดูว่าพวกเขาเปรียบเทียบกันอย่างไร ฉันพบว่าประมาณ 98% ของความแปรปรวนดำเนินการโดยองค์ประกอบแรก (eigenvector แรก) จากนั้นฉันฝึกตัวจําแนกหลายครั้งเพิ่มคุณสมบัติทีละรายการและใช้การตรวจสอบข้ามและข้อผิดพลาด RMS เพื่อเปรียบเทียบคุณภาพของการจําแนก ฉันพบว่าการจัดหมวดหมู่ได้รับการปรับปรุงด้วยคุณสมบัติเพิ่มเติมแต่ละรายการและผลลัพธ์สุดท้าย (พร้อมคุณสมบัติใหม่ทั้ง 10 รายการ) นั้นดีกว่าการเรียกใช้ครั้งแรกด้วย (พูด) คุณสมบัติ 2 อย่าง เนื่องจาก PCA อ้างว่า ~ 98% ของความแปรปรวนอยู่ในองค์ประกอบแรกของชุดข้อมูลของฉันทำไมคุณภาพของการจำแนกประเภทจึงพัฒนาขึ้นมาก สิ่งนี้จะเป็นจริงสำหรับตัวแยกประเภทอื่นหรือไม่ RF ปรับข้ามหลายคอร์ดังนั้นจึงเร็วกว่าในการฝึกอบรม (พูด) SVM ถ้าฉันแปลงชุดข้อมูลไปเป็นพื้นที่ "PCA" แล้วเรียกใช้ตัวจําแนกในพื้นที่แปลง ผลลัพธ์ของฉันจะเปลี่ยนแปลงอย่างไร

1
ฟังก์ชันค่าใช้จ่ายใดที่ดีกว่าสำหรับต้นไม้แบบสุ่ม: ดัชนี Gini หรือเอนโทรปี
ฟังก์ชันค่าใช้จ่ายใดที่ดีกว่าสำหรับต้นไม้แบบสุ่ม: ดัชนี Gini หรือเอนโทรปี ฉันกำลังพยายามใช้ฟอเรสต์แบบสุ่มใน Clojure

1
จะลดจำนวนผลบวกปลอมได้อย่างไร
ฉันกำลังพยายามที่จะแก้ปัญหางานที่เรียกว่าการตรวจจับคนเดินเท้าและฉันฝึก clasifer ไบนารีในสองประเภทบวก - คนลบ - พื้นหลัง ฉันมีชุดข้อมูล: จำนวนบวก = 3752 จำนวนลบ = 3800 ฉันใช้ train \ test split 80 \ 20% และRandomForestClassifier form scikit- เรียนรู้ ด้วยพารามิเตอร์: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) ฉันได้รับคะแนน: 95.896757% ทดสอบข้อมูลการฝึกอบรม (ทำงานได้อย่างสมบูรณ์): true positive: 3005 false positive: 0 false negative: 0 true negative: 3036 ทดสอบข้อมูลการทดสอบ: true positive: …

1
จำเป็นต้องดำเนินการ preprocessing ก่อนการทำนายโดยใช้ FinalModel ของ RandomForest กับ caret package หรือไม่
ฉันใช้ชุดคาเร็ตสำหรับฝึกวัตถุสุ่มป่าด้วย 10x10CV library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) หลังจากนั้นฉันทดสอบ randomForest บน testSet (ข้อมูลใหม่) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) เมทริกซ์ความสับสนแสดงให้ฉันเห็นว่าแบบจำลองนั้นไม่เลว confusionMatrix(data=RF.testSet$Prediction, RF.testSet$Defect) Reference Prediction 0 1 0 886 179 1 53 126 Accuracy : 0.8135 95% CI : (0.7907, 0.8348) No …

2
วิธีการรวมผลลัพธ์ของการถดถอยโลจิสติกและฟอเรสต์แบบสุ่ม
ฉันยังใหม่กับการเรียนรู้ของเครื่อง ฉันใช้การถดถอยโลจิสติกและฟอเรสต์แบบสุ่มบนชุดข้อมูลเดียวกัน ดังนั้นฉันจึงได้รับความสำคัญของตัวแปร (สัมประสิทธิ์สัมบูรณ์สำหรับการถดถอยโลจิสติกและความสำคัญของตัวแปรสำหรับฟอเรสต์แบบสุ่ม) ฉันกำลังคิดที่จะรวมสองสิ่งนี้เข้าด้วยกันเพื่อให้ได้ตัวแปรที่มีความสำคัญขั้นสุดท้าย ใครสามารถแบ่งปันประสบการณ์ของเขา / เธอ? ฉันได้ตรวจสอบการบรรจุถุงการส่งเสริมการสร้างแบบจำลองชุด แต่ไม่ใช่สิ่งที่ฉันต้องการ พวกเขารวมข้อมูลสำหรับรุ่นเดียวกันในแบบจำลองมากกว่า สิ่งที่ฉันกำลังมองหาคือการรวมผลของหลายรุ่น

1
การแบ่งประเภทแบ่งชั้นด้วยป่าสุ่ม (หรือตัวแยกประเภทอื่น)
ดังนั้นฉันจึงมีเมทริกซ์ประมาณ 60 x 1,000 ฉันมองว่ามันเป็นวัตถุ 60 ชิ้นที่มีคุณสมบัติ 1,000 รายการ วัตถุ 60 ชิ้นถูกจัดกลุ่มเป็น 3 คลาส (a, b, c) วัตถุ 20 ชิ้นในแต่ละชั้นและเรารู้การจำแนกที่แท้จริง ฉันต้องการทำการเรียนรู้ภายใต้การดูแลในชุดตัวอย่างการฝึกอบรม 60 ชุดนี้และฉันสนใจทั้งความแม่นยำของตัวจําแนก (และตัวชี้วัดที่เกี่ยวข้อง) รวมถึงการเลือกคุณสมบัติของคุณสมบัติ 1,000 รายการ ก่อนชื่อของฉันเป็นอย่างไร ตอนนี้คำถามจริง: ฉันสามารถโยนฟอเรสต์แบบสุ่มตามที่ระบุไว้หรือตัวแยกประเภทอื่น ๆ แต่มีความละเอียดอ่อน - ฉันสนใจเฉพาะความแตกต่างของคลาส c จากคลาส a และ b เท่านั้น ฉันสามารถเรียนสระว่ายน้ำ a และ b แต่มีวิธีที่ดีในการใช้ความรู้เบื้องต้นว่าวัตถุที่ไม่ใช่ c ทั้งหมดน่าจะสร้างกลุ่มที่แตกต่างกันสองกลุ่มหรือไม่? ฉันต้องการใช้ฟอเรสต์แบบสุ่มหรือตัวแปรเนื่องจากมันแสดงให้เห็นว่ามีประสิทธิภาพสำหรับข้อมูลที่คล้ายกับของฉัน แต่ฉันมั่นใจได้ว่าจะลองวิธีอื่น

2
การเลือกคุณสมบัติและการปรับพารามิเตอร์ด้วยคาเร็ตสำหรับฟอเรสต์แบบสุ่ม
ฉันมีข้อมูลที่มีฟีเจอร์ไม่กี่พันรายการและฉันต้องการทำการเลือกฟีเจอร์แบบเรียกซ้ำ (RFE) เพื่อลบข้อมูลที่ไม่ต้องการออก ฉันทำสิ่งนี้ด้วยคาเร็ตและ RFE อย่างไรก็ตามฉันเริ่มคิดว่าถ้าฉันต้องการได้รับแบบจำลองการถดถอยที่ดีที่สุด (เช่นฟอเรสต์แบบสุ่ม) ฉันควรทำการปรับพารามิเตอร์ ( mtryสำหรับ RF) เมื่อใด นั่นคือตามที่ฉันเข้าใจcaretฝึก RF ซ้ำ ๆ กันในชุดย่อยที่แตกต่างกันด้วย mtry คงที่ ฉันคิดว่าmtryควรพบสิ่งที่ดีที่สุดหลังจากการเลือกคุณสมบัติเสร็จสิ้นแล้ว แต่mtryค่าที่คาเร็ตใช้จะมีผลกับชุดย่อยของฟีเจอร์ที่เลือกหรือไม่ แน่นอนว่าการใช้คาเร็เทตกับ low mtryนั้นเร็วกว่ามาก หวังว่าใครบางคนสามารถอธิบายเรื่องนี้กับฉันได้

2
ป่าสุ่มแสดงการตั้งค่าการทำนายหรือไม่?
ฉันคิดว่านี่เป็นคำถามที่ตรงไปตรงมาแม้ว่าการให้เหตุผลว่าทำไมหรือทำไมไม่อาจเป็นเช่นนั้น เหตุผลที่ผมถามคือว่าผมได้เขียนเมื่อเร็ว ๆ นี้การดำเนินการของตัวเองของ RF และแม้ว่ามันจะมีประสิทธิภาพดีมันไม่ได้มีประสิทธิภาพค่อนข้างเช่นเดียวกับที่ผมคาดหวัง (ตามKaggle ภาพคุณภาพสูงของการทำนายการแข่งขันชุดข้อมูลที่คะแนนชนะและบางส่วนของ ข้อมูลที่ตามมาซึ่งมีเกี่ยวกับเทคนิคที่ใช้) สิ่งแรกที่ฉันทำในสถานการณ์เช่นนี้คือข้อผิดพลาดในการทำนายพล็อตสำหรับแบบจำลองของฉันดังนั้นสำหรับแต่ละค่าการทำนายที่กำหนดฉันจะกำหนดความลำเอียงเฉลี่ย (หรือส่วนเบี่ยงเบน) จากค่าเป้าหมายที่ถูกต้อง สำหรับ RF ของฉันฉันได้พล็อตนี้: ฉันสงสัยว่านี่เป็นรูปแบบความเอนเอียงที่สังเกตได้โดยทั่วไปสำหรับ RF หรือไม่หากเป็นเช่นนั้นอาจเป็นสิ่งที่เฉพาะเจาะจงกับชุดข้อมูลและ / หรือการนำไปใช้ของฉัน แน่นอนว่าฉันสามารถใช้พล็อตนี้เพื่อปรับปรุงการทำนายได้โดยใช้มันเพื่อชดเชยอคติ แต่ฉันสงสัยว่ามีข้อผิดพลาดพื้นฐานหรือข้อบกพร่องในโมเดล RF ที่ต้องการแก้ไขปัญหาหรือไม่ ขอบคุณ. == ADDENDUM == การตรวจสอบเบื้องต้นของฉันอยู่ที่บล็อกนี้Random Forest Bias - Update

3
การถดถอยป่าแบบสุ่มไม่คาดการณ์สูงกว่าข้อมูลการฝึกอบรม
ฉันสังเกตเห็นว่าเมื่อสร้างแบบจำลองการถดถอยป่าแบบสุ่มอย่างน้อยRค่าที่ทำนายจะไม่เกินค่าสูงสุดของตัวแปรเป้าหมายที่เห็นในข้อมูลการฝึกอบรม ตัวอย่างเช่นดูรหัสด้านล่าง ฉันกำลังสร้างแบบจำลองการถดถอยเพื่อทำนายmpgตามmtcarsข้อมูล ฉันสร้าง OLS และโมเดลป่าไม้แบบสุ่มและใช้มันในการทำนายmpgสำหรับรถยนต์สมมุติที่ควรมีการประหยัดเชื้อเพลิงที่ดีมาก OLS ทำนายป่าสูงmpgตามที่คาดไว้ แต่ป่าสุ่มไม่ได้ ฉันสังเกตเห็นสิ่งนี้ในรูปแบบที่ซับซ้อนมากขึ้นเช่นกัน ทำไมนี้ > library(datasets) > library(randomForest) > > data(mtcars) > max(mtcars$mpg) [1] 33.9 > > set.seed(2) > fit1 <- lm(mpg~., data=mtcars) #OLS fit > fit2 <- randomForest(mpg~., data=mtcars) #random forest fit > > #Hypothetical car that should have very high mpg …
12 r  random-forest 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.