สถิติและข้อมูลขนาดใหญ่ random-forest

1

ความหมายของแกน y ในพล็อตฟอเรสต์แบบสุ่มบางส่วนของ Forest

ฉันใช้RandomForestแพคเกจ R และสับสนในการตีความค่าของแกน Y ในแผนการพึ่งพาบางส่วนของพวกเขา ช่วยให้เอกสารระบุว่าพล็อตนั้นเป็น "การแสดงภาพกราฟิกของเอฟเฟกต์เล็กน้อยของตัวแปรในความน่าจะเป็นของชั้นเรียน" อย่างไรก็ตามฉันยังสับสนว่าแกน y หมายถึงอะไร โดยเฉพาะอย่างยิ่งค่าลบหมายถึงอะไร การมีอิทธิพลในทางลบต่อการทำนายชั้นเรียนอย่างถูกต้องหมายความว่าอย่างไร และอะไรคือคุณสมบัติที่สำคัญที่สุดจากตัวเลขเหล่านี้มันคือค่าสูงสุดรูปร่างของเทรนด์ ฯลฯ หรือไม่ คุณสามารถเปรียบเทียบแปลงบางส่วนกับแปลงบางส่วนของตัวแปรอื่น ๆ ได้หรือไม่? แปลงเหล่านี้อาจเปรียบเทียบกับเส้นโค้งการตอบสนองที่สร้างใน Maxent (ซอฟต์แวร์การสร้างแบบจำลองการกระจาย) ได้อย่างไร

13 r interpretation random-forest partial-plot

5

จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?

ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

ขั้นตอนแรกเรียนรู้การทำนายไทม์ทางการเงินโดยใช้การเรียนรู้ของเครื่อง

ฉันพยายามเข้าใจวิธีใช้การเรียนรู้ของเครื่องเพื่อทำนายไทม์ทางการเงิน 1 ขั้นตอนหรือมากกว่าในอนาคต ฉันมีช่วงเวลาทางการเงินพร้อมข้อมูลเชิงพรรณนาและฉันต้องการจัดทำแบบจำลองจากนั้นใช้แบบจำลองเพื่อทำนายขั้นตอนล่วงหน้า สิ่งที่ฉันได้ทำไปคือ: getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- GOOG$GOOG.High-GOOG$GOOG.Low tail(GOOG) GOOG.Open GOOG.High GOOG.Low GOOG.Close GOOG.Volume GOOG.Adjusted sma range 2013-05-07 863.01 863.87 850.67 857.23 1959000 857.23 828.214 13.20 2013-05-08 857.00 873.88 852.91 873.63 2468300 873.63 834.232 20.97 2013-05-09 870.84 879.66 868.23 871.48 2200600 871.48 840.470 11.43 2013-05-10 875.31 …

12 r time-series machine-learning random-forest finance

3

การทำนายข้อมูลนับด้วยฟอเรสต์แบบสุ่ม

ป่าสุ่มสามารถถูกฝึกให้ทำนายข้อมูลนับได้อย่างเหมาะสมหรือไม่? สิ่งนี้จะดำเนินการอย่างไร ฉันมีค่าค่อนข้างหลากหลายดังนั้นการจัดหมวดหมู่จึงไม่สมเหตุสมผล ถ้าฉันจะใช้การถดถอยฉันจะตัดทอนผลลัพธ์หรือไม่? ฉันหลงทางไปแล้ว ความคิดใด ๆ

12 r regression random-forest prediction count-data

2

Random Forest: จะเป็นอย่างไรถ้าฉันรู้ว่าตัวแปรมีความสำคัญ

ความเข้าใจของฉันเป็นเพื่อนที่ป่าสุ่มสุ่มmtryตัวแปรในการสร้างแต่ละต้นไม้ตัดสินใจ ดังนั้นถ้า mtry = ncol / 3 ดังนั้นแต่ละตัวแปรจะถูกใช้โดยเฉลี่ยใน 1 ใน 3 ของต้นไม้ และต้นไม้ 2/3 จะไม่ใช้มัน แต่ถ้าฉันรู้ว่าตัวแปรตัวเดียวน่าจะสำคัญมากมันจะดีหรือไม่ที่จะเพิ่มความน่าจะเป็นที่ตัวแปรนี้จะถูกเลือกในแต่ละต้น เป็นไปได้หรือไม่ที่มีแพ็คเกจสุ่มป่าไม้ใน R

12 r random-forest parameterization

2

RandomForest เลือกการถดถอยแทนการจัดหมวดหมู่

ฉันใช้แพคเกจrandomForestใน R และใช้ข้อมูล iris ป่าสุ่มที่สร้างขึ้นเป็นการจัดหมวดหมู่ แต่เมื่อฉันใช้ชุดข้อมูลที่มีคุณสมบัติประมาณ 700 รายการ (คุณสมบัติคือแต่ละพิกเซลในภาพขนาด 28x28 พิกเซล) และคอลัมน์ชื่อมีชื่อlabelที่randomForestสร้างขึ้นคือการถดถอย ฉันใช้บรรทัดต่อไปนี้: rf <- randomForest(label ~ ., data=train) ทำไมการถดถอยจึงถูกนำมาใช้แทนการจำแนก? read.csv()ข้อมูลจะถูกอ่านผ่าน

12 r random-forest

2

PCA และฟอเรสต์แบบสุ่ม

สำหรับการแข่งขัน Kaggle เมื่อเร็ว ๆ นี้ฉัน (กำหนดเอง) กำหนดคุณสมบัติเพิ่มเติมอีก 10 รายการสำหรับชุดการฝึกอบรมของฉันซึ่งจะใช้ในการฝึกอบรมตัวจําแนกป่าแบบสุ่ม ฉันตัดสินใจเรียกใช้ PCA บนชุดข้อมูลด้วยคุณสมบัติใหม่เพื่อดูว่าพวกเขาเปรียบเทียบกันอย่างไร ฉันพบว่าประมาณ 98% ของความแปรปรวนดำเนินการโดยองค์ประกอบแรก (eigenvector แรก) จากนั้นฉันฝึกตัวจําแนกหลายครั้งเพิ่มคุณสมบัติทีละรายการและใช้การตรวจสอบข้ามและข้อผิดพลาด RMS เพื่อเปรียบเทียบคุณภาพของการจําแนก ฉันพบว่าการจัดหมวดหมู่ได้รับการปรับปรุงด้วยคุณสมบัติเพิ่มเติมแต่ละรายการและผลลัพธ์สุดท้าย (พร้อมคุณสมบัติใหม่ทั้ง 10 รายการ) นั้นดีกว่าการเรียกใช้ครั้งแรกด้วย (พูด) คุณสมบัติ 2 อย่าง เนื่องจาก PCA อ้างว่า ~ 98% ของความแปรปรวนอยู่ในองค์ประกอบแรกของชุดข้อมูลของฉันทำไมคุณภาพของการจำแนกประเภทจึงพัฒนาขึ้นมาก สิ่งนี้จะเป็นจริงสำหรับตัวแยกประเภทอื่นหรือไม่ RF ปรับข้ามหลายคอร์ดังนั้นจึงเร็วกว่าในการฝึกอบรม (พูด) SVM ถ้าฉันแปลงชุดข้อมูลไปเป็นพื้นที่ "PCA" แล้วเรียกใช้ตัวจําแนกในพื้นที่แปลง ผลลัพธ์ของฉันจะเปลี่ยนแปลงอย่างไร

12 classification pca random-forest

1

ฟังก์ชันค่าใช้จ่ายใดที่ดีกว่าสำหรับต้นไม้แบบสุ่ม: ดัชนี Gini หรือเอนโทรปี

ฟังก์ชันค่าใช้จ่ายใดที่ดีกว่าสำหรับต้นไม้แบบสุ่ม: ดัชนี Gini หรือเอนโทรปี ฉันกำลังพยายามใช้ฟอเรสต์แบบสุ่มใน Clojure

12 classification random-forest cart

1

จะลดจำนวนผลบวกปลอมได้อย่างไร

ฉันกำลังพยายามที่จะแก้ปัญหางานที่เรียกว่าการตรวจจับคนเดินเท้าและฉันฝึก clasifer ไบนารีในสองประเภทบวก - คนลบ - พื้นหลัง ฉันมีชุดข้อมูล: จำนวนบวก = 3752 จำนวนลบ = 3800 ฉันใช้ train \ test split 80 \ 20% และRandomForestClassifier form scikit- เรียนรู้ ด้วยพารามิเตอร์: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) ฉันได้รับคะแนน: 95.896757% ทดสอบข้อมูลการฝึกอบรม (ทำงานได้อย่างสมบูรณ์): true positive: 3005 false positive: 0 false negative: 0 true negative: 3036 ทดสอบข้อมูลการทดสอบ: true positive: …

12 classification random-forest unbalanced-classes precision-recall computer-vision

1

จำเป็นต้องดำเนินการ preprocessing ก่อนการทำนายโดยใช้ FinalModel ของ RandomForest กับ caret package หรือไม่

ฉันใช้ชุดคาเร็ตสำหรับฝึกวัตถุสุ่มป่าด้วย 10x10CV library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) หลังจากนั้นฉันทดสอบ randomForest บน testSet (ข้อมูลใหม่) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) เมทริกซ์ความสับสนแสดงให้ฉันเห็นว่าแบบจำลองนั้นไม่เลว confusionMatrix(data=RF.testSet$Prediction, RF.testSet$Defect) Reference Prediction 0 1 0 886 179 1 53 126 Accuracy : 0.8135 95% CI : (0.7907, 0.8348) No …

12 r random-forest prediction caret

2

วิธีการรวมผลลัพธ์ของการถดถอยโลจิสติกและฟอเรสต์แบบสุ่ม

ฉันยังใหม่กับการเรียนรู้ของเครื่อง ฉันใช้การถดถอยโลจิสติกและฟอเรสต์แบบสุ่มบนชุดข้อมูลเดียวกัน ดังนั้นฉันจึงได้รับความสำคัญของตัวแปร (สัมประสิทธิ์สัมบูรณ์สำหรับการถดถอยโลจิสติกและความสำคัญของตัวแปรสำหรับฟอเรสต์แบบสุ่ม) ฉันกำลังคิดที่จะรวมสองสิ่งนี้เข้าด้วยกันเพื่อให้ได้ตัวแปรที่มีความสำคัญขั้นสุดท้าย ใครสามารถแบ่งปันประสบการณ์ของเขา / เธอ? ฉันได้ตรวจสอบการบรรจุถุงการส่งเสริมการสร้างแบบจำลองชุด แต่ไม่ใช่สิ่งที่ฉันต้องการ พวกเขารวมข้อมูลสำหรับรุ่นเดียวกันในแบบจำลองมากกว่า สิ่งที่ฉันกำลังมองหาคือการรวมผลของหลายรุ่น

12 machine-learning logistic random-forest

1

การแบ่งประเภทแบ่งชั้นด้วยป่าสุ่ม (หรือตัวแยกประเภทอื่น)

ดังนั้นฉันจึงมีเมทริกซ์ประมาณ 60 x 1,000 ฉันมองว่ามันเป็นวัตถุ 60 ชิ้นที่มีคุณสมบัติ 1,000 รายการ วัตถุ 60 ชิ้นถูกจัดกลุ่มเป็น 3 คลาส (a, b, c) วัตถุ 20 ชิ้นในแต่ละชั้นและเรารู้การจำแนกที่แท้จริง ฉันต้องการทำการเรียนรู้ภายใต้การดูแลในชุดตัวอย่างการฝึกอบรม 60 ชุดนี้และฉันสนใจทั้งความแม่นยำของตัวจําแนก (และตัวชี้วัดที่เกี่ยวข้อง) รวมถึงการเลือกคุณสมบัติของคุณสมบัติ 1,000 รายการ ก่อนชื่อของฉันเป็นอย่างไร ตอนนี้คำถามจริง: ฉันสามารถโยนฟอเรสต์แบบสุ่มตามที่ระบุไว้หรือตัวแยกประเภทอื่น ๆ แต่มีความละเอียดอ่อน - ฉันสนใจเฉพาะความแตกต่างของคลาส c จากคลาส a และ b เท่านั้น ฉันสามารถเรียนสระว่ายน้ำ a และ b แต่มีวิธีที่ดีในการใช้ความรู้เบื้องต้นว่าวัตถุที่ไม่ใช่ c ทั้งหมดน่าจะสร้างกลุ่มที่แตกต่างกันสองกลุ่มหรือไม่? ฉันต้องการใช้ฟอเรสต์แบบสุ่มหรือตัวแปรเนื่องจากมันแสดงให้เห็นว่ามีประสิทธิภาพสำหรับข้อมูลที่คล้ายกับของฉัน แต่ฉันมั่นใจได้ว่าจะลองวิธีอื่น

12 machine-learning classification multilevel-analysis random-forest stratification

2

การเลือกคุณสมบัติและการปรับพารามิเตอร์ด้วยคาเร็ตสำหรับฟอเรสต์แบบสุ่ม

ฉันมีข้อมูลที่มีฟีเจอร์ไม่กี่พันรายการและฉันต้องการทำการเลือกฟีเจอร์แบบเรียกซ้ำ (RFE) เพื่อลบข้อมูลที่ไม่ต้องการออก ฉันทำสิ่งนี้ด้วยคาเร็ตและ RFE อย่างไรก็ตามฉันเริ่มคิดว่าถ้าฉันต้องการได้รับแบบจำลองการถดถอยที่ดีที่สุด (เช่นฟอเรสต์แบบสุ่ม) ฉันควรทำการปรับพารามิเตอร์ ( mtryสำหรับ RF) เมื่อใด นั่นคือตามที่ฉันเข้าใจcaretฝึก RF ซ้ำ ๆ กันในชุดย่อยที่แตกต่างกันด้วย mtry คงที่ ฉันคิดว่าmtryควรพบสิ่งที่ดีที่สุดหลังจากการเลือกคุณสมบัติเสร็จสิ้นแล้ว แต่mtryค่าที่คาเร็ตใช้จะมีผลกับชุดย่อยของฟีเจอร์ที่เลือกหรือไม่ แน่นอนว่าการใช้คาเร็เทตกับ low mtryนั้นเร็วกว่ามาก หวังว่าใครบางคนสามารถอธิบายเรื่องนี้กับฉันได้

12 regression feature-selection random-forest caret

2

ป่าสุ่มแสดงการตั้งค่าการทำนายหรือไม่?

ฉันคิดว่านี่เป็นคำถามที่ตรงไปตรงมาแม้ว่าการให้เหตุผลว่าทำไมหรือทำไมไม่อาจเป็นเช่นนั้น เหตุผลที่ผมถามคือว่าผมได้เขียนเมื่อเร็ว ๆ นี้การดำเนินการของตัวเองของ RF และแม้ว่ามันจะมีประสิทธิภาพดีมันไม่ได้มีประสิทธิภาพค่อนข้างเช่นเดียวกับที่ผมคาดหวัง (ตามKaggle ภาพคุณภาพสูงของการทำนายการแข่งขันชุดข้อมูลที่คะแนนชนะและบางส่วนของ ข้อมูลที่ตามมาซึ่งมีเกี่ยวกับเทคนิคที่ใช้) สิ่งแรกที่ฉันทำในสถานการณ์เช่นนี้คือข้อผิดพลาดในการทำนายพล็อตสำหรับแบบจำลองของฉันดังนั้นสำหรับแต่ละค่าการทำนายที่กำหนดฉันจะกำหนดความลำเอียงเฉลี่ย (หรือส่วนเบี่ยงเบน) จากค่าเป้าหมายที่ถูกต้อง สำหรับ RF ของฉันฉันได้พล็อตนี้: ฉันสงสัยว่านี่เป็นรูปแบบความเอนเอียงที่สังเกตได้โดยทั่วไปสำหรับ RF หรือไม่หากเป็นเช่นนั้นอาจเป็นสิ่งที่เฉพาะเจาะจงกับชุดข้อมูลและ / หรือการนำไปใช้ของฉัน แน่นอนว่าฉันสามารถใช้พล็อตนี้เพื่อปรับปรุงการทำนายได้โดยใช้มันเพื่อชดเชยอคติ แต่ฉันสงสัยว่ามีข้อผิดพลาดพื้นฐานหรือข้อบกพร่องในโมเดล RF ที่ต้องการแก้ไขปัญหาหรือไม่ ขอบคุณ. == ADDENDUM == การตรวจสอบเบื้องต้นของฉันอยู่ที่บล็อกนี้Random Forest Bias - Update

12 algorithms random-forest cart

3

การถดถอยป่าแบบสุ่มไม่คาดการณ์สูงกว่าข้อมูลการฝึกอบรม

ฉันสังเกตเห็นว่าเมื่อสร้างแบบจำลองการถดถอยป่าแบบสุ่มอย่างน้อยRค่าที่ทำนายจะไม่เกินค่าสูงสุดของตัวแปรเป้าหมายที่เห็นในข้อมูลการฝึกอบรม ตัวอย่างเช่นดูรหัสด้านล่าง ฉันกำลังสร้างแบบจำลองการถดถอยเพื่อทำนายmpgตามmtcarsข้อมูล ฉันสร้าง OLS และโมเดลป่าไม้แบบสุ่มและใช้มันในการทำนายmpgสำหรับรถยนต์สมมุติที่ควรมีการประหยัดเชื้อเพลิงที่ดีมาก OLS ทำนายป่าสูงmpgตามที่คาดไว้ แต่ป่าสุ่มไม่ได้ ฉันสังเกตเห็นสิ่งนี้ในรูปแบบที่ซับซ้อนมากขึ้นเช่นกัน ทำไมนี้ > library(datasets) > library(randomForest) > > data(mtcars) > max(mtcars$mpg) [1] 33.9 > > set.seed(2) > fit1 <- lm(mpg~., data=mtcars) #OLS fit > fit2 <- randomForest(mpg~., data=mtcars) #random forest fit > > #Hypothetical car that should have very high mpg …

12 r random-forest

คำถามติดแท็ก random-forest