เนื่องจาก randomForest เป็นชุดของรถลากอิสระที่ผ่านการฝึกอบรมเกี่ยวกับชุดย่อยของคุณสมบัติแบบสุ่มและบันทึกมันยืมตัวเองเพื่อขนาน combine()
ฟังก์ชั่นในแพคเกจ randomForest จะตะเข็บกันป่าได้รับการฝึกฝนอย่างอิสระ นี่คือตัวอย่างของเล่น ในฐานะที่เป็นคำตอบของ @mpq คุณไม่ควรใช้สัญกรณ์สูตร แต่ผ่านใน dataframe / เมทริกซ์ของตัวแปรและเวกเตอร์ของผลลัพธ์ ฉันไร้ยางอายยกสิ่งเหล่านี้จากเอกสาร
library("doMC")
library("randomForest")
data(iris)
registerDoMC(4) #number of cores on the machine
darkAndScaryForest <- foreach(y=seq(10), .combine=combine ) %dopar% {
set.seed(y) # not really needed
rf <- randomForest(Species ~ ., iris, ntree=50, norm.votes=FALSE)
}
ฉันผ่านฟังก์ชั่นการรวม randomForest ไปยังพารามิเตอร์. combine ที่มีชื่อคล้ายกัน (ซึ่งควบคุมฟังก์ชั่นในเอาต์พุตของลูปด้านลงคือคุณไม่ได้รับอัตราความผิดพลาด OOB หรือความสำคัญของตัวแปรอนาถา
แก้ไข:
หลังจากอ่านโพสต์ใหม่ฉันรู้ว่าฉันไม่ได้พูดอะไรเกี่ยวกับปัญหา 34+ ปัจจัย คำตอบที่ไม่ได้คิดเอาไว้ว่า wholey สามารถใช้แทนตัวแปรไบนารีได้ นั่นคือแต่ละปัจจัยคอลัมน์ที่ถูกเข้ารหัส 0/1 ระดับปัจจัยเกี่ยวกับสถานะ / ไม่มีสถานะ ด้วยการเลือกตัวแปรบางอย่างจากปัจจัยที่ไม่สำคัญและนำออกคุณสามารถทำให้พื้นที่ของคุณมีขนาดใหญ่เกินไป