คำถามติดแท็ก random-forest

Random Forest เป็นตัวจําแนกประเภทการเรียนรู้ด้วยเครื่องโดยใช้การเลือกชุดย่อยของตัวแปรสําหรับแต่ละต้นและใช้เอาต์พุตของต้นไม้บ่อยที่สุดเป็นการจัดหมวดหมู่โดยรวม

1
ฟอเรสต์แบบสุ่มออนไลน์โดยเพิ่มต้นไม้การตัดสินใจเดียว
Random Forest (RF) ถูกสร้างโดยกลุ่ม Decision Trees's (DT) โดยการใช้การบรรจุถุง DT แต่ละตัวจะได้รับการฝึกอบรมในชุดข้อมูลที่แตกต่างกัน ดังนั้นมีวิธีใดบ้างที่จะใช้ฟอเรสต์แบบสุ่มออนไลน์โดยเพิ่มการตัดสินใจข้อมูลเพิ่มเติมใหม่? ตัวอย่างเช่นเรามีตัวอย่าง 10K และฝึกอบรม 10 DT จากนั้นเราจะได้รับ 1K ตัวอย่างและแทนที่จะฝึกอบรม RF แบบเต็มอีกครั้งเราเพิ่ม DT ใหม่ การทำนายเสร็จสิ้นในตอนนี้โดยค่าเฉลี่ยของเบย์จาก 10 + 1 DT นอกจากนี้หากเราเก็บข้อมูลก่อนหน้านี้ทั้งหมด DT ใหม่สามารถได้รับการฝึกอบรมเป็นหลักในข้อมูลใหม่ที่ความน่าจะเป็นของการเลือกตัวอย่างนั้นจะมีน้ำหนักขึ้นอยู่กับจำนวนครั้งที่ได้รับ

1
ความสำคัญของคุณลักษณะที่มีคุณลักษณะหมวดหมู่ที่มีความสำคัญสูงสำหรับการถดถอย (ตัวแปร depdendent ที่เป็นตัวเลข)
ฉันพยายามใช้ความสำคัญของคุณลักษณะจาก Random Forests เพื่อทำการเลือกคุณลักษณะเชิงประจักษ์สำหรับปัญหาการถดถอยที่คุณสมบัติทั้งหมดเป็นหมวดหมู่และส่วนใหญ่มีหลายระดับ (ตามลำดับที่ 100-1,000) เนื่องจากการเข้ารหัสแบบ one-hot สร้างตัวแปรดัมมี่สำหรับแต่ละระดับความสำคัญของคุณลักษณะสำหรับแต่ละระดับและไม่ใช่แต่ละฟีเจอร์ (คอลัมน์) วิธีที่ดีในการรวมความสำคัญของคุณลักษณะเหล่านี้คืออะไร ฉันคิดเกี่ยวกับการสรุปหรือรับความสำคัญโดยเฉลี่ยสำหรับทุกระดับของคุณลักษณะ (อาจเป็นไปได้ว่าในอดีตจะมีอคติต่อคุณลักษณะเหล่านั้นที่มีระดับมากขึ้น) มีการอ้างอิงใด ๆ เกี่ยวกับปัญหานี้หรือไม่? เราสามารถทำอะไรได้อีกเพื่อลดจำนวนคุณสมบัติ ฉันตระหนักถึงกลุ่มเชือกไม่สามารถหาอะไรที่ง่ายต่อการใช้งานสำหรับการเรียนรู้ Scikit

1
การเลือกคุณสมบัติโดยใช้คุณสมบัตินำเข้าในป่าสุ่มพร้อม scikit-Learn
ฉันมีพล็อต importances คุณลักษณะในป่าสุ่มที่มี scikit เพื่อปรับปรุงการทำนายโดยใช้ฟอเรสต์แบบสุ่มฉันจะใช้ข้อมูลพล็อตเพื่อลบคุณลักษณะได้อย่างไร ฉันจะทราบได้อย่างไรว่าฟีเจอร์นั้นไม่มีประโยชน์หรือลดประสิทธิภาพการสุ่มฟอเรสต์โดยใช้ข้อมูลการลงจุดอย่างไร พล็อตจะขึ้นอยู่กับคุณลักษณะfeature_importances_และฉันใช้ตัวจําแนsklearn.ensemble.RandomForestClassifierก ฉันรู้ว่ามีอยู่เทคนิคอื่น ๆ สำหรับการเลือกคุณลักษณะfeature_importances_แต่ในคำถามนี้ผมต้องการที่จะมุ่งเน้นไปที่วิธีการใช้คุณลักษณะ ตัวอย่างของการแปลงความสำคัญของคุณลักษณะดังกล่าว:

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
ฉันจะพอดีกับประเภทข้อมูลเด็ดขาดสำหรับการจำแนกป่าแบบสุ่มได้อย่างไร
ฉันต้องการค้นหาความถูกต้องของชุดข้อมูลการฝึกอบรมโดยใช้ Random Forest Algorithm แต่ประเภทของชุดข้อมูลของฉันมีทั้งหมวดหมู่และตัวเลข เมื่อฉันพยายามที่จะพอดีกับข้อมูลเหล่านั้นฉันได้รับข้อผิดพลาด 'อินพุตมี NaN อินฟินิตี้หรือค่ามีขนาดใหญ่เกินไปสำหรับ dtype (' float32 ')' อาจเป็นปัญหาสำหรับประเภทข้อมูลวัตถุ ฉันจะพอดีกับข้อมูลที่เป็นหมวดหมู่โดยไม่มีการแปลงเพื่อใช้ RF ได้อย่างไร นี่คือรหัสของฉัน

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
ความถูกต้องของแบบจำลอง 100% สำหรับข้อมูลเกินตัวอย่างหรือไม่?
ฉันเพิ่งเสร็จสิ้นการเรียนรู้ของเครื่องสำหรับหลักสูตร R ใน cognitiveclass.ai และได้เริ่มทำการทดลองด้วยการสุ่ม ฉันสร้างแบบจำลองโดยใช้ไลบรารี่ "randomForest" ในอาร์โมเดลแบ่งเป็นสองคลาสคือดีและไม่ดี ฉันรู้ว่าเมื่อแบบจำลองมีความเหมาะสมมากเกินไปมันทำงานได้ดีกับข้อมูลจากชุดฝึกอบรมของตัวเอง แต่มีข้อมูลที่ไม่อยู่ในเกณฑ์ตัวอย่าง ในการฝึกอบรมและทดสอบแบบจำลองของฉันฉันได้สับและแยกชุดข้อมูลที่สมบูรณ์เป็น 70% สำหรับการฝึกอบรมและ 30% สำหรับการทดสอบ คำถามของฉัน: ฉันได้รับความแม่นยำ 100% จากการทำนายที่ทำไว้ในชุดการทดสอบ มันแย่ใช่ไหม? ดูเหมือนดีเกินกว่าที่จะเป็นจริง วัตถุประสงค์คือการจดจำรูปแบบของคลื่นในสี่ซึ่งกันและกันขึ้นอยู่กับรูปคลื่น คุณสมบัติของชุดข้อมูลนั้นเป็นผลจากต้นทุนของการวิเคราะห์สัญญาณเวลาแบบไดนามิกของรูปคลื่นด้วยรูปคลื่นเป้าหมาย

2
ค้นหา P (X | Y) ที่ดีที่สุดเมื่อได้รับฉันมีโมเดลที่มีประสิทธิภาพที่ดีเมื่อฝึกฝนบน P (Y | X)
ป้อนข้อมูล: XXX -> คุณสมบัติของเสื้อยืด (สีโลโก้ ฯลฯ ) YYY -> อัตรากำไร ฉันได้ฝึกอบรมฟอเรสต์แบบสุ่มบนและด้านบนและได้รับความถูกต้องสมเหตุสมผลในข้อมูลการทดสอบ ดังนั้นฉันมีYXXXYYY P(Y|X)P(Y|X)P(Y|X)X) ตอนนี้ฉันต้องการค้นหาเช่นการกระจายความน่าจะเป็นของฟีเจอร์เนื่องจากฉันคาดว่าจะได้รับกำไรมากXP(X|Y)P(X|Y)P(X|Y)XXX ฉันจะทำเช่นนั้นด้วยฟอเรสต์แบบสุ่ม (หรือโมเดลการเลือกปฏิบัติอื่น ๆ ) ได้อย่างไร หนึ่งข้อเสนอแนะสำหรับฉันอาจเริ่มต้นด้วยตัวแบบกำเนิดมากกว่าแบบตัวเลือก แต่ความเข้าใจของฉันเป็นแบบจำลองทั่วไปโดยทั่วไปต้องใช้ข้อมูลจำนวนมากในการฝึกอบรมเว้นแต่ว่าจะมีข้อ จำกัด บางอย่างเช่นความเป็นอิสระตามเงื่อนไขของในกรณีของ Naive Bayes?XXX ข้อเสนอแนะอื่น ๆ อาจเป็นเพียงแค่สลับและและฝึกอบรมรูปแบบการเลือกปฏิบัติ ตอนนี้จะเป็นอัตรากำไรและจะเป็นคุณสมบัติของเสื้อ จะให้การกระจายความน่าจะเป็นของคุณสมบัติเสื้อยืดโดยตรงกับฉันเนื่องจากอัตรากำไรเป้าหมาย แต่วิธีการนี้ดูเหมือนจะไม่ถูกต้องสำหรับฉันเนื่องจากฉันคิดว่าเป็นตัวแปรชั่วคราวและจะมีผลเสมอY X Y P ( Y | X ) X YXXXYYYXXXYYYP(Y|X)P(Y|X)P(Y|X)XXXYYY นอกจากนี้จากสิ่งที่ฉันได้ยินคำถามที่คล้ายกันได้ถูกวางสำหรับการค้นพบยาเสพติดและอัลกอริทึมได้รับการออกแบบซึ่งเกิดขึ้นกับยาเสพติดใหม่ผู้สมัครที่มีระดับสูงของความสำเร็จ ใครช่วยชี้แนะให้ฉันค้นคว้าวรรณกรรมในโดเมนนี้ได้ไหม ปรับปรุง: ฉันเจอสิ่งนี้และสิ่งนี้พูดถึง GAN ที่ใช้ในการค้นพบสิ่งเสพติด เครือข่ายฝ่ายตรงข้ามทั่วไปดูเหมือนจะเหมาะสำหรับคำแถลงปัญหาของฉันดังนั้นฉันจึงได้อ่านเกี่ยวกับพวกเขา แต่สิ่งหนึ่งที่ฉันเข้าใจคือ GAN …

3
คลาสที่ไม่สมดุล - วิธีการลดเชิงลบที่ผิดพลาดให้น้อยที่สุดได้อย่างไร
ฉันมีชุดข้อมูลที่มีคุณลักษณะคลาสไบนารี มีอินสแตนซ์ 623 คลาส +1 (บวกมะเร็ง) และ 101,671 อินสแตนซ์กับคลาส -1 (ลบมะเร็ง) ฉันได้ลองอัลกอริธึมที่หลากหลาย (Naive Bayes, Random Forest, AODE, C4.5) และทั้งหมดนั้นมีอัตราส่วนลบติดลบที่ยอมรับไม่ได้ ป่าสุ่มมีความแม่นยำในการทำนายโดยรวมสูงสุด (99.5%) และอัตราส่วนลบติดลบต่ำสุด แต่ก็ยังพลาด 79% ของคลาสบวก (เช่นไม่สามารถตรวจจับ 79% ของเนื้องอกมะเร็ง) ความคิดใดที่ฉันสามารถปรับปรุงสถานการณ์นี้ได้? ขอบคุณ!

4
จะหลีกเลี่ยงการ overfitting ในป่าสุ่มได้อย่างไร
ฉันต้องการหลีกเลี่ยง overfitting ในป่าสุ่ม ในเรื่องนี้ฉันตั้งใจจะใช้ mtry, nodesize และ maxnodes เป็นต้นคุณช่วยฉันเลือกค่าสำหรับพารามิเตอร์เหล่านี้ได้ไหม? ฉันกำลังใช้อาร์ นอกจากนี้ถ้าเป็นไปได้โปรดบอกฉันว่าฉันสามารถใช้การตรวจสอบความถูกต้องข้ามของ k-fold สำหรับฟอเรสต์แบบสุ่ม (ใน R) ได้อย่างไร

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
ความสำคัญของคุณสมบัติผ่านป่าสุ่มและการถดถอยเชิงเส้นจะแตกต่างกัน
ใช้ Lasso เพื่อจัดอันดับคุณสมบัติและได้ผลลัพธ์ต่อไปนี้: rank feature prob. ================================== 1 a 0.1825477951589229 2 b 0.07858498115577893 3 c 0.07041793111843796 โปรดทราบว่าชุดข้อมูลมี 3 ป้าย การจัดอันดับของคุณสมบัติสำหรับป้ายกำกับที่แตกต่างกันเหมือนกัน จากนั้นใช้ฟอเรสต์แบบสุ่มกับชุดข้อมูลเดียวกัน: rank feature score =================================== 1 b 0.17504808300002753 6 a 0.05132699243632827 8 c 0.041690685195283385 โปรดสังเกตว่าการจัดอันดับแตกต่างจากการจัดทำโดย Lasso อย่างมาก จะตีความความแตกต่างได้อย่างไร มันบอกเป็นนัย ๆ ว่าแบบจำลองพื้นฐานไม่เชิงเส้นหรือไม่?

3
ส่งออกน้ำหนัก (สูตร) ​​จาก Random Forest Regressor ใน Scikit-Learn
ฉันได้ฝึกฝนแบบจำลองการทำนายด้วย Scikit Learn ใน Python (Random Forest Regressor) และฉันต้องการแยกน้ำหนักของคุณลักษณะแต่ละอย่างเพื่อสร้างเครื่องมือ excel สำหรับการคาดการณ์ด้วยตนเอง สิ่งเดียวที่ฉันพบคือmodel.feature_importances_แต่มันไม่ได้ช่วย มีวิธีการที่จะบรรลุหรือไม่ def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( X_train , y_train ) #make predictions expected = y_test predicted = model.predict( X_test ) #summarize the fit of the model …

3
ฟอเรสต์แบบสุ่มในข้อผิดพลาด Amazon ec2: ไม่สามารถจัดสรรเวกเตอร์ที่มีขนาด 5.4 Gb
ฉันกำลังฝึกอบรมโมเดลฟอเรสต์แบบสุ่มใน R โดยใช้randomForest()ต้นไม้ 1,000 ต้นและเฟรมข้อมูลพร้อมตัวทำนาย 20 ตัวและแถว 600K ทุกอย่างในแล็ปท็อปของฉันใช้งานได้ดี แต่เมื่อฉันย้ายไปที่ amazon ec2 เพื่อทำงานแบบเดียวกันฉันได้รับข้อผิดพลาด: Error: cannot allocate vector of size 5.4 Gb Execution halted ฉันใช้c3.4xlargeประเภทอินสแตนซ์ดังนั้นมันจึงค่อนข้างอ้วน ไม่มีใครรู้วิธีแก้ปัญหานี้เพื่อให้มันทำงานบนอินสแตนซ์นี้หรือไม่? ฉันชอบที่จะทราบถึงความแตกต่างของหน่วยความจำที่ทำให้เกิดปัญหานี้เฉพาะในอินสแตนซ์ ec2 เท่านั้นและไม่ได้อยู่ในแล็ปท็อปของฉัน (โปรเซสเซอร์ X OS 10.9.5 2.7 GHz Intel Core i7; หน่วยความจำ 16 GB 1600 MHz DDR3) ขอบคุณ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.