คำถามติดแท็ก ensemble

ในแมชชีนเลิร์นนิงเมธอดทั้งชุดจะรวมอัลกอริทึมต่างๆเข้าด้วยกันเพื่อทำการทำนาย การบรรจุถุงการเพิ่มและการซ้อนเป็นตัวอย่างบางส่วน

4
ระเบียบวิธีการป่าแบบสุ่มสามารถนำไปใช้กับการถดถอยเชิงเส้นได้หรือไม่?
ป่าสุ่มทำงานโดยการสร้างกลุ่มของต้นไม้การตัดสินใจที่ต้นไม้แต่ละต้นถูกสร้างขึ้นโดยใช้ตัวอย่างบูตสแตรปของข้อมูลการฝึกอบรมดั้งเดิม (ตัวอย่างของตัวแปรอินพุตและการสังเกต) สามารถใช้กระบวนการที่คล้ายกันสำหรับการถดถอยเชิงเส้นได้หรือไม่? สร้างโมเดลการถดถอยเชิงเส้น k โดยใช้ตัวอย่างบูทสแตรปแบบสุ่มสำหรับแต่ละการถดถอย k อะไรคือเหตุผลที่ไม่สร้าง "การถดถอยแบบสุ่ม" เหมือนโมเดล ขอบคุณ หากมีบางสิ่งที่ฉันเข้าใจผิดไปจากเดิมโปรดแจ้งให้เราทราบ

1
ใช้ LASSO บนฟอเรสต์แบบสุ่ม
ฉันต้องการสร้างฟอเรสต์แบบสุ่มโดยใช้กระบวนการต่อไปนี้: สร้างแผนภูมิบนตัวอย่างสุ่มของข้อมูลและคุณลักษณะโดยใช้การรับข้อมูลเพื่อกำหนดแยก ยุติโหนดลีฟหากมันเกินความลึกที่กำหนดไว้ล่วงหน้าหรือการแยกใด ๆ จะส่งผลให้การนับใบไม้น้อยกว่าค่าต่ำสุดที่กำหนดไว้ล่วงหน้า แทนที่จะกำหนดเลเบลคลาสสำหรับแต่ละแผนผังกำหนดสัดส่วนของคลาสในโหนดลีฟ หยุดการสร้างต้นไม้หลังจากสร้างหมายเลขที่กำหนดไว้ล่วงหน้าแล้ว สิ่งนี้ทำให้กระบวนการป่าสุ่มแบบดั้งเดิมมีสองวิธี หนึ่งจะใช้ต้นไม้ที่ถูกตัดแต่งที่กำหนดสัดส่วนมากกว่าฉลากชั้น และสองเกณฑ์หยุดคือจำนวนต้นไม้ที่กำหนดไว้ล่วงหน้าแทนที่จะเป็นค่าประมาณข้อผิดพลาดบางส่วน คำถามของฉันคือ: สำหรับกระบวนการข้างต้นที่ส่งออกต้นไม้ N แล้วฉันสามารถใส่แบบจำลองโดยใช้การถดถอยโลจิสติกพร้อมการเลือก LASSO ได้หรือไม่? ใครบ้างมีประสบการณ์ที่เหมาะสมกับตัวจําแนกฟอเรสต์แบบสุ่มและการประมวลผลหลังด้วย LASSO โลจิสติกส์หรือไม่? เฟรมเวิร์ก ISLE กล่าวถึงการใช้ LASSO เป็นขั้นตอนหลังการประมวลผลสำหรับปัญหาการถดถอย แต่ไม่ใช่ปัญหาการจำแนกประเภท นอกจากนี้ฉันไม่ได้รับผลลัพธ์ที่เป็นประโยชน์เมื่อ googling "Random forest lasso"

1
ทำไมไม่ใช้การเรียนทั้งมวลเสมอไป
สำหรับฉันแล้วดูเหมือนว่าการเรียนรู้ทั้งมวล WILL จะให้ประสิทธิภาพการทำนายที่ดีกว่าเสมอโดยมีเพียงสมมติฐานการเรียนรู้เดียว ดังนั้นทำไมเราไม่ใช้พวกเขาตลอดเวลา? ฉันเดาว่าอาจเป็นเพราะข้อ จำกัด การคำนวณ? (ถึงอย่างนั้นเราก็ใช้ผู้ทำนายที่อ่อนแอดังนั้นฉันไม่รู้)

6
แหล่งข้อมูลสำหรับการเรียนรู้วิธีการใช้วิธีการทั้งมวล
ฉันเข้าใจในทางทฤษฎี (เรียงลำดับ) ว่าพวกเขาจะทำงานอย่างไร แต่ฉันไม่แน่ใจว่าจะดำเนินการอย่างไรโดยใช้วิธีการรวมกลุ่ม (เช่นการออกเสียงลงคะแนนการผสมน้ำหนัก ฯลฯ ) แหล่งข้อมูลที่ดีสำหรับการใช้วิธีการทั้งมวลคืออะไร มีทรัพยากรเฉพาะเกี่ยวกับการนำไปใช้ใน Python หรือไม่? แก้ไข: เพื่อให้ชัดเจนขึ้นจากการอภิปรายในความคิดเห็นฉันไม่ได้มองหาอัลกอริทึมทั้งมวลเช่น randomForest เป็นต้น แต่ฉันสงสัยว่าคุณจะรวมการจำแนกประเภทที่แตกต่างจากอัลกอริทึมที่แตกต่างกันได้อย่างไร ตัวอย่างเช่นสมมติว่ามีคนใช้การถดถอยแบบลอจิสติก SVM และวิธีการอื่นในการทำนายระดับการสังเกตการณ์ เป็นวิธีที่ดีที่สุดในการไปเกี่ยวกับการประเมินที่ดีที่สุดของชั้นเรียนตามการคาดการณ์เหล่านี้คืออะไร?

2
มีปัญหาทางทฤษฎีเกี่ยวกับค่าสัมประสิทธิ์การถดถอยเฉลี่ยเพื่อสร้างแบบจำลองหรือไม่?
ฉันต้องการสร้างแบบจำลองการถดถอยซึ่งเป็นค่าเฉลี่ยของแบบจำลอง OLS หลายตัวโดยแต่ละแบบจะอิงตามส่วนย่อยของข้อมูลทั้งหมด แนวคิดเบื้องหลังนี้อ้างอิงจากบทความนี้ ฉันสร้าง k เท่าและสร้างแบบจำลอง k OLS แต่ละอันบนข้อมูลโดยไม่มีการพับหนึ่งครั้ง ฉันเฉลี่ยค่าสัมประสิทธิ์การถดถอยเพื่อให้ได้แบบจำลองขั้นสุดท้าย สิ่งนี้ทำให้ฉันรู้สึกคล้ายกับบางอย่างเช่นการถดถอยของป่าแบบสุ่มซึ่งต้นไม้การถดถอยจำนวนมากถูกสร้างและเฉลี่ย อย่างไรก็ตามประสิทธิภาพของแบบจำลอง OLS โดยเฉลี่ยดูเหมือนจะแย่กว่าการสร้างแบบจำลอง OLS เพียงตัวเดียวบนข้อมูลทั้งหมด คำถามของฉันคือ: มีเหตุผลทางทฤษฎีว่าทำไมค่าเฉลี่ยหลายรุ่น OLS ผิดหรือไม่พึงประสงค์? เราคาดหวังว่าค่าเฉลี่ยของ OLS หลายรุ่นเพื่อลดการ overfitting หรือไม่ ด้านล่างเป็นตัวอย่าง R #Load and prepare data library(MASS) data(Boston) trn <- Boston[1:400,] tst <- Boston[401:nrow(Boston),] #Create function to build k averaging OLS model lmave <- …

3
แบบจำลองอนุกรมเวลาทั้งหมด
ฉันต้องทำการพยากรณ์อนุกรมเวลาโดยอัตโนมัติและฉันไม่ทราบล่วงหน้าเกี่ยวกับคุณลักษณะของซีรี่ส์เหล่านั้น (ฤดูกาล, แนวโน้ม, เสียง, ฯลฯ ) เป้าหมายของฉันคือไม่ได้แบบที่ดีที่สุดเท่าที่จะเป็นไปได้สำหรับแต่ละซีรี่ย์ แต่เพื่อหลีกเลี่ยงโมเดลที่แย่มาก กล่าวอีกนัยหนึ่งการได้รับข้อผิดพลาดเล็ก ๆ น้อย ๆ ทุกครั้งไม่ใช่ปัญหา แต่จะได้รับข้อผิดพลาดใหญ่ ๆ เป็นครั้งคราว ฉันคิดว่าฉันสามารถทำสิ่งนี้ได้โดยการรวมโมเดลที่คำนวณด้วยเทคนิคที่แตกต่างกัน นั่นคือแม้ว่า ARIMA จะเป็นวิธีที่ดีที่สุดสำหรับซีรีส์หนึ่ง แต่มันอาจจะไม่ดีที่สุดสำหรับซีรีย์อื่น เช่นเดียวกับการปรับให้เรียบแบบเอกซ์โพเนนเชียล อย่างไรก็ตามถ้าฉันรวมโมเดลหนึ่งจากแต่ละเทคนิคแม้ว่าหนึ่งโมเดลจะไม่ดีนัก แต่อีกรุ่นจะนำค่าประมาณมาใกล้เคียงกับมูลค่าที่แท้จริงมากขึ้น เป็นที่ทราบกันดีว่า ARIMA ใช้งานได้ดีกว่าสำหรับซีรีย์ที่มีพฤติกรรมดีในระยะยาวในขณะที่การปรับให้เรียบแบบเอ็กซ์โปเนนเชียลนั้นดูโดดเด่นด้วยซีรีย์ที่มีเสียงรบกวนระยะสั้น ความคิดของฉันคือการรวมโมเดลที่สร้างจากทั้งสองเทคนิคเพื่อให้ได้การคาดการณ์ที่มีประสิทธิภาพยิ่งขึ้น อาจมีหลายวิธีในการรวมโมเดลเหล่านั้น หากนี่เป็นวิธีการที่ดีฉันจะรวมมันอย่างไร ค่าเฉลี่ยของการคาดการณ์อย่างง่ายคือตัวเลือก แต่บางทีฉันอาจได้การคาดการณ์ที่ดีกว่าถ้าฉันให้น้ำหนักค่าเฉลี่ยตามแบบวัดความดีของแบบจำลอง อะไรคือการรักษาความแปรปรวนเมื่อรวมตัวแบบ?

1
การเรียนรู้ทั้งมวล: ทำไม Model Stacking จึงมีประสิทธิภาพ
เมื่อเร็ว ๆ นี้ฉันเริ่มสนใจการวางโมเดลเป็นรูปแบบของการเรียนรู้ทั้งมวล โดยเฉพาะอย่างยิ่งฉันได้ทดลองกับชุดของเล่นบางอย่างสำหรับปัญหาการถดถอย ฉันได้ใช้งานตัวแยกระดับ "ระดับ 0" เป็นรายบุคคลโดยเก็บการคาดการณ์ผลลัพธ์ของ regressor แต่ละอันไว้เป็นคุณสมบัติใหม่สำหรับ "meta-regressor" เพื่อใช้เป็นอินพุตและพอดีกับ meta-regressor นี้กับคุณสมบัติใหม่เหล่านี้ (การคาดคะเนจากระดับ 0 regressors) ฉันรู้สึกประหลาดใจอย่างยิ่งที่ได้เห็นการปรับปรุงที่เหนือกว่าของ regressors ส่วนบุคคลเมื่อทำการทดสอบ meta-regressor กับชุดการตรวจสอบความถูกต้อง ดังนั้นนี่คือคำถามของฉัน: ทำไมการวางแบบจำลองจึงมีประสิทธิภาพ โดยสังเขปฉันคาดหวังว่ารูปแบบที่ทำการวางซ้อนจะทำงานได้ไม่ดีเนื่องจากดูเหมือนว่าจะมีการแสดงคุณสมบัติที่ไม่ดีเมื่อเทียบกับรุ่นระดับ 0 แต่ละตัว นั่นคือถ้าฉันฝึก 3 ระดับ 0 regressors บนชุดข้อมูลที่มีคุณสมบัติ 20 รายการและใช้การคาดคะเนระดับ 0 regressors เหล่านี้เพื่อป้อนข้อมูลให้กับ meta-regressor ของฉันนี่หมายความว่า meta-regressor ของฉันมีเพียง 3 คุณสมบัติในการเรียนรู้จาก ดูเหมือนว่ามีการเข้ารหัสข้อมูลเพิ่มเติมในคุณลักษณะดั้งเดิม 20 ประการที่รีจีสเตอร์ระดับ 0 มีไว้สำหรับการฝึกอบรมมากกว่าฟีเจอร์เอาต์พุต 3 …

3
จำกัด เพียงวิธีการรวมวงดนตรีที่ใช้ต้นไม้ในปัญหาเล็ก ๆ และปัญหาใหญ่ p?
วิธีการทั้งมวลของต้นไม้เช่น Random Forest และอนุพันธ์ถัดมา (เช่นป่าที่มีเงื่อนไข) ซึ่งล้วนเป็นประโยชน์ในสิ่งที่เรียกว่าปัญหา "small n , large p " เพื่อระบุความสำคัญของตัวแปรที่เกี่ยวข้อง ที่จริงเรื่องนี้ดูเหมือนจะเป็นจริง แต่คำถามของฉันคือความสามารถนี้จะนำไปได้ไกลแค่ไหน? เราสามารถมีข้อสังเกตได้ 30 ข้อและตัวแปร 100 ตัว? อะไรคือจุดแตกหักของวิธีการดังกล่าวและมีกฎที่เหมาะสมของหัวแม่มือที่มีอยู่? ฉันต้องการและจะยอมรับคำตอบที่ได้รับการสนับสนุนจากลิงก์ไปยังหลักฐานจริง (ไม่ใช่การคาดเดา) โดยใช้ชุดข้อมูลจำลองหรือชุดข้อมูลจริง ฉันไม่ได้พบมากในหลัง ( ที่นี่และที่นี่) ดังนั้นความคิด / คำแนะนำของคุณ / (ในหัวข้อ) คำแนะนำการอ้างอิงยินดีต้อนรับมากที่สุด!

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.