สถิติและข้อมูลขนาดใหญ่ bagging

7

การบรรจุถุงการส่งเสริมและการซ้อนในการเรียนรู้ของเครื่อง

ความเหมือนและความแตกต่างระหว่าง 3 วิธีนี้คืออะไร: บรรจุถุง, ส่งเสริม เก็บซ้อน? อันไหนดีที่สุด? และทำไม? คุณสามารถยกตัวอย่างให้ฉันได้ไหม

245 machine-learning boosting ensemble bagging model-averaging

5

ฟอเรสต์แบบสุ่มเป็นอัลกอริธึมการส่งเสริมหรือไม่

คำนิยามสั้น ๆ ของการส่งเสริม : ชุดผู้เรียนที่อ่อนแอสามารถสร้างผู้เรียนที่เข้มแข็งเพียงคนเดียวได้หรือไม่? ผู้เรียนที่อ่อนแอถูกกำหนดให้เป็นตัวจําแนกซึ่งมีความสัมพันธ์เพียงเล็กน้อยกับการจัดหมวดหมู่ที่แท้จริง (มันสามารถติดป้ายตัวอย่างที่ดีกว่าการคาดเดาแบบสุ่ม) คำจำกัดความโดยย่อของRandom Forest : ป่าสุ่มเติบโตต้นไม้จัดประเภทจำนวนมาก ในการจัดประเภทวัตถุใหม่จากอินพุตเวกเตอร์ให้ใส่เวกเตอร์อินพุตลงต้นไม้แต่ละต้นในป่า ต้นไม้แต่ละต้นให้การจำแนกประเภทและเราพูดว่าต้นไม้ "โหวต" สำหรับชั้นเรียนนั้น ป่าเลือกการจำแนกที่มีคะแนนมากที่สุด (เหนือต้นไม้ทั้งหมดในป่า) อีกคำนิยามสั้น ๆ ของป่าสุ่ม : ฟอเรสต์แบบสุ่มเป็นตัวประมาณเมตาที่เหมาะกับตัวจัดประเภทต้นไม้ตัดสินใจจำนวนมากบนตัวอย่างย่อยต่างๆของชุดข้อมูลและใช้ค่าเฉลี่ยเพื่อปรับปรุงความแม่นยำในการทำนายและควบคุมการปรับให้เหมาะสม ตามที่ฉันเข้าใจ Random Forest เป็นอัลกอริธึมการเพิ่มประสิทธิภาพซึ่งใช้ต้นไม้เป็นตัวแยกประเภทที่อ่อนแอ ฉันรู้ว่ามันยังใช้เทคนิคอื่น ๆ และปรับปรุงให้ดีขึ้น มีใครบางคนแก้ไขฉันว่า Random Forest ไม่ใช่อัลกอริธึมการส่งเสริมใช่หรือไม่ ใครบางคนสามารถอธิบายอย่างละเอียดเกี่ยวกับเรื่องนี้ทำไม Random Forest ไม่ได้เป็นอัลกอริทึมการส่งเสริม

51 machine-learning random-forest boosting bagging

2

นี่เป็นวิธีการถดถอยที่ล้ำสมัยหรือไม่?

ฉันได้ติดตามการแข่งขัน Kaggle มาเป็นเวลานานและฉันได้ตระหนักว่ากลยุทธ์การชนะจำนวนมากเกี่ยวข้องกับการใช้ "threes ใหญ่" อย่างน้อยหนึ่งอย่าง: การใส่ถุงการส่งเสริมและการซ้อน สำหรับการถดถอยแทนที่จะมุ่งเน้นไปที่การสร้างแบบจำลองการถดถอยที่ดีที่สุดที่เป็นไปได้การสร้างแบบจำลองการถดถอยหลายแบบเช่นการถดถอยเชิงเส้นแบบทั่วไป (ทั่วไป) การสุ่มป่า KNN NN และ SVM และการผสมผสานผลลัพธ์เป็นวิธีที่สมเหตุสมผล - ดำเนินการแต่ละวิธีเป็นจำนวนมากครั้ง แน่นอนความเข้าใจที่มั่นคงของแต่ละวิธีคือกุญแจสำคัญและเรื่องราวที่ใช้งานง่ายสามารถบอกได้ตามแบบจำลองการถดถอยเชิงเส้น แต่ฉันสงสัยว่านี่เป็นวิธีการที่ทันสมัยเพื่อให้ได้ผลลัพธ์ที่ดีที่สุดหรือไม่

33 predictive-models boosting bagging stacking model-averaging

2

“ ขนาดโหนด” หมายถึงอะไรในป่าสุ่ม

ฉันไม่เข้าใจความหมายของขนาดโหนด ฉันรู้ว่าโหนดการตัดสินใจคืออะไร แต่ไม่ใช่ขนาดโหนดอะไร

20 machine-learning random-forest bagging

3

เมื่อใดที่ฉันไม่ควรใช้ตัวจําแนกทั้งหมดของ ensemble

โดยทั่วไปแล้วในปัญหาการจำแนกประเภทที่เป้าหมายคือการทำนายการเป็นสมาชิกคลาสนอกกลุ่มตัวอย่างได้อย่างถูกต้องเมื่อใดฉันจึงไม่ควรใช้ตัวจําแนก ensemble คำถามนี้เกี่ยวข้องกับทำไมไม่ใช้การเรียนรู้ทั้งมวลเสมอไป . คำถามนั้นถามว่าทำไมเราไม่ใช้วงดนตรีตลอดเวลา ฉันต้องการที่จะรู้ว่ามีบางกรณีที่วงดนตรีเป็นที่รู้กันว่าแย่กว่านี้ (ไม่ใช่แค่ "ไม่ดีขึ้นและเสียเวลา") มากกว่ากลุ่มที่ไม่ใช่ทั้งมวล และโดย "ensemble ลักษณนาม" ฉันหมายถึงตัวแยกประเภทเช่น AdaBoost และฟอเรสต์แบบสุ่มโดยเฉพาะซึ่งตรงกันข้ามกับเครื่องเวกเตอร์สนับสนุนแบบม้วนของคุณเอง

17 classification boosting ensemble bagging

1

อะไรรับประกันทางทฤษฎีของการบรรจุถุง

ฉันได้ยิน (โดยประมาณ) ว่า: การห่อเป็นเทคนิคที่ช่วยลดความแปรปรวนของอัลกอริทึมตัวทำนาย / ตัวประมาณ / การเรียนรู้ อย่างไรก็ตามฉันไม่เคยเห็นหลักฐานทางคณิตศาสตร์อย่างเป็นทางการของข้อความนี้ ไม่มีใครรู้ว่าทำไมสิ่งนี้ถึงเป็นจริงในเชิงคณิตศาสตร์? ดูเหมือนว่าจะเป็นความจริงที่เป็นที่ยอมรับ / เป็นที่รู้จักอย่างกว้างขวางซึ่งฉันคาดหวังว่าจะมีการอ้างอิงโดยตรงกับสิ่งนี้ ฉันจะแปลกใจถ้าไม่มี นอกจากนี้ไม่มีใครรู้ว่าสิ่งนี้มีผลกระทบต่อความลำเอียง? มีการรับรองทางทฤษฎีอื่น ๆ เกี่ยวกับวิธีการบรรจุถุงที่ทุกคนรู้และคิดว่ามีความสำคัญและต้องการแบ่งปันหรือไม่

17 machine-learning mathematical-statistics bagging

1

การส่งเสริมและห่อต้นไม้ (XGBoost, LightGBM)

มีโพสต์บล็อกมากมายวิดีโอ YouTube และอื่น ๆ เกี่ยวกับแนวคิดของการห่อ หรือ เพิ่มต้นไม้ ความเข้าใจทั่วไปของฉันคือรหัสหลอกสำหรับแต่ละคือ: บรรจุถุง: นำตัวอย่างแบบสุ่มจำนวน N% ของตัวอย่างและ y% ของฟีเจอร์ ปรับโมเดลของคุณ (เช่นแผนผังการตัดสินใจ) ในแต่ละ N ทำนายผลด้วยแต่ละ N เฉลี่ยการคาดการณ์เพื่อให้ได้คำทำนายสุดท้าย การส่งเสริมการ: ปรับโมเดลของคุณ (เช่นแผนผังการตัดสินใจ) กับข้อมูล รับส่วนที่เหลือ พอดีกับโมเดลของคุณกับของเหลือ ไปที่ 2 เพื่อเพิ่มรอบ N การทำนายขั้นสุดท้ายคือผลรวมถ่วงน้ำหนักของเครื่องทำนายลำดับ ฉันจะขอชี้แจงความเข้าใจของฉันด้านบน แต่คำถามที่ฉันตั้งใจไว้มีดังนี้: ทั้ง XGBoost และ LightGBM มี params ที่อนุญาตให้ใส่ถุงได้ แอปพลิเคชันไม่ได้บรรจุถุงหรือเพิ่มประสิทธิภาพ (ซึ่งเป็นสิ่งที่ทุกโพสต์ในบล็อกพูดถึง) แต่เป็นการบรรจุและเพิ่มประสิทธิภาพ รหัสหลอกสำหรับสถานที่และเวลาที่รวมถุงและการเพิ่มกำลังเกิดขึ้นคืออะไร? ฉันคาดว่ามันจะเป็น "ต้นไม้ที่ถูกกระตุ้นให้มีต้นไม้เพิ่มขึ้น" แต่ดูเหมือนว่ามันจะเป็น ความแตกต่างดูเหมือนมาก ต้นไม้ที่ได้รับการเสริมถุง: …

17 cart boosting xgboost bagging

1

วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht

ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

16 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

2

ทำไมฟังก์ชั่น bootstrap ของ scikit-Learn จึงทำการทดสอบตัวอย่างอีกครั้ง

เมื่อใช้ bootstrapping สำหรับการประเมินแบบจำลองฉันมักคิดเสมอว่าตัวอย่างถุงนอกถูกใช้โดยตรงเป็นชุดทดสอบ อย่างไรก็ตามสิ่งนี้ดูเหมือนจะไม่เป็นกรณีสำหรับแนวทางการเรียนรู้แบบ Scikit ที่เลิก เรียนBootstrapซึ่งดูเหมือนว่าจะสร้างชุดการทดสอบจากการวาดภาพโดยการแทนที่จากชุดย่อยข้อมูลนอกถุง อะไรคือเหตุผลเชิงสถิติที่อยู่เบื้องหลังสิ่งนี้? มีสถานการณ์ที่เฉพาะเจาะจงซึ่งเทคนิคนี้ดีกว่าเพียงแค่การประเมินตัวอย่างนอกหรือในทางกลับกัน?

15 cross-validation bootstrap random-forest scikit-learn bagging

1

ขั้นตอนวิธีการบรรจุถุงใดที่สืบทอดมาจากป่าสุ่ม

สำหรับการเพิ่มอัลกอริธึมฉันจะบอกว่าพวกมันมีวิวัฒนาการค่อนข้างดี ในช่วงต้นปี 1995 AdaBoost เปิดตัวหลังจากนั้นไม่นานมันก็เป็น Gradient Boosting Machine (GBM) เมื่อเร็ว ๆ นี้มีการเปิดตัว XGBoost ราว ๆ ปี 2015 ซึ่งมีความถูกต้องจัดการกับการมีน้ำหนักเกินและเป็นผู้ชนะการแข่งขัน Kaggle หลายครั้ง ในปี 2560 Microsoft ได้เปิดตัว LightGBM ซึ่งมีเวลาฝึกอบรมที่ต่ำกว่าอย่างมากเมื่อเทียบกับ XGBoost Yandex ยังได้รับการแนะนำให้รู้จักกับ CatBoost สำหรับการจัดการคุณสมบัติที่เป็นหมวดหมู่ ป่าสุ่มถูกนำมาใช้ในต้นปี 2000 แต่มีผู้สืบทอดที่สมควรได้รับมันหรือไม่? ฉันคิดว่าถ้าอัลกอริทึมการห่อที่ดีกว่า Random Forest มีอยู่ (ซึ่งสามารถนำไปใช้ในทางปฏิบัติได้ง่าย) มันจะได้รับความสนใจในสถานที่เช่น Kaggle นอกจากนี้ทำไมการส่งเสริมให้กลายเป็นเทคนิควงดนตรีที่ได้รับความนิยมมากขึ้นเป็นเพราะคุณสามารถสร้างต้นไม้น้อยลงสำหรับการทำนายที่ดีที่สุด?

14 random-forest boosting bagging

5

อัลกอริธึมป่าไม้และต้นไม้ตัดสินใจแบบสุ่ม

ป่าสุ่มคือชุดของต้นไม้ตัดสินใจตามแนวคิดการบรรจุถุง เมื่อเราย้ายจากต้นไม้ตัดสินใจหนึ่งไปสู่ต้นไม้ตัดสินใจถัดไปข้อมูลที่เรียนรู้จากต้นไม้ตัดสินใจสุดท้ายจะเลื่อนไปข้างหน้าอย่างไร เพราะตามความเข้าใจของฉันไม่มีอะไรเหมือนแบบฝึกที่ถูกสร้างขึ้นสำหรับต้นไม้การตัดสินใจทุกครั้งและจากนั้นโหลดก่อนต้นไม้การตัดสินใจครั้งต่อไปเริ่มเรียนรู้จากข้อผิดพลาดที่ผิดประเภท แล้วมันทำงานอย่างไร

14 machine-learning random-forest cart bagging

3

ป่าสุ่มและการส่งเสริมพารามิเตอร์หรือไม่ใช่พารามิเตอร์หรือไม่

จากการอ่านการสร้างแบบจำลองทางสถิติที่ยอดเยี่ยม: ทั้งสองวัฒนธรรม (Breiman 2001)เราสามารถยึดความแตกต่างทั้งหมดระหว่างแบบจำลองทางสถิติแบบดั้งเดิม (เช่นการถดถอยเชิงเส้น) และอัลกอริทึมการเรียนรู้ของเครื่องจักร (เช่นการห่อป่าแบบสุ่ม Breiman วิพากษ์วิจารณ์แบบจำลองข้อมูล (พารามิเตอร์) เพราะพวกเขาอยู่บนพื้นฐานของข้อสันนิษฐานว่าการสังเกตนั้นถูกสร้างขึ้นโดยแบบจำลองที่เป็นทางการซึ่งเป็นที่รู้จักซึ่งกำหนดโดยนักสถิติซึ่งอาจเลียนแบบธรรมชาติได้ไม่ดี ในทางตรงกันข้าม ML algos จะไม่ถือว่าแบบจำลองที่เป็นทางการใด ๆ และเรียนรู้การเชื่อมโยงโดยตรงระหว่างตัวแปรอินพุตและเอาต์พุตจากข้อมูล ฉันตระหนักว่าบรรจุถุง / RF และการส่งเสริมการนอกจากนี้ยังมีการจัดเรียงของพารา: ยกตัวอย่างเช่นntree , mtryใน RF, อัตราการเรียนรู้ , ส่วนถุง , ซับซ้อนต้นไม้ใน Stochastic ไล่โทนสีต้นไม้เพิ่มขึ้นมีการปรับจูนทุกพารามิเตอร์ นอกจากนี้เรายังประมาณค่าพารามิเตอร์เหล่านี้จากข้อมูลเนื่องจากเราใช้ข้อมูลเพื่อค้นหาค่าที่ดีที่สุดของพารามิเตอร์เหล่านี้ ดังนั้นความแตกต่างคืออะไร? RF และ Boosted Trees เป็นโมเดลพาราเมตริกหรือไม่?

13 machine-learning data-mining random-forest boosting bagging

1

ทำไมไม่ใช้การเรียนทั้งมวลเสมอไป

สำหรับฉันแล้วดูเหมือนว่าการเรียนรู้ทั้งมวล WILL จะให้ประสิทธิภาพการทำนายที่ดีกว่าเสมอโดยมีเพียงสมมติฐานการเรียนรู้เดียว ดังนั้นทำไมเราไม่ใช้พวกเขาตลอดเวลา? ฉันเดาว่าอาจเป็นเพราะข้อ จำกัด การคำนวณ? (ถึงอย่างนั้นเราก็ใช้ผู้ทำนายที่อ่อนแอดังนั้นฉันไม่รู้)

13 boosting ensemble bagging

2

ทำไมต้นไม้ที่ถูกถุง / ต้นไม้ป่าสุ่มมีอคติสูงกว่าต้นไม้ตัดสินใจเดี่ยว?

หากเราพิจารณาแผนภูมิการตัดสินใจที่โตเต็มที่ (เช่นแผนผังการตัดสินใจที่ไม่มีการแบ่ง) มันมีความแปรปรวนสูงและมีอคติต่ำ การบรรจุถุงและป่าสุ่มใช้โมเดลความแปรปรวนสูงเหล่านี้และรวมเข้าด้วยกันเพื่อลดความแปรปรวนและเพิ่มความแม่นยำในการทำนาย ทั้งการบรรจุถุงและการสุ่มป่าใช้การสุ่มตัวอย่าง Bootstrap และตามที่อธิบายไว้ใน "องค์ประกอบของการเรียนรู้ทางสถิติ" สิ่งนี้จะเพิ่มความลำเอียงในต้นไม้ต้นเดียว นอกจากนี้เนื่องจากวิธีการสุ่มฟอเรสต์ จำกัด ตัวแปรที่อนุญาตให้แยกในแต่ละโหนดอคติสำหรับฟอเรสต์แบบสุ่มเดียวจะเพิ่มมากขึ้น ดังนั้นความแม่นยำในการทำนายจะเพิ่มขึ้นหากการเพิ่มขึ้นของอคติของต้นไม้ต้นเดียวในการบรรจุหีบห่อและการสุ่มป่าไม่ได้ "เกินความจริง" การลดความแปรปรวน สิ่งนี้นำฉันไปสู่คำถามสองข้อต่อไปนี้: 1) ฉันรู้ว่าด้วยการสุ่มตัวอย่าง bootstrap เราจะ (เกือบทุกครั้ง) มีการสังเกตแบบเดียวกันในตัวอย่าง bootstrap แต่ทำไมสิ่งนี้นำไปสู่การเพิ่มอคติของต้นไม้แต่ละต้นในป่าที่ห่อหุ้ม / สุ่ม 2) นอกจากนี้ทำไมข้อ จำกัด ของตัวแปรที่มีให้แยกในแต่ละการแยกทำให้มีอคติสูงกว่าในต้นไม้แต่ละต้นในป่าสุ่ม

11 variance random-forest cart bias bagging

1

การทำนายความน่าจะเป็นป่าแบบสุ่มเทียบกับคะแนนโหวตส่วนใหญ่

Scikit เรียนรู้ดูเหมือนว่าจะใช้การทำนายความน่าจะเป็นแทนการลงคะแนนเสียงข้างมากสำหรับเทคนิคการรวมตัวแบบโดยไม่มีการอธิบายว่าทำไม (1.9.2.1. ป่าสุ่ม) มีคำอธิบายที่ชัดเจนว่าเพราะเหตุใด นอกจากนี้ยังมีบทความหรือบทความทบทวนที่ดีสำหรับเทคนิคการรวมตัวแบบต่างๆที่สามารถนำมาใช้สำหรับการบรรจุถุงแบบฟอเรสต์? ขอบคุณ!

10 random-forest python scikit-learn aggregation bagging

คำถามติดแท็ก bagging