สถิติและข้อมูลขนาดใหญ่ boosting

7

การบรรจุถุงการส่งเสริมและการซ้อนในการเรียนรู้ของเครื่อง

ความเหมือนและความแตกต่างระหว่าง 3 วิธีนี้คืออะไร: บรรจุถุง, ส่งเสริม เก็บซ้อน? อันไหนดีที่สุด? และทำไม? คุณสามารถยกตัวอย่างให้ฉันได้ไหม

245 machine-learning boosting ensemble bagging model-averaging

2

ต้นไม้ไล่ระดับสีไล่ระดับเทียบกับป่าสุ่ม

การส่งเสริมต้นไม้ไล่โทนสีตามที่เสนอโดยฟรีดแมนใช้ต้นไม้ตัดสินใจเป็นผู้เรียนพื้นฐาน ฉันสงสัยว่าเราควรสร้างแผนภูมิการตัดสินใจพื้นฐานที่ซับซ้อนที่สุดเท่าที่จะเป็นไปได้ (โตเต็มที่) หรือง่ายกว่านี้หรือไม่? มีคำอธิบายสำหรับการเลือกหรือไม่? ป่าสุ่มเป็นอีกวิธีการหนึ่งที่ใช้ต้นไม้ตัดสินใจเป็นฐานในการเรียนรู้ จากความเข้าใจของฉันเรามักใช้ต้นไม้ตัดสินใจที่โตเต็มที่ในการทำซ้ำแต่ละครั้ง ฉันถูกไหม?

110 machine-learning random-forest cart boosting ensemble

4

วิธีการปรับค่าพารามิเตอร์ไฮเปอร์ของต้น xgboost

ฉันมีข้อมูลที่ไม่สมดุลในชั้นเรียน & ฉันต้องการปรับแต่งพารามิเตอร์หลายมิติของปอยผมที่เพิ่มขึ้นโดยใช้ xgboost คำถาม มีเทียบเท่าของ gridsearchcv หรือ randomsearchcv สำหรับ xgboost? หากไม่ใช่วิธีการที่แนะนำให้ปรับพารามิเตอร์ของ xgboost คืออะไร?

68 machine-learning cross-validation xgboost boosting

5

ฟอเรสต์แบบสุ่มเป็นอัลกอริธึมการส่งเสริมหรือไม่

คำนิยามสั้น ๆ ของการส่งเสริม : ชุดผู้เรียนที่อ่อนแอสามารถสร้างผู้เรียนที่เข้มแข็งเพียงคนเดียวได้หรือไม่? ผู้เรียนที่อ่อนแอถูกกำหนดให้เป็นตัวจําแนกซึ่งมีความสัมพันธ์เพียงเล็กน้อยกับการจัดหมวดหมู่ที่แท้จริง (มันสามารถติดป้ายตัวอย่างที่ดีกว่าการคาดเดาแบบสุ่ม) คำจำกัดความโดยย่อของRandom Forest : ป่าสุ่มเติบโตต้นไม้จัดประเภทจำนวนมาก ในการจัดประเภทวัตถุใหม่จากอินพุตเวกเตอร์ให้ใส่เวกเตอร์อินพุตลงต้นไม้แต่ละต้นในป่า ต้นไม้แต่ละต้นให้การจำแนกประเภทและเราพูดว่าต้นไม้ "โหวต" สำหรับชั้นเรียนนั้น ป่าเลือกการจำแนกที่มีคะแนนมากที่สุด (เหนือต้นไม้ทั้งหมดในป่า) อีกคำนิยามสั้น ๆ ของป่าสุ่ม : ฟอเรสต์แบบสุ่มเป็นตัวประมาณเมตาที่เหมาะกับตัวจัดประเภทต้นไม้ตัดสินใจจำนวนมากบนตัวอย่างย่อยต่างๆของชุดข้อมูลและใช้ค่าเฉลี่ยเพื่อปรับปรุงความแม่นยำในการทำนายและควบคุมการปรับให้เหมาะสม ตามที่ฉันเข้าใจ Random Forest เป็นอัลกอริธึมการเพิ่มประสิทธิภาพซึ่งใช้ต้นไม้เป็นตัวแยกประเภทที่อ่อนแอ ฉันรู้ว่ามันยังใช้เทคนิคอื่น ๆ และปรับปรุงให้ดีขึ้น มีใครบางคนแก้ไขฉันว่า Random Forest ไม่ใช่อัลกอริธึมการส่งเสริมใช่หรือไม่ ใครบางคนสามารถอธิบายอย่างละเอียดเกี่ยวกับเรื่องนี้ทำไม Random Forest ไม่ได้เป็นอัลกอริทึมการส่งเสริม

51 machine-learning random-forest boosting bagging

2

คำอธิบายที่ใช้งานง่ายของความแตกต่างระหว่างต้นไม้การไล่ระดับสีไล่โทนสี (GBM) และ Adaboost

ฉันพยายามเข้าใจความแตกต่างระหว่าง GBM และ Adaboost นี่คือสิ่งที่ฉันเข้าใจ: มีอัลกอริธึมการเพิ่มประสิทธิภาพทั้งสองซึ่งเรียนรู้จากข้อผิดพลาดของรุ่นก่อนหน้าและในที่สุดก็สร้างผลรวมถ่วงน้ำหนักของโมเดล GBM และ Adaboost ค่อนข้างคล้ายกันยกเว้นฟังก์ชั่นการสูญเสีย แต่ก็ยังเป็นเรื่องยากสำหรับฉันที่จะเข้าใจความแตกต่างระหว่างพวกเขา ใครสามารถให้คำอธิบายแบบหยั่งรู้ได้

48 boosting gbm adaboost

2

การไล่ระดับสีเพื่อเพิ่มการถดถอยเชิงเส้น - ทำไมมันไม่ทำงาน?

ในขณะที่เรียนรู้เกี่ยวกับการไล่ระดับสีแบบค่อยเป็นค่อยไปฉันไม่เคยได้ยินข้อ จำกัด ใด ๆ เกี่ยวกับคุณสมบัติของ "ตัวจําแนกแบบอ่อน" ที่วิธีใช้ในการสร้างและสร้างแบบจําลองทั้งหมด อย่างไรก็ตามฉันไม่สามารถจินตนาการแอปพลิเคชันของ GB ที่ใช้การถดถอยเชิงเส้นและในความเป็นจริงเมื่อฉันทำการทดสอบบางอย่าง - มันไม่ทำงาน ฉันกำลังทดสอบวิธีมาตรฐานที่สุดด้วยการไล่ระดับสีของผลรวมของส่วนที่เหลือกำลังสองและการเพิ่มแบบจำลองที่ตามมาเข้าด้วยกัน ปัญหาที่เห็นได้ชัดคือส่วนที่เหลือจากแบบจำลองแรกมีประชากรในลักษณะที่ไม่มีเส้นการถดถอยให้เหมาะสมอีกต่อไป การสังเกตอีกอย่างของฉันคือผลรวมของตัวแบบการถดถอยเชิงเส้นที่ตามมาสามารถแสดงเป็นตัวแบบการถดถอยแบบเดียวได้เช่นกัน (การเพิ่มการสกัดกั้นทั้งหมดและสัมประสิทธิ์ที่สอดคล้องกัน) ดังนั้นฉันจึงไม่สามารถจินตนาการได้ว่า การสังเกตครั้งสุดท้ายคือการถดถอยเชิงเส้น (วิธีการทั่วไปมากที่สุด) ใช้ผลรวมของค่าคงที่กำลังสองเป็นฟังก์ชันการสูญเสียซึ่งเป็นค่าเดียวกับที่ GB ใช้ ฉันคิดเกี่ยวกับการลดอัตราการเรียนรู้หรือใช้เพียงชุดย่อยของตัวทำนายสำหรับการวนซ้ำแต่ละครั้ง แต่ก็ยังสามารถสรุปได้ถึงการนำเสนอแบบจำลองเดียวในที่สุดดังนั้นฉันคิดว่ามันจะไม่ทำให้ดีขึ้น สิ่งที่ฉันหายไปที่นี่? การถดถอยเชิงเส้นอย่างใดที่ไม่เหมาะสมที่จะใช้กับการไล่ระดับสีไล่โทนสี? เป็นเพราะการถดถอยเชิงเส้นใช้ผลรวมของส่วนที่เหลือกำลังสองเป็นฟังก์ชันการสูญเสียหรือไม่? มีข้อ จำกัด บางประการเกี่ยวกับตัวพยากรณ์ที่อ่อนแอเพื่อให้สามารถใช้กับการไล่ระดับสีไล่โทนสีได้หรือไม่?

35 regression machine-learning boosting ensemble gradient

2

นี่เป็นวิธีการถดถอยที่ล้ำสมัยหรือไม่?

ฉันได้ติดตามการแข่งขัน Kaggle มาเป็นเวลานานและฉันได้ตระหนักว่ากลยุทธ์การชนะจำนวนมากเกี่ยวข้องกับการใช้ "threes ใหญ่" อย่างน้อยหนึ่งอย่าง: การใส่ถุงการส่งเสริมและการซ้อน สำหรับการถดถอยแทนที่จะมุ่งเน้นไปที่การสร้างแบบจำลองการถดถอยที่ดีที่สุดที่เป็นไปได้การสร้างแบบจำลองการถดถอยหลายแบบเช่นการถดถอยเชิงเส้นแบบทั่วไป (ทั่วไป) การสุ่มป่า KNN NN และ SVM และการผสมผสานผลลัพธ์เป็นวิธีที่สมเหตุสมผล - ดำเนินการแต่ละวิธีเป็นจำนวนมากครั้ง แน่นอนความเข้าใจที่มั่นคงของแต่ละวิธีคือกุญแจสำคัญและเรื่องราวที่ใช้งานง่ายสามารถบอกได้ตามแบบจำลองการถดถอยเชิงเส้น แต่ฉันสงสัยว่านี่เป็นวิธีการที่ทันสมัยเพื่อให้ได้ผลลัพธ์ที่ดีที่สุดหรือไม่

33 predictive-models boosting bagging stacking model-averaging

1

ความแตกต่างทางคณิตศาสตร์ระหว่าง GBM, XGBoost, LightGBM, CatBoost?

มีการปรับใช้หลายรุ่นตระกูล GBDT เช่น: GBM XGBoost LightGBM Catboost อะไรคือความแตกต่างทางคณิตศาสตร์ระหว่างการใช้งานที่แตกต่างกันเหล่านี้? Catboost ดูเหมือนว่าจะมีประสิทธิภาพสูงกว่าการใช้งานอื่น ๆ แม้จะใช้เพียงพารามิเตอร์เริ่มต้นตามเครื่องหมายมาตรฐานนี้ แต่ก็ยังช้ามาก ฉันเดาว่า catboost ไม่ได้ใช้ตัวแปร dummified ดังนั้นน้ำหนักที่กำหนดให้กับตัวแปร (หมวดหมู่) แต่ละตัวนั้นมีความสมดุลมากกว่าเมื่อเปรียบเทียบกับการใช้งานอื่น ๆ ดังนั้นตัวแปรที่มีความสำคัญสูงจึงไม่มีน้ำหนักมากกว่าตัวอื่น มันช่วยให้การจัดหมวดหมู่ที่อ่อนแอ (ที่มีความสำคัญน้อย) เข้าไปในต้นไม้บางต้นซึ่งมีประสิทธิภาพที่ดีกว่า นอกจากนั้นฉันไม่มีคำอธิบายเพิ่มเติม

33 boosting xgboost

1

ความสำคัญของตัวแปรเชิงสัมพันธ์สำหรับการส่งเสริม

ฉันกำลังมองหาคำอธิบายว่าวิธีคำนวณความสำคัญของตัวแปรแบบสัมพันธ์ในต้นไม้ที่เพิ่มขึ้นแบบไล่ระดับสีซึ่งไม่ธรรมดา / ง่ายเกินไป: มาตรการจะขึ้นอยู่กับจำนวนครั้งที่ตัวแปรถูกเลือกสำหรับการแยกถ่วงน้ำหนักด้วยการปรับปรุงยกกำลังสองกับรูปแบบเป็นผลของแต่ละแยกและเฉลี่ยมากกว่าต้นไม้ทั้งหมด [ Elith และคณะ 2008, คู่มือการทำงานเพื่อเพิ่มความแข็งแกร่งให้กับต้นไม้ถดถอย ] และนั่นก็เป็นนามธรรมน้อยกว่า: ผม2J^( T) = ∑t = 1J- 1ผม2เสื้อ^1 ( vเสื้อ= j )ผมJ2^(T)=Σเสื้อ=1J-1ผมเสื้อ2^1(โวลต์เสื้อ=J)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) โดยที่การรวมอยู่เหนือโหนดที่ไม่ใช่เทอร์มินัลของโหนดทรี ,คือตัวแปรการแยกที่เชื่อมโยงกับโหนดและเป็นการปรับปรุงเชิงประจักษ์ในข้อผิดพลาดกำลังสอง เป็นผลมาจากการแยกหมายถึงโดยที่คือการตอบสนองของลูกสาวด้านซ้ายและขวาตามลำดับและเป็นจำนวนเงินที่สอดคล้องกันของน้ำหนัก J T v t t ^ i 2 t i 2 ( R l , R r ) = w l w rเสื้อเสื้อtJJJTTTโวลต์เสื้อโวลต์เสื้อv_{t}เสื้อเสื้อtผม2เสื้อ^ผมเสื้อ2^\hat{i_{t}^2}ผม2( …

33 machine-learning data-mining predictive-models cart boosting

1

แนวทางที่มีประโยชน์สำหรับพารามิเตอร์ GBM คืออะไร

แนวทางที่มีประโยชน์สำหรับการทดสอบพารามิเตอร์ (เช่นความลึกของการโต้ตอบ, minchild, อัตราตัวอย่าง ฯลฯ ) โดยใช้ GBM คืออะไร? สมมติว่าฉันมีคุณสมบัติ 70-100 ประชากร 200,000 และฉันต้องการทดสอบความลึกของการโต้ตอบที่ 3 และ 4 ชัดเจนว่าฉันต้องทำการทดสอบบางอย่างเพื่อดูว่าการรวมกันของพารามิเตอร์ใดถือตัวอย่างที่ดีที่สุด ข้อเสนอแนะเกี่ยวกับวิธีการออกแบบการทดสอบนี้?

31 r hypothesis-testing cart boosting

5

ความลึกของการโต้ตอบหมายถึงอะไรใน GBM

ฉันมีคำถามเกี่ยวกับพารามิเตอร์ความลึกของการโต้ตอบใน gbm ใน R นี่อาจเป็นคำถาม noob ซึ่งฉันต้องขออภัย แต่พารามิเตอร์ที่ฉันเชื่อว่าหมายถึงจำนวนของโหนดขั้วในต้นไม้โดยทั่วไปบ่งบอกถึงวิธี X ปฏิสัมพันธ์ระหว่างผู้ทำนายหรือไม่ แค่พยายามที่จะเข้าใจวิธีการทำงาน นอกจากนี้ฉันได้รับแบบจำลองที่แตกต่างกันมากถ้าฉันมีชุดข้อมูลที่มีตัวแปรปัจจัยสองตัวที่แตกต่างกันเมื่อเทียบกับชุดข้อมูลเดียวกันยกเว้นตัวแปรตัวประกอบสองตัวนั้นรวมกันเป็นปัจจัยเดียว (เช่นระดับ X ในปัจจัย 1, Y ระดับในปัจจัย 2) ปัจจัย X * Y) หลังมีความหมายมากกว่าเดิม ฉันคิดว่าการเพิ่มความลึกของการมีปฏิสัมพันธ์จะทำให้ความสัมพันธ์นี้ดีขึ้น

30 r machine-learning boosting gbm

1

ฟังก์ชั่นการสูญเสีย XGBoost ประมาณด้วยการขยายตัวของเทย์เลอร์

ยกตัวอย่างเช่นใช้ฟังก์ชันวัตถุประสงค์ของโมเดล XGBoost ในการวนซ้ำ 'th:tเสื้อt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(เสื้อ)=Σผม=1nℓ(Yผม,Y^ผม(เสื้อ-1)+ฉเสื้อ(xผม))+Ω(ฉเสื้อ)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) ที่เป็นฟังก์ชั่นการสูญเสียเป็น 'เอาท์พุทต้นไม้ TH และเป็นกู หนึ่งในขั้นตอนสำคัญ (มากมาย) สำหรับการคำนวณที่รวดเร็วคือการประมาณ:ℓℓ\ellftฉเสื้อf_ttเสื้อtΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), โดยที่และเป็นอนุพันธ์อันดับหนึ่งและสองของฟังก์ชันการสูญเสียgigig_ihihih_i สิ่งที่ฉันขอคือข้อโต้แย้งที่น่าเชื่อถือเพื่อทำให้เข้าใจผิดว่าเหตุใดการประมาณข้างต้นจึงทำงาน: 1) XGBoost ที่มีการประมาณด้านบนเปรียบเทียบกับ XGBoost กับฟังก์ชั่นวัตถุประสงค์ได้อย่างไร สิ่งที่น่าสนใจพฤติกรรมที่มีลำดับสูงกว่าจะหายไปในการประมาณ? 2) มันค่อนข้างยากที่จะเห็นภาพ (และขึ้นอยู่กับฟังก์ชั่นการสูญเสีย) แต่ถ้าฟังก์ชั่นการสูญเสียมีองค์ประกอบลูกบาศก์ขนาดใหญ่แล้วการประมาณอาจจะล้มเหลว มันเป็นวิธีการที่ไม่ก่อให้เกิดปัญหาสำหรับ XGBoost?

28 optimization loss-functions boosting xgboost taylor-series

3

ทำไมผู้เรียนถึงอ่อนแอ?

ดูเพิ่มเติมคำถามที่คล้ายกันใน stats.SE ในการเพิ่มอัลกอริทึมเช่นAdaBoostและLPBoostเป็นที่รู้กันว่าผู้เรียนที่ "อ่อนแอ" ที่จะรวมกันนั้นต้องทำงานได้ดีกว่าโอกาสที่จะเป็นประโยชน์จากวิกิพีเดีย: ตัวแยกประเภทที่ใช้อาจอ่อนแอ (เช่นแสดงอัตราข้อผิดพลาดที่สำคัญ) แต่ตราบใดที่ประสิทธิภาพไม่ได้สุ่ม (ทำให้เกิดข้อผิดพลาดที่อัตรา 0.5 สำหรับการจำแนกแบบไบนารี) พวกเขาจะปรับปรุงตัวแบบสุดท้าย แม้แต่ตัวแยกประเภทที่มีอัตราความผิดพลาดสูงกว่าที่คาดไว้จากตัวจําแนกแบบสุ่มจะมีประโยชน์เนื่องจากจะมีสัมประสิทธิ์เชิงลบในการรวมกันเชิงเส้นสุดท้ายของตัวจําแนกประเภท อะไรคือประโยชน์ของการใช้ความอ่อนแอเมื่อเทียบกับผู้เรียนที่แข็งแกร่ง? (เช่นทำไมไม่ส่งเสริมด้วยวิธีการเรียนรู้ "แข็งแรง" - เรามีแนวโน้มที่จะมีน้ำหนักเกินหรือไม่) มีความแข็งแรง "ดีที่สุด" สำหรับผู้เรียนที่อ่อนแอหรือไม่? และสิ่งนี้เกี่ยวข้องกับจำนวนผู้เรียนในวงดนตรีหรือไม่? มีทฤษฎีใดบ้างที่จะสำรองคำตอบสำหรับคำถามเหล่านี้

28 machine-learning theory boosting

2

การส่งเสริมทำงานอย่างไร

วิธีที่ง่ายที่สุดในการเข้าใจการส่งเสริมคืออะไร ทำไมมันไม่เพิ่มตัวแยกประเภทที่อ่อนแอมาก ๆ "เป็นอนันต์" (ความสมบูรณ์แบบ)

23 machine-learning boosting

2

เรื่อง“ พลัง” ของผู้เรียนที่อ่อนแอ

ฉันมีคำถามที่เกี่ยวข้องอย่างใกล้ชิดเกี่ยวกับผู้เรียนที่อ่อนแอในการเรียนรู้ทั้งมวล (เช่นการส่งเสริม) สิ่งนี้อาจฟังดูเป็นใบ้ แต่ประโยชน์ของการใช้ที่อ่อนแอเมื่อเทียบกับผู้เรียนที่แข็งแกร่งคืออะไร (เช่นทำไมไม่ส่งเสริมด้วยวิธีการเรียนรู้ "ที่รัดกุม") มีความแข็งแรง "ดีที่สุด" สำหรับผู้เรียนที่อ่อนแอ (เช่นในขณะที่รักษาพารามิเตอร์อื่น ๆ ทั้งหมดไว้)? มี "จุดหวาน" เมื่อพูดถึงจุดแข็งของพวกเขาหรือไม่? เราจะวัดความแข็งแกร่งของผู้เรียนที่อ่อนแอได้อย่างไรโดยเทียบกับวิธีการรวมกลุ่มที่เกิดขึ้น เราจะวัดผลประโยชน์ที่ได้จากการใช้ทั้งมวลในเชิงปริมาณได้อย่างไร เราจะเปรียบเทียบอัลกอริทึมการเรียนรู้ที่อ่อนแอหลายอย่างเพื่อตัดสินใจว่าจะใช้อันใดสำหรับวิธีการรวมวงที่กำหนดได้อย่างไร หากวิธีการของวงดนตรีที่ให้มาช่วยจำแนกลักษณนามที่อ่อนแอกว่าคนที่แข็งแกร่งเราจะบอกตัวจําแนกที่ได้รับมาว่า "แข็งแกร่งเกินไป" เพื่อให้ได้รับผลกําไรที่สําคัญเมื่อเพิ่มด้วย

22 machine-learning boosting ensemble

คำถามติดแท็ก boosting