เครื่องเพิ่มระดับความลาดชันมีเงื่อนไขใดที่มีประสิทธิภาพเหนือกว่าป่าสุ่ม

เครื่องจักรเพิ่มระดับความลาดชันของ Friedmanสามารถทำงานได้ดีกว่าป่าสุ่มของ Breimanหรือไม่? ถ้าเป็นเช่นนั้นเงื่อนไขหรือชุดข้อมูลใดที่สามารถทำให้ gbm ดีขึ้นได้?

— user22062
แหล่งที่มา

ไม่มีวิธีที่จะบอกนิรนัย; คุณต้องลอง

— bayerj

ในทางปฏิบัติแล้วการเพิ่มความเร็วสูงกว่า RF เกือบทุกครั้งถึงแม้ว่าฉันไม่รู้จริงๆว่าทำไม

— แอนทอน

@ การเรียนรู้ด้วยข้อมูลที่ไม่มีป้ายกำกับและ / หรือเสียงรบกวนของฉลากเป็นกรณีการใช้งานที่แย่มากสำหรับการส่งเสริม

— Marc Claesen

RF และ Boosting ส่วนใหญ่จะใช้สำหรับงานการเรียนรู้ภายใต้การดูแลแม้ว่าบางครั้งมันจะเป็นความจริงที่ RF สามารถใช้สำหรับการจัดกลุ่ม Adaboost มีความทนทานต่อการติดฉลากผิดมากเนื่องจากฟังก์ชั่นการสูญเสียแบบเอกซ์โพเนนเชียลซึ่งได้รับอิทธิพลจากเสียงรบกวน แต่ Stochastic Gradient Boosting ในกรณีทั่วไป

— แอนทอน

@MarcClaesen คุณช่วยดูคำถามนี้ได้ไหม?

— แอนทอน

คำตอบ:

ต่อไปนี้ให้คำอธิบายตามสาเหตุที่โดยทั่วไปการเพิ่มประสิทธิภาพสูงกว่า Random Forest ในทางปฏิบัติ แต่ฉันสนใจที่จะรู้ว่าปัจจัยอื่น ๆ ที่แตกต่างกันอาจอธิบายถึงการเพิ่มความคมชัดของ RF ในการตั้งค่าเฉพาะ

$error=bias+variance$

ในทางกลับกันการส่งเสริมการลดอคติ (โดยการเพิ่มต้นไม้ใหม่ในลำดับเพื่อที่สิ่งที่พลาดโดยต้นไม้ก่อนหน้านี้จะถูกจับ) แต่ยังแปรปรวน (โดยรวมหลายรุ่น)

ดังนั้นการส่งเสริมการลดข้อผิดพลาดทั้งสองด้านในขณะที่ RF สามารถลดข้อผิดพลาดผ่านการลดความแปรปรวน แน่นอนที่ฉันพูดอาจมีคำอธิบายอื่น ๆ เพื่อประสิทธิภาพที่ดีขึ้นของการส่งเสริมการสังเกตในทางปฏิบัติ ยกตัวอย่างเช่นหน้า 591 ของหนังสือเล่มดังกล่าวได้มีการกล่าวว่าการส่งเสริมประสิทธิภาพเหนือกว่า RF ในปัญหาทรงกลมซ้อนกันเพราะในกรณีที่เฉพาะขอบเขตการตัดสินใจที่แท้จริงคือสารเติมแต่ง (?) พวกเขารายงานด้วยว่าการส่งเสริมทำได้ดีกว่า RF สำหรับสแปมและข้อมูลที่อยู่อาศัยในแคลิฟอร์เนีย

การอ้างอิงที่พบการส่งเสริมการ RF ดีกว่าก็คือCaruana และ Niculescu-Mizil 2006 น่าเสียดายที่พวกเขารายงานผลลัพธ์ แต่อย่าพยายามอธิบายสิ่งที่ทำให้เกิด พวกเขาเปรียบเทียบตัวแยกประเภทสองตัว (และอีกมากมาย) ในปัญหาการจำแนกประเภทไบนารี 11 รายการสำหรับการวัดประสิทธิภาพ 8 แบบที่แตกต่างกัน

— แอนทอน
แหล่งที่มา

ดังที่ไบเออร์พูดมันไม่มีทางรู้ได้เลย!

ป่าสุ่มนั้นค่อนข้างง่ายต่อการสอบเทียบ: พารามิเตอร์เริ่มต้นของการใช้งานส่วนใหญ่ (R หรือ Python, ต่อตัวอย่าง) บรรลุผลลัพธ์ที่ยอดเยี่ยม

ในทางตรงกันข้ามGBMนั้นยากที่จะปรับแต่ง (ต้นไม้จำนวนมากเกินไปที่จะนำไปสู่ความพอดีความลึกสูงสุดเป็นสิ่งสำคัญอัตราการเรียนรู้และจำนวนของต้นไม้ทำหน้าที่ร่วมกัน ... ) และอีกต่อไปในการฝึกอบรม . การปรับจูนที่ดำเนินการอย่างหลวม ๆ อาจทำให้ประสิทธิภาพต่ำ

อย่างไรก็ตามจากประสบการณ์ของฉันหากคุณใช้เวลากับ GBM เพียงพอคุณมีแนวโน้มที่จะได้รับประสิทธิภาพที่ดีกว่าป่าสุ่ม

แก้ไข ทำไม GBMs จึงมีประสิทธิภาพสูงกว่าป่าสุ่ม คำตอบของแอนทอนนั้นเข้มงวดมากขึ้นนี่เป็นเพียงคำอธิบายที่เข้าใจง่าย พวกเขามีพารามิเตอร์ที่สำคัญมากขึ้น เช่นเดียวกับป่าสุ่มคุณสามารถปรับจำนวนต้นไม้และ $m$ จำนวนของตัวแปรที่ปลูกต้นไม้ แต่คุณสามารถปรับเทียบอัตราการเรียนรู้และความลึกสูงสุดได้ เมื่อคุณสังเกตแบบจำลองที่แตกต่างจากที่คุณทำกับป่าสุ่มคุณมีแนวโน้มที่จะพบสิ่งที่ดีกว่า

— RUser4512
แหล่งที่มา

A loosely performed tuning may lead to dramatic performance?ระวังการตีความผิดเพราะในภาษาอังกฤษdramaticหมายถึงดีมากเป็นพิเศษปรากฎการณ์ ฯลฯ ! ฉันเดาว่าเป็นสิ่งที่ตรงกันข้ามกับสิ่งที่คุณต้องการจะพูด ... นอกจากนี้คุณมีคำอธิบายใด ๆ ว่าทำไมการปรับแต่ง GBMs จึงดีกว่า RF? นี่เป็นคำถาม ... โดยทั่วไป

— Antoine