เครื่องจักรเพิ่มระดับความลาดชันของ Friedmanสามารถทำงานได้ดีกว่าป่าสุ่มของ Breimanหรือไม่? ถ้าเป็นเช่นนั้นเงื่อนไขหรือชุดข้อมูลใดที่สามารถทำให้ gbm ดีขึ้นได้?
เครื่องจักรเพิ่มระดับความลาดชันของ Friedmanสามารถทำงานได้ดีกว่าป่าสุ่มของ Breimanหรือไม่? ถ้าเป็นเช่นนั้นเงื่อนไขหรือชุดข้อมูลใดที่สามารถทำให้ gbm ดีขึ้นได้?
คำตอบ:
ต่อไปนี้ให้คำอธิบายตามสาเหตุที่โดยทั่วไปการเพิ่มประสิทธิภาพสูงกว่า Random Forest ในทางปฏิบัติ แต่ฉันสนใจที่จะรู้ว่าปัจจัยอื่น ๆ ที่แตกต่างกันอาจอธิบายถึงการเพิ่มความคมชัดของ RF ในการตั้งค่าเฉพาะ
ในทางกลับกันการส่งเสริมการลดอคติ (โดยการเพิ่มต้นไม้ใหม่ในลำดับเพื่อที่สิ่งที่พลาดโดยต้นไม้ก่อนหน้านี้จะถูกจับ) แต่ยังแปรปรวน (โดยรวมหลายรุ่น)
ดังนั้นการส่งเสริมการลดข้อผิดพลาดทั้งสองด้านในขณะที่ RF สามารถลดข้อผิดพลาดผ่านการลดความแปรปรวน แน่นอนที่ฉันพูดอาจมีคำอธิบายอื่น ๆ เพื่อประสิทธิภาพที่ดีขึ้นของการส่งเสริมการสังเกตในทางปฏิบัติ ยกตัวอย่างเช่นหน้า 591 ของหนังสือเล่มดังกล่าวได้มีการกล่าวว่าการส่งเสริมประสิทธิภาพเหนือกว่า RF ในปัญหาทรงกลมซ้อนกันเพราะในกรณีที่เฉพาะขอบเขตการตัดสินใจที่แท้จริงคือสารเติมแต่ง (?) พวกเขารายงานด้วยว่าการส่งเสริมทำได้ดีกว่า RF สำหรับสแปมและข้อมูลที่อยู่อาศัยในแคลิฟอร์เนีย
การอ้างอิงที่พบการส่งเสริมการ RF ดีกว่าก็คือCaruana และ Niculescu-Mizil 2006 น่าเสียดายที่พวกเขารายงานผลลัพธ์ แต่อย่าพยายามอธิบายสิ่งที่ทำให้เกิด พวกเขาเปรียบเทียบตัวแยกประเภทสองตัว (และอีกมากมาย) ในปัญหาการจำแนกประเภทไบนารี 11 รายการสำหรับการวัดประสิทธิภาพ 8 แบบที่แตกต่างกัน
ดังที่ไบเออร์พูดมันไม่มีทางรู้ได้เลย!
ป่าสุ่มนั้นค่อนข้างง่ายต่อการสอบเทียบ: พารามิเตอร์เริ่มต้นของการใช้งานส่วนใหญ่ (R หรือ Python, ต่อตัวอย่าง) บรรลุผลลัพธ์ที่ยอดเยี่ยม
ในทางตรงกันข้ามGBMนั้นยากที่จะปรับแต่ง (ต้นไม้จำนวนมากเกินไปที่จะนำไปสู่ความพอดีความลึกสูงสุดเป็นสิ่งสำคัญอัตราการเรียนรู้และจำนวนของต้นไม้ทำหน้าที่ร่วมกัน ... ) และอีกต่อไปในการฝึกอบรม . การปรับจูนที่ดำเนินการอย่างหลวม ๆ อาจทำให้ประสิทธิภาพต่ำ
อย่างไรก็ตามจากประสบการณ์ของฉันหากคุณใช้เวลากับ GBM เพียงพอคุณมีแนวโน้มที่จะได้รับประสิทธิภาพที่ดีกว่าป่าสุ่ม
แก้ไข ทำไม GBMs จึงมีประสิทธิภาพสูงกว่าป่าสุ่ม คำตอบของแอนทอนนั้นเข้มงวดมากขึ้นนี่เป็นเพียงคำอธิบายที่เข้าใจง่าย พวกเขามีพารามิเตอร์ที่สำคัญมากขึ้น เช่นเดียวกับป่าสุ่มคุณสามารถปรับจำนวนต้นไม้และจำนวนของตัวแปรที่ปลูกต้นไม้ แต่คุณสามารถปรับเทียบอัตราการเรียนรู้และความลึกสูงสุดได้ เมื่อคุณสังเกตแบบจำลองที่แตกต่างจากที่คุณทำกับป่าสุ่มคุณมีแนวโน้มที่จะพบสิ่งที่ดีกว่า
A loosely performed tuning may lead to dramatic performance?
ระวังการตีความผิดเพราะในภาษาอังกฤษdramatic
หมายถึงดีมากเป็นพิเศษปรากฎการณ์ ฯลฯ ! ฉันเดาว่าเป็นสิ่งที่ตรงกันข้ามกับสิ่งที่คุณต้องการจะพูด ... นอกจากนี้คุณมีคำอธิบายใด ๆ ว่าทำไมการปรับแต่ง GBMs จึงดีกว่า RF? นี่เป็นคำถาม ... โดยทั่วไป