ต้นไม้ไล่ระดับสีไล่ระดับเทียบกับป่าสุ่ม


110

การส่งเสริมต้นไม้ไล่โทนสีตามที่เสนอโดยฟรีดแมนใช้ต้นไม้ตัดสินใจเป็นผู้เรียนพื้นฐาน ฉันสงสัยว่าเราควรสร้างแผนภูมิการตัดสินใจพื้นฐานที่ซับซ้อนที่สุดเท่าที่จะเป็นไปได้ (โตเต็มที่) หรือง่ายกว่านี้หรือไม่? มีคำอธิบายสำหรับการเลือกหรือไม่?

ป่าสุ่มเป็นอีกวิธีการหนึ่งที่ใช้ต้นไม้ตัดสินใจเป็นฐานในการเรียนรู้ จากความเข้าใจของฉันเรามักใช้ต้นไม้ตัดสินใจที่โตเต็มที่ในการทำซ้ำแต่ละครั้ง ฉันถูกไหม?


1
คุณสามารถหาข้อมูลอ้างอิงที่ดีมากสำหรับต้นไม้ที่ปรับปรุงแล้วได้ที่นี่: xgboost.readthedocs.io/th/latest/model.html
Naghmeh

@Naghmeh - ลิงก์ตาย ดูเหมือนว่าจะย้ายไปที่xgboost.readthedocs.io/en/latest/tutorials/model.html
mlibby

คำตอบ:


149

error = bias + variance

  • การส่งเสริมขึ้นอยู่กับผู้เรียนที่อ่อนแอ (อคติสูงความแปรปรวนต่ำ) ในแง่ของต้นไม้ตัดสินใจผู้เรียนที่อ่อนแอคือต้นไม้ที่ตื้นเขินบางครั้งก็มีขนาดเล็กพอ ๆ กับการตัดสินใจ (ต้นไม้ที่มีสองใบ) การเพิ่มการลดข้อผิดพลาดส่วนใหญ่โดยการลดอคติ (และความแปรปรวนในขอบเขตโดยรวมเอาท์พุทจากหลายรุ่น)
  • ในทางกลับกันป่าสุ่มใช้ตามที่คุณพูดต้นไม้ตัดสินใจอย่างเต็มที่ (อคติต่ำความแปรปรวนสูง) มันจัดการงานการลดข้อผิดพลาดในทางตรงกันข้าม: โดยลดความแปรปรวน ต้นไม้ถูกทำให้ไม่เกี่ยวข้องเพื่อลดความแปรปรวนสูงสุด แต่อัลกอริทึมไม่สามารถลดอคติ (ซึ่งสูงกว่าอคติของต้นไม้แต่ละต้นในป่าเล็กน้อย) ดังนั้นความต้องการต้นไม้ขนาดใหญ่ที่ไม่ได้รับการชดเชยจึงมีความเอนเอียงน้อยที่สุดเท่าที่จะทำได้

โปรดทราบว่าแตกต่างจากการส่งเสริม (ซึ่งเป็นลำดับ) RF เจริญเติบโตของต้นไม้ในแบบคู่ขนาน คำiterativeที่คุณใช้นั้นไม่เหมาะสม


1
"ต้นไม้ถูกทำให้ไม่เกี่ยวข้องเพื่อลดความแปรปรวนสูงสุด แต่อัลกอริทึมไม่สามารถลดอคติ (ซึ่งสูงกว่าความเอนเอียงของต้นไม้แต่ละต้นในป่า)" - ส่วนที่เกี่ยวกับ "สูงกว่าอคติของบุคคลเล็กน้อย ต้นไม้ในป่า "ดูเหมือนไม่ถูกต้อง ดูweb.stanford.edu/~hastie/Papers/ESLII.pdfส่วนที่ 15.4.2: "ในขณะที่บรรจุถุงความลำเอียงของป่าสุ่มนั้นเหมือนกับความเอนเอียงของต้นไม้ใด ๆ ที่สุ่มตัวอย่าง" บางทีคุณอาจหมายถึง "สูงกว่าอคติของต้นไม้ที่โตเต็มที่เพียงหนึ่งเดียวที่พอดีกับข้อมูลต้นฉบับ"
เอเดรีย

1
@ gung ฉันคิดว่ามีคำถามสำคัญที่ยังไม่ได้ตอบใน OP ซึ่งก็คือ: ทำไมไม่ใช้ต้นไม้ที่โตเต็มที่ในขั้นตอนที่ 1 ของ GBM เหตุใดจึงใช้ลำดับของผู้เรียนที่อ่อนแอกว่าต้นไม้ต้นเดียวที่โตเต็มที่? ฉันอยากรู้เกี่ยวกับเรื่องนั้น
ftxx

55

คำถามนี้ได้รับการแก้ไขในโพสต์ที่ดีมากนี้ โปรดดูที่มันและการอ้างอิงในนั้น http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/

แจ้งให้ทราบในบทความที่พูดเกี่ยวกับการสอบเทียบและเชื่อมโยงไปยังโพสต์บล็อกอื่น (ดี) โพสต์เกี่ยวกับมัน ถึงกระนั้นฉันก็พบว่ากระดาษที่ได้รับความน่าจะเป็นที่ได้รับการสอบเทียบจากการเพิ่มจะช่วยให้คุณมีความเข้าใจที่ดีขึ้นเกี่ยวกับการสอบเทียบในบริบทของตัวแยกประเภทที่ได้รับการส่งเสริมและสิ่งที่เป็นวิธีมาตรฐาน

และในที่สุดแง่มุมหนึ่งก็หายไป (อีกทฤษฎีหนึ่ง) ทั้ง RF และ GBM เป็นวิธีรวมวงซึ่งหมายความว่าคุณสร้างลักษณนามออกมาเป็นลักษณนามขนาดเล็กจำนวนมาก ตอนนี้ความแตกต่างพื้นฐานอยู่ที่วิธีการที่ใช้:

  1. RF ใช้ต้นไม้ตัดสินใจซึ่งมีแนวโน้มที่จะเกิด overfitting มาก เพื่อให้บรรลุความแม่นยำสูง, RF ตัดสินใจที่จะสร้างจำนวนมากของพวกเขาอยู่บนพื้นฐานของการบรรจุถุง แนวคิดพื้นฐานคือการสุ่มตัวอย่างข้อมูลซ้ำแล้วซ้ำอีกและสำหรับแต่ละตัวอย่างฝึกอบรมตัวจําแนกใหม่ ตัวแยกประเภทที่แตกต่างกันมากเกินความเหมาะสมของข้อมูลในวิธีที่ต่างกันและจากการลงคะแนนความแตกต่างเหล่านั้นจะถูกนำมาเฉลี่ย
  2. GBM เป็นวิธีการส่งเสริมซึ่งสร้างบนลักษณนามอ่อนแอ ความคิดคือการเพิ่มตัวจําแนกในเวลาเพื่อให้ตัวจําแนกต่อไปได้รับการฝึกฝนเพื่อปรับปรุงชุดที่ได้รับการฝึกฝนแล้ว ขอให้สังเกตว่าสำหรับ RF ซ้ำแต่ละตัวจําแนกได้รับการฝึกฝนเป็นอิสระจากส่วนที่เหลือ

3
มันจะเป็นข้อสรุปที่เป็นธรรมจากคำตอบของคุณที่ RF overfits มากกว่า GBM?
8forty

4
@ 8forty ฉันจะไม่สรุปข้อสรุปนั้น - ในขณะที่ต้นไม้ต้นเดียวใน RF จะมีมากกว่าต้นไม้ต้นเดียวใน GBM (เพราะมีขนาดเล็กกว่ามาก) ใน RF นั้น overfit เหล่านี้จะถูกเฉลี่ยเมื่อใช้ต้นไม้จำนวนมากในขณะที่ GBM ยิ่งเพิ่มต้นไม้มากเท่าใดความเสี่ยงของการเกิด overfitting ก็จะยิ่งสูงขึ้น ในระยะสั้นเนื่องจาก N (จำนวนต้นไม้ที่ใช้) เข้าสู่ระยะอนันต์ฉันคาดว่า RF จะมีน้ำหนักเกินพิกัดน้อยกว่า GBM
Ant
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.