ทำไมการตัดแต่งกิ่งจึงไม่จำเป็นสำหรับต้นไม้ป่าแบบสุ่ม?


20

Breiman กล่าวว่าต้นไม้นั้นโตโดยไม่ต้องตัดแต่งกิ่ง ทำไม? ฉันหมายความว่าต้องมีเหตุผลที่ชัดเจนว่าทำไมต้นไม้ในป่าสุ่มไม่ถูกตัด ในทางกลับกันก็ถือว่าสำคัญมากที่จะตัดต้นไม้การตัดสินใจเดียวเพื่อหลีกเลี่ยงการกระชับ มีวรรณกรรมให้อ่านด้วยเหตุผลนี้ไหม แน่นอนว่าต้นไม้อาจไม่มีความสัมพันธ์กัน แต่ก็ยังมีความเป็นไปได้ที่จะเกิดความเหมาะสม


คุณต้องพูดเพิ่มเติมเกี่ยวกับบริบทที่นี่จริงๆ @ChrisA ได้พยายามอย่างน่าทึ่ง แต่ก็ยากที่จะทราบว่าคำถามของคุณได้รับคำตอบจริงหรือไม่เพราะเป็นการยากที่จะทราบเกี่ยวกับความสงสัยของคุณ
gung - Reinstate Monica

2
ต้องพูดอะไรอีก คำถามชัดเจนมาก
Seanosapien

คำตอบ:


20

พูดโดยคร่าวๆศักยภาพที่เกินความเหมาะสมบางอย่างที่อาจเกิดขึ้นในต้นไม้ต้นเดียว (ซึ่งเป็นเหตุผลที่คุณทำการตัดแต่งกิ่งโดยทั่วไป) นั้นได้ลดลงสองสิ่งในป่าสุ่ม:

  1. ความจริงที่ว่าตัวอย่างที่ใช้ในการฝึกอบรมแต่ละต้นคือ "bootstrapped"
  2. ความจริงที่ว่าคุณมีต้นไม้สุ่มจำนวนมากโดยใช้คุณสมบัติแบบสุ่มและทำให้ต้นไม้แต่ละต้นมีความแข็งแรง แต่ไม่สัมพันธ์กัน

แก้ไข: ตามความคิดเห็นของ OP ด้านล่าง:

ยังคงมีศักยภาพในการปรับตัวมากเกินไปอย่างแน่นอน เท่าที่บทความคุณสามารถอ่านเกี่ยวกับแรงจูงใจในการ "ห่อ" โดย Breiman และ "bootstrapping" โดยทั่วไปโดย Efron และ Tibshirani เท่าที่ 2, Brieman ได้รับข้อผิดพลาดในการวางนัยทั่วไปที่เกี่ยวข้องกับความแข็งแรงของต้นไม้และการต่อต้านความสัมพันธ์ของตัวแยกประเภทบุคคล ไม่มีใครใช้ขอบเขต (เป็นไปได้มากที่สุด) แต่มันมีจุดประสงค์เพื่อให้สัญชาตญาณเกี่ยวกับสิ่งที่ช่วยลดข้อผิดพลาดในการวางนัยทั่วไปในวิธีการทั้งมวล นี่คือกระดาษสุ่มของป่า โพสต์ของฉันคือการผลักดันคุณในทิศทางที่ถูกต้องตามการอ่านเหล่านี้และประสบการณ์ / การหักเงินของฉัน

  • Breiman, L. , ผู้ทำนายการบรรจุ, การเรียนรู้ของเครื่อง, 24 (2), pp.123-140, 1996
  • Efron, B .; Tibshirani, R. (1993) บทนำสู่ Bootstrap โบกาเรตันฟลอริดา
  • Breiman, Leo (2001) "ป่าสุ่ม" การเรียนรู้ของเครื่อง 45 (1): 5–32

แต่อาจมีความเป็นไปได้ที่จะเกิดการล้นเกิน คุณสามารถอ้างอิงบทความเพื่ออ่านสิ่งนี้ได้หรือไม่?
Z Khan

@Z Khan คุณอาจจะยังZ Zan นี้หรือไม่? ถ้าเป็นเช่นนั้นโปรดแจ้งให้เราทราบเพื่อให้เราสามารถรวมบัญชีของคุณ
whuber

3
@ZKhan ปัญหา overfitting ใน RFs จะครอบคลุมในHastie, et al (2009) องค์ประกอบของการเรียนรู้ทางสถิติรุ่นที่ มี PDF ฟรีที่เว็บไซต์สำหรับหนังสือเล่มนี้ ตรวจสอบบทเกี่ยวกับป่าสุ่ม
Reinstate Monica - G. Simpson
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.