วิธีการที่ฉันคุ้นเคยกับการสร้างฟอเรสต์แบบสุ่มมีดังนี้: (จากhttp://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm )
เพื่อสร้างต้นไม้ในป่าเรา:
- บูตตัวอย่างขนาด N ที่ N คือขนาดของชุดการฝึกอบรมของเรา ใช้ตัวอย่าง bootstrapped นี้เป็นชุดการฝึกอบรมสำหรับต้นไม้นี้
- ที่แต่ละโหนดของต้นไม้สุ่มเลือก m ของคุณสมบัติ M ของเรา เลือกคุณสมบัติที่ดีที่สุดของ m เหล่านี้เพื่อแยก (โดยที่ m เป็นพารามิเตอร์ของป่าสุ่มของเรา)
- ปลูกต้นไม้แต่ละต้นให้มากที่สุดเท่าที่จะทำได้เช่นไม่มีการตัดแต่งกิ่ง
ในขณะที่อัลกอริทึมนี้สมเหตุสมผลในระดับขั้นตอนและให้ผลลัพธ์ที่ดีแน่นอนฉันไม่ชัดเจนว่าแรงจูงใจทางทฤษฎีอยู่เบื้องหลังขั้นตอนที่ 1, 2 และ 3 ใครสามารถอธิบายสิ่งที่กระตุ้นให้คนที่มากับขั้นตอนนี้และทำไมมัน ทำงานได้ดีเหรอ
ตัวอย่างเช่น: ทำไมเราต้องดำเนินการขั้นตอนที่ 1 ดูเหมือนว่าเรากำลังทำ bootstrapping เพื่อจุดประสงค์ในการลดความแปรปรวนตามปกติ