ป่าสุ่มคือชุดของต้นไม้ตัดสินใจหลายที่ได้รับการฝึกฝนเป็นอิสระจากกัน ดังนั้นจึงไม่มีความคิดของการฝึกอบรมขึ้นอยู่กับลำดับ (ซึ่งเป็นกรณีในการส่งเสริมอัลกอริทึม ) ด้วยเหตุนี้ตามที่กล่าวไว้ในคำตอบอื่นมันเป็นไปได้ที่จะทำการฝึกคู่ขนานของต้นไม้
คุณอาจต้องการที่จะรู้ว่า "สุ่ม" ในป่าสุ่มมาจากไหน: มีสองวิธีที่การสุ่มถูกฉีดเข้าไปในกระบวนการเรียนรู้ต้นไม้ อันดับแรกคือการสุ่มเลือกจุดข้อมูลที่ใช้ในการฝึกอบรมต้นไม้แต่ละต้นและที่สองคือการสุ่มเลือกคุณลักษณะที่ใช้ในการสร้างต้นไม้แต่ละต้น เนื่องจากต้นไม้ตัดสินใจเดียวมักจะมีข้อมูลมากเกินไปการฉีดสุ่มในลักษณะนี้ทำให้ต้นไม้มีจำนวนมากโดยที่ต้นไม้แต่ละต้นมีความแม่นยำที่ดี . ดังนั้นเมื่อเราใช้ค่าเฉลี่ยของการทำนายจากต้นไม้ทุกต้นเราจะสังเกตเห็นการลดลงของการ overfitting (เปรียบเทียบกับกรณีของการฝึกอบรมต้นไม้ตัดสินใจเดียวเดียวในข้อมูลที่มีทั้งหมด )
เพื่อให้เข้าใจสิ่งนี้ได้ดีขึ้นนี่คือภาพร่างคร่าวๆของกระบวนการฝึกอบรมโดยสมมติว่าจุดข้อมูลทั้งหมดถูกเก็บไว้ในชุดที่แทนและจำนวนต้นไม้ในป่าคือ :MN
- i=0
- ใช้ตัวอย่าง boostrapของ (เช่นการสุ่มตัวอย่างด้วยการเปลี่ยนและมีขนาดเดียวกับ ) ซึ่งเป็นที่แสดงโดยS_iMMSi
- ฝึกฝนต้นไม้ -th แสดงเป็นโดยใช้เป็นข้อมูลป้อนเข้า
iTiSi
- กระบวนการฝึกอบรมนั้นเหมือนกับการฝึกอบรมต้นไม้ตัดสินใจยกเว้นความแตกต่างที่แต่ละโหนดในต้นไม้มีเพียงการเลือกคุณสมบัติแบบสุ่มที่ใช้สำหรับการแยกในโหนดนั้น
- i=i+1
- หากไปที่ขั้นตอนที่ 2 ไม่เช่นนั้นต้นไม้ทั้งหมดจะได้รับการฝึกอบรมดังนั้นการฝึกอบรมในป่าจึงเสร็จสิ้นi<N
โปรดทราบว่าฉันอธิบายอัลกอริธึมเป็นอัลกอริธึมเรียงลำดับ แต่เนื่องจากการฝึกอบรมของต้นไม้ไม่ได้ขึ้นอยู่กับแต่ละอื่น ๆ ตอนนี้สำหรับขั้นตอนการทำนายขั้นแรกให้ทำการทำนายต้นไม้ทุกต้น (เช่น , , ... , ) ในป่าแล้ว:T1T2TN
ถ้ามันถูกใช้สำหรับภารกิจการถดถอยให้ใช้ค่าเฉลี่ยของการทำนายเป็นการคาดการณ์ขั้นสุดท้ายของป่าสุ่ม
ถ้ามันถูกใช้สำหรับงานการจัดหมวดหมู่ให้ใช้กลยุทธ์การลงคะแนนแบบนุ่มนวล : นำค่าเฉลี่ยของความน่าจะเป็นที่ทำนายโดยต้นไม้สำหรับแต่ละชั้นเรียนจากนั้นประกาศชั้นที่มีความน่าจะเป็นเฉลี่ยสูงสุดเป็นคำทำนายสุดท้ายของป่าสุ่ม
นอกจากนี้มันเป็นสิ่งที่ควรค่าแก่การกล่าวถึงว่ามันเป็นไปได้ที่จะฝึกฝนต้นไม้ในลักษณะที่ต้องอาศัยลำดับและนั่นคือสิ่งที่อัลกอริทึมต้นไม้ไล่ระดับสีไล่ระดับซึ่งเป็นวิธีที่แตกต่างจากป่าสุ่ม