มีสองแหล่งที่มาของความแปรปรวน OOB หนึ่งคือการสุ่มของขั้นตอนเอง สิ่งนี้สามารถลดลงได้โดยการเพิ่มจำนวนต้นไม้
ความแปรปรวนอีกแหล่งคือความไม่สมบูรณ์ที่ลดลงของการมีข้อมูล จำกัด และการใช้ชีวิตในโลกที่ซับซ้อน การเพิ่มจำนวนต้นไม้ไม่สามารถแก้ไขได้
นอกจากนี้บางครั้งมีข้อมูลไม่เพียงพอที่จะแก้ปัญหา ตัวอย่างเช่นสมมติว่ามีสองอินสแตนซ์ที่มีเลเบลตรงข้าม แต่มีค่าคุณลักษณะที่เหมือนกัน ตัวอย่างเหล่านี้อย่างใดอย่างหนึ่งจะถูกจัดประเภทไว้เสมอ (นี่คือตัวอย่างสุดขั้ว แต่แสดงให้เห็นว่าปัญหาบางอย่างไม่สามารถแก้ไขได้เราสามารถผ่อนคลายได้บ้างโดยพิจารณาการก่อกวนเพียงเล็กน้อยต่อหนึ่งเวกเตอร์ตอนนี้มันมักจะถูกจัดประเภทเหมือนกับแฝด แต่ไม่เสมอไป) เพื่อแก้ปัญหานี้ คุณต้องรวบรวมการวัดเพิ่มเติมเพื่อแยกความแตกต่างของทั้งสองจุด
การเพิ่มจำนวนต้นไม้สามารถลดความแปรปรวนของการประมาณบางอย่างเช่นได้ พิจารณาผลลัพธ์จากทฤษฎีบทขีด จำกัด กลาง: การเพิ่มขนาดตัวอย่างสามารถลดความแปรปรวนของสถิติได้เหมือนค่าเฉลี่ย แต่ไม่ได้กำจัดมัน การพยากรณ์ป่าแบบสุ่มนั้นมีค่าเฉลี่ยของการคาดคะเนของต้นไม้ทั้งหมดและการทำนายเหล่านี้เป็นตัวแปรสุ่ม (เพราะ bootstrapping และการสุ่มเซตย่อยของคุณสมบัติ; ทั้งสองเกิดขึ้นอย่างอิสระดังนั้นการโหวตก็เช่นกัน) CLT ระบุว่าเข้าใกล้การแจกแจงปกติโดยที่คือการทำนายค่าเฉลี่ยที่แท้จริง และp ( y= 1 | x )x¯x¯x¯∼ N( μ , σ2n)μσ2คือความแปรปรวนของต้นไม้โหวต (คะแนนโหวตมีค่าเป็น 0 หรือ 1 ดังนั้นคะแนนโหวตโดยเฉลี่ยมีความแปรปรวนแน่นอน) ประเด็นคือการเพิ่มจำนวนต้นไม้จะตัดความแปรปรวนของครึ่งหนึ่ง แต่จะไม่ขับไป ศูนย์. x¯(ยกเว้นเมื่อแต่เรารู้ว่าไม่ใช่ในกรณีนี้)σ2= 0
ความแปรปรวนลดลงไม่สามารถแก้ไขได้โดยการ bootstrapping ยิ่งไปกว่านั้นป่าสุ่มนั้นได้รับการบู๊ตแล้ว มันเป็นส่วนหนึ่งของเหตุผลว่ามีชื่อ "สุ่ม" (เหตุผลอื่นคือการเลือกชุดย่อยของคุณลักษณะแบบสุ่มในแต่ละการแบ่ง)