หากเราพิจารณาแผนภูมิการตัดสินใจที่โตเต็มที่ (เช่นแผนผังการตัดสินใจที่ไม่มีการแบ่ง) มันมีความแปรปรวนสูงและมีอคติต่ำ
การบรรจุถุงและป่าสุ่มใช้โมเดลความแปรปรวนสูงเหล่านี้และรวมเข้าด้วยกันเพื่อลดความแปรปรวนและเพิ่มความแม่นยำในการทำนาย ทั้งการบรรจุถุงและการสุ่มป่าใช้การสุ่มตัวอย่าง Bootstrap และตามที่อธิบายไว้ใน "องค์ประกอบของการเรียนรู้ทางสถิติ" สิ่งนี้จะเพิ่มความลำเอียงในต้นไม้ต้นเดียว
นอกจากนี้เนื่องจากวิธีการสุ่มฟอเรสต์ จำกัด ตัวแปรที่อนุญาตให้แยกในแต่ละโหนดอคติสำหรับฟอเรสต์แบบสุ่มเดียวจะเพิ่มมากขึ้น
ดังนั้นความแม่นยำในการทำนายจะเพิ่มขึ้นหากการเพิ่มขึ้นของอคติของต้นไม้ต้นเดียวในการบรรจุหีบห่อและการสุ่มป่าไม่ได้ "เกินความจริง" การลดความแปรปรวน
สิ่งนี้นำฉันไปสู่คำถามสองข้อต่อไปนี้: 1) ฉันรู้ว่าด้วยการสุ่มตัวอย่าง bootstrap เราจะ (เกือบทุกครั้ง) มีการสังเกตแบบเดียวกันในตัวอย่าง bootstrap แต่ทำไมสิ่งนี้นำไปสู่การเพิ่มอคติของต้นไม้แต่ละต้นในป่าที่ห่อหุ้ม / สุ่ม 2) นอกจากนี้ทำไมข้อ จำกัด ของตัวแปรที่มีให้แยกในแต่ละการแยกทำให้มีอคติสูงกว่าในต้นไม้แต่ละต้นในป่าสุ่ม