ทำไมต้นไม้ที่ถูกถุง / ต้นไม้ป่าสุ่มมีอคติสูงกว่าต้นไม้ตัดสินใจเดี่ยว?

11

หากเราพิจารณาแผนภูมิการตัดสินใจที่โตเต็มที่ (เช่นแผนผังการตัดสินใจที่ไม่มีการแบ่ง) มันมีความแปรปรวนสูงและมีอคติต่ำ

การบรรจุถุงและป่าสุ่มใช้โมเดลความแปรปรวนสูงเหล่านี้และรวมเข้าด้วยกันเพื่อลดความแปรปรวนและเพิ่มความแม่นยำในการทำนาย ทั้งการบรรจุถุงและการสุ่มป่าใช้การสุ่มตัวอย่าง Bootstrap และตามที่อธิบายไว้ใน "องค์ประกอบของการเรียนรู้ทางสถิติ" สิ่งนี้จะเพิ่มความลำเอียงในต้นไม้ต้นเดียว

นอกจากนี้เนื่องจากวิธีการสุ่มฟอเรสต์ จำกัด ตัวแปรที่อนุญาตให้แยกในแต่ละโหนดอคติสำหรับฟอเรสต์แบบสุ่มเดียวจะเพิ่มมากขึ้น

ดังนั้นความแม่นยำในการทำนายจะเพิ่มขึ้นหากการเพิ่มขึ้นของอคติของต้นไม้ต้นเดียวในการบรรจุหีบห่อและการสุ่มป่าไม่ได้ "เกินความจริง" การลดความแปรปรวน

สิ่งนี้นำฉันไปสู่คำถามสองข้อต่อไปนี้: 1) ฉันรู้ว่าด้วยการสุ่มตัวอย่าง bootstrap เราจะ (เกือบทุกครั้ง) มีการสังเกตแบบเดียวกันในตัวอย่าง bootstrap แต่ทำไมสิ่งนี้นำไปสู่การเพิ่มอคติของต้นไม้แต่ละต้นในป่าที่ห่อหุ้ม / สุ่ม 2) นอกจากนี้ทำไมข้อ จำกัด ของตัวแปรที่มีให้แยกในแต่ละการแยกทำให้มีอคติสูงกว่าในต้นไม้แต่ละต้นในป่าสุ่ม

— C. Refsgaard
แหล่งที่มา

5

ฉันจะยอมรับคำตอบในวันที่ 1) จากคุนหลุน แต่เพื่อปิดกรณีนี้ฉันจะให้ข้อสรุปสำหรับคำถามสองข้อที่ฉันไปถึงในวิทยานิพนธ์ของฉัน (ซึ่งทั้งคู่ยอมรับจากหัวหน้างานของฉัน):

1) ข้อมูลเพิ่มเติมสร้างแบบจำลองที่ดีกว่าและเนื่องจากเราใช้เพียงบางส่วนของข้อมูลการฝึกอบรมทั้งหมดในการฝึกอบรมแบบจำลอง (bootstrap) ทำให้มีอคติสูงขึ้นในต้นไม้แต่ละต้น (คัดลอกจากคำตอบของคุนหลุน)

2) ในอัลกอริทึมป่าสุ่มเรา จำกัด จำนวนของตัวแปรที่จะแยกในแต่ละแยก - นั่นคือเรา จำกัด จำนวนของตัวแปรที่จะอธิบายข้อมูลของเราด้วย อีกครั้งความเอนเอียงที่สูงขึ้นจะเกิดขึ้นในแต่ละต้น

สรุป: ทั้งสองสถานการณ์เป็นเรื่องของการจำกัดความสามารถของเราในการอธิบายประชากร: อันดับแรกเรา จำกัด จำนวนการสังเกตจากนั้นเรา จำกัด จำนวนตัวแปรที่จะแยกในแต่ละการแยก ข้อ จำกัด ทั้งสองนำไปสู่ความลำเอียงที่สูงขึ้นในแต่ละต้น แต่บ่อยครั้งที่การลดความแปรปรวนในแบบจำลองนั้นเพิ่มความลำเอียงในต้นไม้แต่ละต้นดังนั้นการบรรจุถุงและป่าสุ่มมีแนวโน้มที่จะสร้างแบบจำลองที่ดีกว่าต้นไม้ตัดสินใจเพียงต้นเดียว

— C. Refsgaard
แหล่งที่มา

-1

คำถามของคุณค่อนข้างตรงไปตรงมา 1) ข้อมูลเพิ่มเติมสร้างแบบจำลองที่ดีกว่าเนื่องจากคุณใช้เพียงบางส่วนของข้อมูลการฝึกอบรมทั้งหมดในการฝึกแบบจำลองของคุณ (bootstrap) อคติที่สูงกว่านั้นสมเหตุสมผล 2) การแยกเพิ่มเติมหมายถึงต้นไม้ที่ลึกกว่าหรือโหนดที่บริสุทธิ์กว่า สิ่งนี้มักนำไปสู่ความแปรปรวนสูงและอคติต่ำ หากคุณ จำกัด การแยกให้ลดความแปรปรวนและอคติที่สูงขึ้น

— Kunlun
แหล่งที่มา

4

ฉันไม่ค่อยซื้ออาร์กิวเมนต์สำหรับ 1) เนื่องจากแต่ละตัวอย่าง bootstrap มีแนวโน้มเท่ากันและความเอนเอียงนั้นเกี่ยวกับพฤติกรรมของโมเดลเฉลี่ย ดูเหมือนว่าจะต้องละเอียดกว่านั้นอีก ฉันยังไม่คิดว่า 2) ตอบคำถามที่ถาม โปสเตอร์ไม่ได้แปลว่า "ขีด จำกัด ลิมิต" ใน "ปลูกต้นไม้ที่ตื้นขึ้น"

— แมทธิวดรูรี่