ทำไมผลลัพธ์ฟอเรสต์แบบสุ่มของฉันจึงแปรผัน


10

ฉันพยายามทดสอบความสามารถของฟอเรสต์แบบสุ่มเพื่อจำแนกตัวอย่างระหว่าง 2 กลุ่ม; มีตัวอย่าง 54 ตัวและตัวแปรต่าง ๆ ที่ใช้สำหรับการจำแนกประเภท

ฉันสงสัยว่าทำไมประมาณการนอกถุง (OOB) สามารถเปลี่ยนแปลงได้มากถึง 5% จากกันแม้ว่าฉันจะใช้ต้น 50k? นี่เป็นสิ่งที่ bootstrapping สามารถช่วยได้หรือไม่?


6
คุณมีตัวอย่างน้อย ต้น 50k นั้นไม่มีความหมายอะไรกับตัวอย่างที่น้อยมาก การเปลี่ยนแปลงนั้นน่าจะเป็นเพียงตัวอย่างเดียวเท่านั้นที่จำแนกอย่างไม่ถูกต้องระหว่างการวิ่ง
นี้

@ThiS ฉันคิดว่าการเพิ่มจำนวนต้นไม้จะช่วยลดความแปรปรวนที่ฉันได้รับ มีวิธีการลดให้เหลือศูนย์อย่างมีประสิทธิภาพหรือไม่หรือรู้ว่าอันไหนถูกต้องที่สุด?
Sethzard

คำตอบ:


12

มีสองแหล่งที่มาของความแปรปรวน OOB หนึ่งคือการสุ่มของขั้นตอนเอง สิ่งนี้สามารถลดลงได้โดยการเพิ่มจำนวนต้นไม้

ความแปรปรวนอีกแหล่งคือความไม่สมบูรณ์ที่ลดลงของการมีข้อมูล จำกัด และการใช้ชีวิตในโลกที่ซับซ้อน การเพิ่มจำนวนต้นไม้ไม่สามารถแก้ไขได้

นอกจากนี้บางครั้งมีข้อมูลไม่เพียงพอที่จะแก้ปัญหา ตัวอย่างเช่นสมมติว่ามีสองอินสแตนซ์ที่มีเลเบลตรงข้าม แต่มีค่าคุณลักษณะที่เหมือนกัน ตัวอย่างเหล่านี้อย่างใดอย่างหนึ่งจะถูกจัดประเภทไว้เสมอ (นี่คือตัวอย่างสุดขั้ว แต่แสดงให้เห็นว่าปัญหาบางอย่างไม่สามารถแก้ไขได้เราสามารถผ่อนคลายได้บ้างโดยพิจารณาการก่อกวนเพียงเล็กน้อยต่อหนึ่งเวกเตอร์ตอนนี้มันมักจะถูกจัดประเภทเหมือนกับแฝด แต่ไม่เสมอไป) เพื่อแก้ปัญหานี้ คุณต้องรวบรวมการวัดเพิ่มเติมเพื่อแยกความแตกต่างของทั้งสองจุด

การเพิ่มจำนวนต้นไม้สามารถลดความแปรปรวนของการประมาณบางอย่างเช่นได้ พิจารณาผลลัพธ์จากทฤษฎีบทขีด จำกัด กลาง: การเพิ่มขนาดตัวอย่างสามารถลดความแปรปรวนของสถิติได้เหมือนค่าเฉลี่ย แต่ไม่ได้กำจัดมัน การพยากรณ์ป่าแบบสุ่มนั้นมีค่าเฉลี่ยของการคาดคะเนของต้นไม้ทั้งหมดและการทำนายเหล่านี้เป็นตัวแปรสุ่ม (เพราะ bootstrapping และการสุ่มเซตย่อยของคุณสมบัติ; ทั้งสองเกิดขึ้นอย่างอิสระดังนั้นการโหวตก็เช่นกัน) CLT ระบุว่าเข้าใกล้การแจกแจงปกติโดยที่คือการทำนายค่าเฉลี่ยที่แท้จริง และพี(Y=1|x)x¯x¯x¯~ยังไม่มีข้อความ(μ,σ2n)μσ2คือความแปรปรวนของต้นไม้โหวต (คะแนนโหวตมีค่าเป็น 0 หรือ 1 ดังนั้นคะแนนโหวตโดยเฉลี่ยมีความแปรปรวนแน่นอน) ประเด็นคือการเพิ่มจำนวนต้นไม้จะตัดความแปรปรวนของครึ่งหนึ่ง แต่จะไม่ขับไป ศูนย์. x¯(ยกเว้นเมื่อแต่เรารู้ว่าไม่ใช่ในกรณีนี้)σ2=0

ความแปรปรวนลดลงไม่สามารถแก้ไขได้โดยการ bootstrapping ยิ่งไปกว่านั้นป่าสุ่มนั้นได้รับการบู๊ตแล้ว มันเป็นส่วนหนึ่งของเหตุผลว่ามีชื่อ "สุ่ม" (เหตุผลอื่นคือการเลือกชุดย่อยของคุณลักษณะแบบสุ่มในแต่ละการแบ่ง)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.