ฉันใช้ฟอเรสต์แบบสุ่มกับข้อมูลที่จัดกลุ่มมิติสูง (ตัวแปรอินพุตตัวเลข 50 ตัว) ซึ่งมีโครงสร้างแบบลำดับชั้น รวบรวมข้อมูลด้วยการจำลองแบบ 6 ครั้งที่ 30 ตำแหน่งของวัตถุที่แตกต่างกัน 70 รายการทำให้เกิดจุดข้อมูล 12,600 จุดซึ่งไม่เป็นอิสระ
ดูเหมือนว่าฟอเรสต์แบบสุ่มมีความเหมาะสมกับข้อมูลมากเกินไปเนื่องจากข้อผิดพลาด oob นั้นมีขนาดเล็กกว่าข้อผิดพลาดที่เราได้รับเมื่อออกจากข้อมูลหนึ่งวัตถุในระหว่างการฝึกอบรมและจากนั้นทำนายผลลัพธ์ของวัตถุด้านซ้าย ยิ่งกว่านั้นฉันมีความสัมพันธ์ที่เหลืออยู่
ฉันคิดว่า overfitting เกิดขึ้นเนื่องจากป่าสุ่มคาดว่าจะมีข้อมูลอิสระ เป็นไปได้ไหมที่จะบอกฟอเรสต์แบบสุ่มเกี่ยวกับโครงสร้างลำดับชั้นของข้อมูล? หรือมีวิธีการรวมหรือการหดตัวที่ทรงพลังอีกวิธีหนึ่งที่สามารถจัดการข้อมูลที่จัดกลุ่มมิติสูงด้วยโครงสร้างการโต้ตอบที่แข็งแกร่งได้หรือไม่
คำใบ้ใด ๆ ที่ฉันสามารถทำได้ดีกว่า?