ฉันค่อนข้างใหม่กับการเรียนรู้ด้วยเครื่องจักรเทคนิคของ CART และสิ่งที่คล้ายกันและฉันหวังว่าไร้เดียงสาของฉันจะไม่ชัดเจนเกินไป
Random Forest จัดการโครงสร้างข้อมูลหลายระดับ / ลำดับชั้นได้อย่างไร (ตัวอย่างเช่นเมื่อการโต้ตอบข้ามระดับเป็นที่สนใจ)
นั่นคือชุดข้อมูลที่มีหน่วยการวิเคราะห์ในหลายระดับชั้น ( เช่นนักเรียนซ้อนกันภายในโรงเรียนพร้อมข้อมูลเกี่ยวกับทั้งนักเรียนและโรงเรียน)
ยกตัวอย่างเช่นพิจารณาชุดข้อมูลหลายระดับที่มีบุคคลในระดับแรก ( เช่นข้อมูลพฤติกรรมการลงคะแนนประชากร ฯลฯ ) ซ้อนกันภายในประเทศในระดับที่สอง (พร้อมข้อมูลระดับประเทศเช่นประชากร):
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
ให้บอกว่าvoted
เป็นตัวแปรตอบสนอง / ขึ้นอยู่กับและคนอื่น ๆ เป็นตัวแปรทำนาย / อิสระ ในประเภทนี้ในกรณีที่อัตรากำไรขั้นต้นและผลกระทบที่ขอบของตัวแปร (การพึ่งพาอาศัยบางส่วน) สำหรับบางตัวแปรระดับสูง ( เช่น , population
) สำหรับตัวแปรแต่ละระดับที่แตกต่างกัน ฯลฯ อาจจะเป็นที่น่าสนใจมาก ในกรณีที่คล้ายกันนี้glm
แน่นอนว่าเหมาะสมกว่า - แต่เมื่อมีตัวแปรจำนวนมากการโต้ตอบและ / หรือค่าที่หายไปและ / หรือชุดข้อมูลขนาดใหญ่มากเป็นต้นglm
ไม่น่าเชื่อถือ
คำถามย่อย: ฟอเรสต์แบบสุ่มสามารถจัดการโครงสร้างข้อมูลประเภทนี้ได้อย่างชัดเจนหรือไม่? หากนำไปใช้โดยไม่คำนึงถึงความลำเอียงประเภทใดที่นำเสนอ? หาก Random Forest ไม่เหมาะสมจะมีวิธีอื่นใดในกลุ่ม ensemble หรือไม่?
(คำถามฟอเรสต์แบบสุ่มในข้อมูลที่จัดกลุ่มอาจคล้ายกัน แต่ไม่ตอบคำถามนี้จริงๆ)