ดูเหมือนว่าคุณจะเข้าใจว่าคุณสามารถมีn
ระดับได้ตรงข้ามn-1
เพราะต่างจากการถดถอยเชิงเส้นซึ่งคุณไม่จำเป็นต้องกังวลเกี่ยวกับ colinearity ที่สมบูรณ์แบบ
(ฉันมาที่นี่จากมุมมอง R แต่ฉันคิดว่ามันเหมือนกันใน Python) ขึ้นอยู่กับสองสามอย่างเช่น 1) แพ็กเกจที่คุณใช้และ 2) คุณมีระดับปัจจัยกี่ระดับ
1) หากคุณใช้randomForest
แพ็คเกจของ R หากคุณมีระดับปัจจัย <33 ระดับคุณสามารถดำเนินการต่อและเก็บไว้ในฟีเจอร์เดียวหากคุณต้องการ นั่นเป็นเพราะในการใช้ฟอเรสต์แบบสุ่มของ R มันจะตรวจสอบเพื่อดูว่าระดับปัจจัยใดควรอยู่ที่ด้านใดด้านหนึ่งของการแยกและอีกอันหนึ่ง (เช่น 5 ระดับของคุณอาจถูกจัดกลุ่มเข้าด้วยกันทางซ้ายและ 7 อาจถูกจัดกลุ่ม ร่วมกันทางขวา) หากคุณแบ่งคุณลักษณะหมวดหมู่ออกเป็นn
หุ่นแล้วอัลกอริทึมจะไม่มีตัวเลือกนี้เมื่อทำการกำจัด
เห็นได้ชัดว่าแพคเกจโดยเฉพาะที่คุณใช้ไม่สามารถจัดการคุณสมบัติที่เป็นหมวดหมู่ได้ดังนั้นคุณเพียงแค่ต้องสร้างn
ตัวแปรจำลอง
2) ตามที่ฉันได้กล่าวถึงข้างต้นการใช้ฟอเรสต์แบบสุ่มของ R สามารถจัดการได้เพียง 32 ระดับเท่านั้นหากคุณมีมากกว่านั้นคุณต้องแบ่งปัจจัยของคุณออกเป็นชุดย่อยขนาดเล็กหรือสร้างตัวแปรจำลองสำหรับแต่ละระดับ
randomForest
นั้นจะถูกเข้ารหัสโดยอัตโนมัติฉันควรจะไปกับn
หุ่นเพราะการจับคู่กันไม่ได้เป็นปัญหาสำหรับ RF?