แพ็คเกจสุ่มป่าของ R ไม่สามารถจัดการกับปัจจัยที่มีมากกว่า 32 ระดับ เมื่อได้รับมากกว่า 32 ระดับจะส่งข้อความแจ้งข้อผิดพลาด:
ไม่สามารถจัดการตัวทำนายเชิงหมวดหมู่ที่มีมากกว่า 32 หมวดหมู่
แต่ข้อมูลที่ฉันมีมีหลายปัจจัย บางอันมี 1,000+ ระดับและบางอันมี 100+ ระดับ มันยังมี 'สถานะ' ของสหรัฐอเมริกาซึ่งก็คือ 52
ดังนั้นนี่คือคำถามของฉัน
ทำไมถึงมีข้อ จำกัด เช่นนี้? RandomForest ปฏิเสธที่จะเรียกใช้แม้ในกรณีง่าย ๆ
> d <- data.frame(x=factor(1:50), y=1:50) > randomForest(y ~ x, data=d) Error in randomForest.default(m, y, ...) : Can not handle categorical predictors with more than 32 categories.
หากเป็นเพราะข้อ จำกัด ของหน่วยความจำ scikit เรียนรู้วิธีการเรียนรู้แบบสุ่มของผู้ทดสอบการเรียกใช้ที่มีมากกว่า 32 ระดับ
วิธีที่ดีที่สุดในการจัดการปัญหานี้คืออะไร สมมติว่าฉันมีตัวแปรอิสระ X1, X2, ... , X50 และ Y เป็นตัวแปรตาม และสมมติว่า X1, X2 และ X3 มีมากกว่า 32 ระดับ ฉันควรทำอย่างไร?
สิ่งที่ฉันคิดคือการใช้อัลกอริทึมการจัดกลุ่มสำหรับแต่ละ X1, X2 และ X3 ที่ระยะทางถูกกำหนดเป็นความแตกต่างใน Y ฉันจะเรียกใช้การจัดกลุ่มสามกลุ่มเนื่องจากมีตัวแปรที่มีปัญหาสามตัว และในการจัดกลุ่มแต่ละครั้งฉันหวังว่าฉันสามารถหาระดับที่คล้ายกัน และฉันจะรวมพวกเขา
เสียงนี้เป็นอย่างไร