2
แนวทางปฏิบัติที่ดีที่สุดสำหรับการเข้ารหัสคุณสมบัติที่เป็นหมวดหมู่สำหรับต้นไม้การตัดสินใจ
เมื่อการเข้ารหัสคุณสมบัติเชิงหมวดหมู่สำหรับการถดถอยเชิงเส้นมีกฎ: จำนวนของหุ่นควรน้อยกว่าหนึ่งในจำนวนทั้งหมดของระดับ (เพื่อหลีกเลี่ยงการ collinearity) มีกฎที่คล้ายกันสำหรับต้นไม้การตัดสินใจ (ถุง, เพิ่มขึ้น) หรือไม่? ฉันถามสิ่งนี้เพราะการฝึกฝนมาตรฐานใน Python ดูเหมือนว่าจะเพิ่มnระดับเป็นnหุ่น (sklearns ' OneHotEncoderหรือ Pandas' pd.get_dummies) ซึ่งดูเหมือนจะไม่ดีสำหรับฉัน สิ่งที่คุณจะแนะนำเป็นแนวทางปฏิบัติที่ดีที่สุดสำหรับการเข้ารหัสคุณสมบัติหมวดหมู่สำหรับต้นไม้การตัดสินใจ?