ในขณะที่AN6U5ให้คำตอบที่ดีมากฉันต้องการเพิ่มบางประเด็นเพื่อใช้อ้างอิงในอนาคต เมื่อพิจารณาOne Hot Encoding (OHE) และLabel Encodingเราจะต้องพยายามและเข้าใจว่าคุณกำลังสร้างโมเดลใด คือโมเดลสองประเภทที่เราจะพิจารณา ได้แก่ :
- แบบจำลองที่ใช้ต้นไม้ : การตัดสินใจแบบไล่ระดับสีกระตุ้นต้นไม้การตัดสินใจและป่าสุ่ม
- โมเดลที่ไม่ใช่แบบต้นไม้ : แบบเชิงเส้น, kNN หรือเครือข่ายประสาทเทียม
ลองพิจารณาว่าจะใช้ OHE เมื่อใดและจะใช้การเข้ารหัสป้ายกำกับเมื่อสร้างแบบจำลองที่ใช้แผนภูมิต้นไม้หรือไม่
เราใช้ OHE เมื่อ:
- เมื่อค่าที่อยู่ใกล้กันในการเข้ารหัสฉลากจะสอดคล้องกับค่าเป้าหมายที่ไม่ได้ปิด (ข้อมูลที่ไม่ใช่เชิงเส้น)
- เมื่อคุณสมบัติหมวดหมู่ไม่ได้เป็นอันดับ (dog, cat, mouse)
เราใช้การเข้ารหัสฉลากเมื่อ:
- คุณลักษณะที่เป็นหมวดหมู่คือลำดับ (จูเนียร์กิโลกรัมซีเนียร์กิโลกรัมโรงเรียนประถมมัธยม ฯลฯ )
- เมื่อเราสามารถสร้างตัวเข้ารหัสฉลากที่กำหนดป้ายกำกับที่ใกล้เคียงกับหมวดหมู่ที่คล้ายกัน : สิ่งนี้นำไปสู่ spilts ที่น้อยลงในปอยผมจึงลดเวลาดำเนินการ
- เมื่อจำนวนของคุณสมบัติที่เป็นหมวดหมู่ในชุดข้อมูลมีขนาดใหญ่: การเข้ารหัสหนึ่งคุณสมบัติของหมวดหมู่ที่มีค่าจำนวนมากสามารถนำไปสู่ (1) การใช้หน่วยความจำสูงและ (2) กรณีที่คุณสมบัติที่ไม่จัดหมวดหมู่โดยไม่ค่อยใช้ คุณสามารถจัดการกับกรณีที่ 1 หากคุณใช้เมทริกซ์กระจัดกระจาย กรณีที่ 2 สามารถเกิดขึ้นได้หากคุณสร้างแผนผังโดยใช้ฟีเจอร์ย่อยเท่านั้น ตัวอย่างเช่นหากคุณมีคุณสมบัติตัวเลข 9 ตัวและ 1 หมวดที่มีค่าไม่ซ้ำกัน 100 ค่าและคุณมีคุณสมบัติเข้ารหัสหนึ่งหมวดหมู่คุณจะได้รับ 109 คุณสมบัติ หากทรีถูกสร้างขึ้นด้วยชุดย่อยของคุณลักษณะเท่านั้นคุณลักษณะตัวเลข 9 ตัวแรกจะไม่ถูกนำมาใช้ ในกรณีนี้คุณสามารถเพิ่มขนาดการควบคุมพารามิเตอร์ของชุดย่อยนี้ ใน xgboost มันถูกเรียกว่า colsample_bytree ใน Random Forest max_features ของ sklearn
ในกรณีที่คุณต้องการดำเนินการกับ OHE ตามที่ @ AN6U5 แนะนำคุณอาจต้องการรวม PCA กับ OHE
ให้พิจารณาว่าเมื่อใดที่จะใช้การเข้ารหัส OHE และฉลากในขณะที่สร้างแบบจำลองที่ไม่ใช่แบบทรี
ในการใช้การเข้ารหัสฉลากการพึ่งพาระหว่างคุณลักษณะและเป้าหมายต้องเป็นแบบเชิงเส้นเพื่อให้การเข้ารหัสฉลากสามารถใช้งานได้อย่างมีประสิทธิภาพ
ในทำนองเดียวกันในกรณีที่การพึ่งพาไม่ใช่เชิงเส้นคุณอาจต้องการใช้ OHE เหมือนกัน
หมายเหตุ: คำอธิบายบางส่วนได้รับการอ้างอิงจากHow to Win a Data Science Competitionจาก Coursera