ให้บอกว่าฉันต้องการสร้างลอจิสติกลอจิสติกสำหรับภาพยนตร์เอ็มคุณสมบัติของฉันจะเป็นเช่นอายุของบุคคลเพศอาชีพสถานที่ ดังนั้นชุดฝึกอบรมจะเป็นอย่างไร:
- อายุเพศอาชีพตำแหน่งชอบ (1) / ไม่ชอบ (0)
- 23 M ซอฟต์แวร์ US 1
- 24 F Doctor UK 0
และอื่น ๆ .... ตอนนี้คำถามของฉันคือฉันควรปรับขนาดและแสดงคุณสมบัติของฉันอย่างไร วิธีหนึ่งที่ฉันคิดว่า: แบ่งอายุเป็นกลุ่มอายุดังนั้น 18-25, 25-35, 35- ข้างต้นเพศเป็น M, F, สถานที่เช่นสหรัฐอเมริกา, อังกฤษ, อื่น ๆ ตอนนี้สร้างคุณสมบัติไบนารีสำหรับค่าเหล่านี้ดังนั้นอายุจะมี 3 คุณลักษณะไบนารีแต่ละที่สอดคล้องกับกลุ่มอายุและอื่น ๆ ดังนั้นผู้ชายอายุ 28 ปีจากสหรัฐอเมริกาจะถูกแสดงเป็น 010 10 100 (010-> กลุ่มอายุ 25-35, 10 -> ชาย, 100 -> US)
อะไรจะเป็นวิธีที่ดีที่สุดในการแสดงคุณสมบัติที่นี่ นอกจากนี้ฉันสังเกตเห็นในบาง e.gs ของ sklearn ที่ฟีเจอร์ทั้งหมดได้รับการปรับ / ทำให้เป็นมาตรฐานในบางวิธีเช่นเพศจะมีค่าสองค่าคือ 0.0045 และ -.0.0045 สำหรับเพศชายและเพศหญิง ฉันไม่มีเงื่อนงำใด ๆ ในการปรับขนาด / mormalization เช่นนี้?