อัลกอริทึมการเรียนรู้ของเครื่องจำนวนมากเช่นเครือข่ายประสาทคาดหวังว่าจะจัดการกับตัวเลข ดังนั้นเมื่อคุณมีข้อมูลที่เป็นหมวดหมู่คุณจะต้องแปลงเป็น ตามหมวดหมู่ฉันหมายถึงตัวอย่างเช่น:
แบรนด์รถยนต์: Audi, BMW, Chevrolet ... รหัสผู้ใช้: 1, 25, 26, 28 ...
แม้ว่ารหัสผู้ใช้จะเป็นตัวเลข แต่เป็นเพียงป้ายกำกับและไม่ได้หมายถึงความต่อเนื่องเช่นอายุหรือจำนวนเงิน
ดังนั้นวิธีการพื้นฐานดูเหมือนว่าจะใช้เวกเตอร์ไบนารีเพื่อเข้ารหัสหมวดหมู่:
ออดี้: 1, 0, 0 ... BMW: 0, 1, 0 ... เชฟโรเลต: 0, 0, 1 ...
ไม่เป็นไรเมื่อมีหมวดหมู่น้อย แต่นอกเหนือจากนั้นก็ดูไม่มีประสิทธิภาพ ตัวอย่างเช่นเมื่อคุณมีรหัสผู้ใช้ 10,000 รหัสการเข้ารหัสมันคือ 10,000 คุณสมบัติ
คำถามคือจะมีวิธีที่ดีกว่า บางทีอาจเกี่ยวข้องกับความน่าจะเป็นหรือไม่