อัลกอริทึมการเรียนรู้หลายอย่างจะเรียนรู้น้ำหนักเดียวต่อคุณลักษณะหรือใช้ระยะห่างระหว่างตัวอย่าง อดีตเป็นกรณีของแบบจำลองเชิงเส้นเช่นการถดถอยโลจิสติกส์ซึ่งง่ายต่อการอธิบาย
สมมติว่าคุณมีชุดข้อมูลที่มีคุณลักษณะเฉพาะหมวดหมู่ "สัญชาติ" เพียงรายการเดียวโดยมีค่าเป็น "สหราชอาณาจักร" "ฝรั่งเศส" และ "สหรัฐฯ" สมมติว่าไม่มีการสูญเสียลักษณะทั่วไปสิ่งเหล่านี้ถูกเข้ารหัสเป็น 0, 1 และ 2 จากนั้นคุณจะมีน้ำหนัก w สำหรับคุณสมบัตินี้ในลักษณนามเชิงเส้นซึ่งจะทำการตัดสินใจบางอย่างตามข้อ จำกัด w × x + b> 0 หรือเทียบเท่า w × x <b.
ปัญหาตอนนี้คือน้ำหนัก w ไม่สามารถเข้ารหัสทางเลือกสามทางได้ ค่าที่เป็นไปได้สามค่าของ w × x คือ 0, w และ 2 × w ทั้งสามอย่างนี้นำไปสู่การตัดสินใจเดียวกัน (ทั้งหมดคือ <b หรือ≥b) หรือ "สหราชอาณาจักร" และ "ฝรั่งเศส" นำไปสู่การตัดสินใจเดียวกันหรือ "ฝรั่งเศส" และ "สหรัฐฯ" ให้การตัดสินใจแบบเดียวกัน ไม่มีความเป็นไปได้ที่นางแบบจะเรียนรู้ว่า "UK" และ "US" ควรได้รับป้ายกำกับเดียวกันโดยมี "French" อยู่
ด้วยการเข้ารหัสเพียงครั้งเดียวคุณสามารถเพิ่มพื้นที่คุณลักษณะให้เป็นสามคุณลักษณะได้อย่างมีประสิทธิภาพซึ่งแต่ละคุณสมบัติจะได้รับน้ำหนักของตัวเองดังนั้นฟังก์ชันการตัดสินใจจึงเป็น w [UK] x [UK] + w [FR] x [FR] + w [US] x [US] <b โดยที่ x ทั้งหมดเป็นบูลีน ในช่องนี้ฟังก์ชันเชิงเส้นดังกล่าวสามารถแสดงผลรวม / ความไม่ลงรอยกันของความเป็นไปได้ (เช่น "สหราชอาณาจักรหรือสหรัฐอเมริกา" ซึ่งอาจเป็นตัวทำนายสำหรับคนที่พูดภาษาอังกฤษ)
ในทำนองเดียวกันผู้เรียนที่ใช้เมตริกระยะทางมาตรฐาน (เช่นเพื่อนบ้านที่ใกล้ที่สุด k) ระหว่างกลุ่มตัวอย่างจะสับสนโดยไม่ต้องเข้ารหัสเพียงครั้งเดียว ด้วยการเข้ารหัสแบบไร้เดียงสาและระยะทางแบบยุคลิดระยะห่างระหว่างฝรั่งเศสและสหรัฐอเมริกาคือ 1 ระยะห่างระหว่างสหรัฐอเมริกาและสหราชอาณาจักรคือ 2 แต่ด้วยการเข้ารหัสแบบร้อนแรงระยะทางคู่ระหว่าง [1, 0, 0], [0, 1 , 0] และ [0, 0, 1] ทั้งหมดเท่ากับ√2
สิ่งนี้ไม่เป็นความจริงสำหรับอัลกอริทึมการเรียนรู้ทั้งหมด ต้นไม้การตัดสินใจและแบบจำลองที่ได้รับเช่นฟอเรสต์แบบสุ่มหากลึกพอสามารถจัดการตัวแปรตามหมวดหมู่ได้โดยไม่ต้องเข้ารหัสเพียงครั้งเดียว