อัลกอริทึม k-mean มาตรฐานไม่สามารถใช้ได้โดยตรงกับข้อมูลที่จัดหมวดหมู่ด้วยเหตุผลต่างๆ พื้นที่ตัวอย่างสำหรับข้อมูลที่เป็นหมวดหมู่นั้นไม่ต่อเนื่องและไม่มีต้นกำเนิดตามธรรมชาติ ฟังก์ชั่นระยะทางแบบยุคลิดบนพื้นที่ดังกล่าวไม่ได้มีความหมายจริงๆ ดังที่มีคนกล่าวไว้ว่า "ความจริงแล้วงูมีทั้งล้อและขาไม่อนุญาตให้เราพูดอะไรเกี่ยวกับคุณค่าของล้อและขา" (จากที่นี่ )
มีการแปรผันของค่า k ที่รู้จักกันในชื่อ k-modes ซึ่งนำเสนอในบทความนี้โดย Zhexue Huang ซึ่งเหมาะสำหรับข้อมูลที่เป็นหมวดหมู่ โปรดทราบว่าโซลูชันที่คุณได้รับนั้นมีความอ่อนไหวต่อเงื่อนไขเริ่มต้นดังที่กล่าวไว้ที่นี่ (PDF)
กระดาษของหวาง (เชื่อมโยงด้านบน) ยังมีส่วนที่เกี่ยวกับ "k-prototypes" ซึ่งใช้กับข้อมูลที่มีการผสมผสานระหว่างคุณสมบัติที่เป็นหมวดหมู่และตัวเลข มันใช้การวัดระยะทางซึ่งผสมระยะทาง Hamming สำหรับคุณสมบัติที่เป็นหมวดหมู่และระยะทางแบบยุคลิดสำหรับคุณสมบัติที่เป็นตัวเลข
การค้นหาของ Google สำหรับ "k-หมายถึงการผสมผสานของข้อมูลเด็ดขาด" จะปรากฏขึ้นเมื่อเร็ว ๆ นี้อีกไม่กี่เอกสารเกี่ยวกับอัลกอริทึมต่างๆสำหรับการจัดกลุ่มคล้าย K หมายถึงด้วยการผสมผสานของข้อมูลที่เป็นหมวดหมู่และตัวเลข (ฉันยังไม่ได้อ่านพวกเขาดังนั้นฉันไม่สามารถแสดงความคิดเห็นเกี่ยวกับข้อดีของพวกเขา)
ที่จริงแล้วสิ่งที่คุณแนะนำ (การแปลงแอตทริบิวต์ที่เป็นหมวดหมู่ให้เป็นค่าไบนารี่จากนั้นทำ k-mean ราวกับว่านี่เป็นค่าตัวเลข) เป็นอีกวิธีหนึ่งที่เคยลองมาก่อน (predating k-โหมด) (ดู Ralambondrainy, H. 1995. อัลกอริธึมรุ่น k-mean แนวคิดของรูปแบบตัวอักษรการจดจำ, 16: 1147–1157) แต่ฉันเชื่อว่าวิธี k-mode เป็นที่ต้องการสำหรับเหตุผลที่ฉันระบุไว้ข้างต้น