ตอนนี้ฉันมีเวลาเพียงคำตอบสั้น ๆ แต่ฉันจะพยายามขยายในภายหลัง
สิ่งที่คุณต้องการทำคือการจัดกลุ่มเนื่องจากคุณต้องการค้นหาป้ายกำกับสำหรับข้อมูลของคุณ (ตรงข้ามกับการจัดหมวดหมู่ที่คุณจะมีป้ายกำกับสำหรับข้อมูลอย่างน้อยบางส่วนและคุณต้องการติดป้ายกำกับที่เหลือ)
ในการดำเนินการทำคลัสเตอร์กับผู้ใช้ของคุณคุณต้องให้พวกเขาเป็นจุดบางอย่างในพื้นที่นามธรรม จากนั้นคุณจะวัดระยะทางระหว่างจุดต่าง ๆ และบอกว่าจุดที่ "ใกล้" เป็น "ที่คล้ายกัน" และติดป้ายตามสถานที่ในพื้นที่นั้น
คุณต้องแปลงข้อมูลของคุณให้เป็นสิ่งที่ดูเหมือนโปรไฟล์ผู้ใช้เช่น: ID ผู้ใช้ตามด้วยเวกเตอร์ของตัวเลขที่แสดงถึงคุณลักษณะของผู้ใช้รายนี้ ในกรณีของคุณคุณลักษณะแต่ละอย่างอาจเป็น "หมวดหมู่ของเว็บไซต์" หรือ "หมวดหมู่ของผลิตภัณฑ์" และจำนวนอาจเป็นจำนวนเงินที่ใช้เป็นเงินดอลลาร์ในคุณลักษณะนั้น หรือคุณลักษณะอาจเป็นการผสมผสานระหว่างเว็บและผลิตภัณฑ์แน่นอน
ตัวอย่างเช่นให้เราจินตนาการโปรไฟล์ผู้ใช้ที่มีคุณสมบัติสามอย่าง:
- ดอลลาร์ใช้จ่ายในเว็บ "techy"
- ดอลลาร์ที่ใช้ไปกับสินค้า "แฟชั่น"
- และดอลลาร์ใช้ไปกับวิดีโอเกม "ก้าวร้าว" บนเว็บที่ "เหมาะกับครอบครัว" (ใครจะรู้)
ในการสร้างโปรไฟล์เหล่านั้นคุณต้องแมป "หมวดหมู่" และ "คำหลัก" ที่คุณมีซึ่งมีอยู่มากเกินไปในคุณลักษณะที่คุณคิดว่ามีความเกี่ยวข้อง ดูการสร้างแบบจำลองหัวข้อหรือความคล้ายคลึงกันทางความหมายที่จะทำ เมื่อสร้างแผนที่นั้นจะระบุว่าดอลลาร์ทั้งหมดที่ใช้จ่ายบนเว็บด้วยคำหลัก "แกดเจ็ต", "อุปกรณ์อิเล็กทรอนิกส์", "โปรแกรม" และอื่น ๆ ควรรวมอยู่ในฟีเจอร์แรกของเรา และอื่น ๆ
อย่ากลัวที่จะ "จัดเก็บภาษี" คุณสมบัติ! คุณจะต้องปรับแต่งและอาจเปลี่ยนแปลงได้อย่างสมบูรณ์เมื่อคุณทำคลัสเตอร์ผู้ใช้
เมื่อคุณมีโปรไฟล์ผู้ใช้ให้ทำคลัสเตอร์เหล่านั้นโดยใช้วิธีkหรืออะไรก็ตามที่คุณคิดว่าน่าสนใจ ไม่ว่าคุณจะใช้เทคนิคใดคุณจะสนใจรับ "ตัวแทน" สำหรับแต่ละกลุ่ม โดยปกติจะเป็น "ศูนย์กลาง" ทางเรขาคณิตของจุดในคลัสเตอร์นั้น
พล็อตจุด "ตัวแทน" เหล่านั้นและวางแผนการเปรียบเทียบกับกลุ่มอื่น ๆ การใช้แผนภูมิเรดาร์มีประโยชน์มากที่นี่ ทุกที่ที่มีคุณลักษณะเด่น (บางสิ่งในตัวแทนที่มีการทำเครื่องหมายอย่างชัดเจนและยังโดดเด่นมากในการเปรียบเทียบกับกลุ่มอื่น ๆ ) เป็นผู้สมัครที่ดีที่จะช่วยให้คุณติดฉลากกลุ่มด้วยวลีลวง ("nerds", "fashionistas" , "คุณแม่ก้าวร้าว" ... )
โปรดจำไว้ว่าปัญหาการจัดกลุ่มเป็นปัญหาแบบเปิดดังนั้นจึงไม่มีวิธีแก้ปัญหา "ถูกต้อง"! และฉันคิดว่าคำตอบของฉันค่อนข้างยาวแล้ว ตรวจสอบเกี่ยวกับการทำให้ปกติของโปรไฟล์และการกรองค่าผิดปกติ