การจัดกลุ่มข้อมูลลูกค้าที่เก็บไว้ใน ElasticSearch


10

ฉันมีโปรไฟล์ลูกค้ามากมายเก็บไว้ใน กลุ่ม ตอนนี้ใช้โปรไฟล์เหล่านี้เพื่อสร้างกลุ่มเป้าหมายสำหรับการสมัครอีเมลของเรา

ขณะนี้กลุ่มเป้าหมายได้รับการจัดทำขึ้นด้วยตนเองโดยใช้ความสามารถในการค้นหาแบบเหลี่ยม (เช่นรับลูกค้าผู้ชายอายุ 23 ปีที่มีรถยนต์หนึ่งคันและเด็ก 3 คน)

ฉันจะค้นหากลุ่มที่น่าสนใจได้โดยอัตโนมัติโดยใช้วิทยาศาสตร์ข้อมูลการเรียนรู้ของเครื่องการจัดกลุ่มหรืออย่างอื่นได้อย่างไร

ภาษาการเขียนโปรแกรมดูเหมือนจะเป็นเครื่องมือที่ดีสำหรับงานนี้ แต่ฉันไม่สามารถสร้างวิธีการค้นหากลุ่มดังกล่าวได้ ทางออกหนึ่งคือค้นหากลุ่มลูกค้าที่ใหญ่ที่สุดและใช้พวกเขาเป็นกลุ่มเป้าหมายดังนั้นคำถามคือ:

ฉันจะเลือกกลุ่มลูกค้ารายใหญ่ที่สุดที่คล้ายกันโดยอัตโนมัติได้อย่างไร (คล้ายกับพารามิเตอร์ที่ฉันไม่ทราบในขณะนี้)

ตัวอย่างเช่น: โปรแกรมของฉันจะเชื่อมต่อกับ elasticsearch ลดปริมาณข้อมูลลูกค้าลงใน CSV และการใช้สคริปต์ภาษา R จะพบว่าลูกค้าส่วนใหญ่เป็นเพศชายที่ไม่มีลูกและลูกค้าส่วนใหญ่อีกคนมีรถยนต์และสีตาของพวกเขาเป็นสีน้ำตาล


1
คุณหมายถึงอะไรภายใต้ "กลุ่มที่น่าสนใจ" คุณมีรายการคุณสมบัติที่สำคัญที่กำหนดไว้ล่วงหน้าหรือไม่?
yatul

กลุ่มที่น่าสนใจคือกลุ่มที่มีขนาดใหญ่กว่าเกณฑ์และกลุ่มที่ใหญ่กว่ากลุ่มอื่น ๆ
Konstantin V. Salikhov

1
ยังไม่ชัดเจนว่าคุณจะดำเนินการขั้นตอนการเตรียมข้อมูลของคุณอย่างไร แต่คุณควรดูที่ขั้นตอนวิธีการอธิบายที่en.wikipedia.org/wiki/Anomaly_detection ถ้าฉันเป็นคุณฉันได้ตรวจสอบวิธี SVM ก่อน
yatul

ฉันได้อ่านเกี่ยวกับ SVM และฉันคิดว่ามันเกี่ยวกับการจัดหมวดหมู่ของข้อมูลที่สร้างขึ้นใหม่หลังจากการฝึกอบรมด้วยตนเองในชุดข้อมูลที่มีอยู่ - ไม่เกี่ยวกับการจัดกลุ่มข้อมูลที่มีอยู่และค้นหากลุ่มใหญ่ผิดปกติ ฉันถูกไหม? หากฉันเป็นเช่นนั้นวิธีนี้ไม่ใช่สิ่งที่ฉันต้องการ
Konstantin V. Salikhov

คำตอบ:


6

ขั้นตอนวิธีการหนึ่งที่สามารถนำมาใช้สำหรับการนี้เป็นk หมายถึงการจัดกลุ่มอัลกอริทึม

โดยทั่วไป:

  1. สุ่มเลือก k ดาต้าพอยน์จากชุด m_1, ... , m_k
  2. "จนกว่าการบรรจบกัน":

    1. กำหนดจุดข้อมูลของคุณให้กับ k คลัสเตอร์โดยที่คลัสเตอร์ i คือชุดของจุดที่ m_i ใกล้เคียงที่สุดกับค่าเฉลี่ยของคุณในปัจจุบัน
    2. แทนที่แต่ละ m_i ด้วยค่าเฉลี่ยของคะแนนทั้งหมดที่กำหนดให้กับคลัสเตอร์ i

เป็นวิธีปฏิบัติที่ดีที่จะทำซ้ำอัลกอริทึมนี้ซ้ำหลาย ๆ ครั้งจากนั้นเลือกผลลัพธ์ที่ช่วยลดระยะห่างระหว่างจุดของแต่ละคลัสเตอร์ i และศูนย์กลาง m_i

แน่นอนคุณต้องรู้จัก k เพื่อเริ่มต้นที่นี่ คุณสามารถใช้การตรวจสอบข้ามเพื่อเลือกพารามิเตอร์นี้ได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.