การทำคลัสเตอร์ชุดข้อมูลที่มีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง


33

ฉันมีชุดข้อมูล X ซึ่งมี 10 มิติซึ่ง 4 ในนั้นเป็นค่าที่ไม่ต่อเนื่อง อันที่จริงแล้วตัวแปรที่แยก 4 ตัวนั้นเป็นเลขลำดับนั่นคือค่าที่สูงกว่าหมายถึงความหมายที่สูงกว่า / ดีกว่า

2 ของตัวแปรที่ไม่ต่อเนื่องเหล่านี้มีการจัดหมวดหมู่ในแง่ที่ว่าสำหรับแต่ละตัวแปรเหล่านี้ระยะทางจาก 11 ถึง 12 จะไม่เหมือนกับระยะทางจาก 5 ถึง 6 ในขณะที่ค่าตัวแปรที่สูงกว่าหมายถึงความเป็นจริงที่สูงขึ้น ไม่จำเป็นต้องเป็นเชิงเส้น (อันที่จริงแล้วมันไม่ได้กำหนดจริงๆ)

คำถามของฉันคือ:

  • เป็นความคิดที่ดีหรือไม่ที่จะใช้อัลกอริธึมการจัดกลุ่มร่วมกัน (เช่น K-Means และ Gaussian Mixture (GMM)) กับชุดข้อมูลนี้ซึ่งมีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง?

ถ้าไม่:

  • ฉันควรจะลบตัวแปรที่แยกกันและมุ่งเน้นเฉพาะตัวแปรที่ต่อเนื่องหรือไม่?
  • ฉันควรแยกแยะสิ่งที่ต่อเนื่องกันดีกว่าและใช้อัลกอริทึมการจัดกลุ่มสำหรับข้อมูลที่ไม่ต่อเนื่องหรือไม่

3
คุณจำเป็นต้องค้นหาการวัดระยะทางที่ดี (มักจะเป็นงานที่ยากที่สุดในการจัดกลุ่ม): หากคุณสามารถค้นหาการวัดระยะทางที่ถูกต้องและแม่นยำอธิบายว่ารายการข้อมูลของคุณคล้ายกัน (หรือไม่) แล้วคุณไม่ควรมีปัญหาใด ๆ
Andrew

การพูดถึงตัวแปรเด็ดขาดทั้งสองแบบที่คุณใช้อธิบายว่ามันเป็นลำดับ ทีนี้ส่วนที่เหลือของตัวแปร 2 "อันดับ" คืออะไร? พวกเขาแตกต่างจากที่อื่นอย่างไร
ttnphns

พวกมันก็แยกกัน แต่ทั้งคู่ก็มีฟังก์ชั่นระยะทางที่มีความหมายนั่นคือพวกมันเป็นแบบอิงตามช่วงเวลา (ถ้าฉันไม่ได้ทำให้คำจำกัดความของช่วงอิง)
ptikobj

คำตอบ:


14

7

ฉันต้องจัดการกับปัญหาแบบนี้ในอดีตและฉันคิดว่าอาจมี 2 วิธีที่น่าสนใจ:

  • Continuousificationification: แปลงแอ็ตทริบิวต์สัญลักษณ์ด้วยลำดับของจำนวนเต็ม มีหลายวิธีในการทำเช่นนี้ทั้งหมดซึ่งอธิบายไว้ในบทความนี้ คุณสามารถลองใช้อัลกอริทึม NBF, VDM และ MDV

  • Discretization: แปลงคุณสมบัติต่อเนื่องเป็นค่าสัญลักษณ์ อีกครั้งหลายขั้นตอนวิธีและการบรรยายที่ดีในเรื่องนี้จะเป็นบทความนี้ ฉันเชื่อว่าวิธีที่ใช้กันมากที่สุดคือ 1R ของ Holte แต่วิธีที่ดีที่สุดที่จะทราบได้คือดู ROC curves กับอัลกอริทึมเช่น EWD, EFD, ID, LD หรือ NDD

เมื่อคุณมีคุณสมบัติทั้งหมดในพื้นที่เดียวกันมันจะกลายเป็นปัญหาการจัดกลุ่มตามปกติ

การเลือกระหว่างการทำให้เป็นต่อเนื่องหรือการแยกส่วนนั้นขึ้นอยู่กับชุดข้อมูลของคุณและคุณลักษณะของคุณมีลักษณะอย่างไรจึงเป็นการยากที่จะพูด แต่ฉันแนะนำให้คุณอ่านบทความที่ฉันให้ไว้ในหัวข้อนั้น


4

เห็นได้ชัดว่า K-หมายความว่าไม่มีเหตุผลใด ๆ เพราะมันหมายถึง (ซึ่งไร้สาระ) กันไปสำหรับ GMM

คุณอาจต้องการลองใช้อัลกอริทึมการจัดกลุ่มตามระยะทางพร้อมฟังก์ชั่นระยะทางที่เหมาะสมเช่น DBSCAN

ความท้าทายหลักคือการหาฟังก์ชั่นระยะทาง!

ในขณะที่คุณสามารถใส่ฟังก์ชั่นระยะทางที่แตกต่างกันเป็น k-mean มันจะยังคงคำนวณค่าเฉลี่ยที่อาจไม่สมเหตุสมผล (และอาจยุ่งกับฟังก์ชันระยะทางสำหรับค่าที่ไม่ต่อเนื่อง)

อย่างไรก็ตามก่อนอื่นให้เน้นที่การกำหนดว่า "คล้ายกัน" คืออะไร จากนั้นจัดกลุ่มโดยใช้คำนิยามที่คล้ายกันนี้!


2

หากคุณพอใจกับการทำงานของเมทริกซ์ระยะทางnum_of_samples x num_of_samplesคุณสามารถใช้งานrandom forestsได้เช่นกัน

คลิกที่นี่Unsupervised learning with random forest predictorsสำหรับกระดาษอ้างอิงบรรดาศักดิ์

ความคิดคือการสร้างชุดข้อมูลสังเคราะห์โดยshufflingค่าในชุดข้อมูลดั้งเดิมและการฝึกอบรมลักษณนามสำหรับการแยกทั้งสอง ระหว่างการจำแนกคุณจะได้รับinter-sample distance matrixซึ่งคุณสามารถทดสอบอัลกอริทึมการจัดกลุ่มที่คุณชื่นชอบ


-2

วิธีการผสมที่จะนำมาใช้: 1) ใช้เทคนิคการจำแนก (แผนภูมิการตัดสินใจ C4.5) เพื่อจำแนกข้อมูลที่กำหนดไว้เป็น 2 คลาส 2) เมื่อเสร็จแล้วให้ปล่อยตัวแปรเด็ดขาดและดำเนินการกับตัวแปรต่อเนื่องสำหรับการทำคลัสเตอร์


ฉันไม่สามารถทำตามคำแนะนำของคุณ เรียนสองวิชาไหนและจะช่วยได้อย่างไร
KarthikS

ฉันคิดว่าสิ่งที่ Swapnil Soni จำเป็นต้องพูดก็คือเมื่อเราใช้เทคนิคการจัดหมวดหมู่เพื่อจัดหมวดหมู่มันเป็นสองชั้น จากนั้นเราสามารถใช้เลเบลของเอาต์พุตการจำแนกประเภทเป็นตัวแปรไบนารี ดังนั้นแทนที่จะเป็นตัวแปรเด็ดขาดทั้งหมดคุณจะได้รับตัวแปรไบนารีที่บ่งบอกแล้วอัลกอริทึมการจัดกลุ่มของคุณสามารถดำเนินการกับข้อมูลได้ (ประกอบด้วยตัวแปรไบนารีต่อเนื่องบวกทั้งหมด 1 ตัว) การตีความของฉันอาจผิด
Tusharshar

ดีมาก!
Swapnil Soni
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.