การจัดกลุ่มอย่างต่อเนื่อง


9

ดังนั้นฉันมีปัญหาที่ฉันกำลังเผชิญกับการจัดกลุ่มกับข้อมูลสดสตรีมมิ่งอย่างต่อเนื่อง เนื่องจากฉันมีชุดข้อมูลที่เติบโตขึ้นเรื่อย ๆ ฉันไม่แน่ใจว่าวิธีใดที่ดีที่สุดในการจัดกลุ่มที่มีประสิทธิภาพและประสิทธิผล ฉันคิดวิธีแก้ปัญหาที่เป็นไปได้สองสามประการ ได้แก่ :

  1. การตั้งค่าขีด จำกัด จำนวนจุดข้อมูลที่จะอนุญาตดังนั้นเมื่อใดก็ตามที่ถึงขีด จำกัด เมื่อจุดข้อมูลอื่นเข้ามาในจุดที่เก่าที่สุดจะถูกลบออก โดยพื้นฐานแล้วสิ่งนี้จะแนะนำว่าข้อมูลที่เก่ากว่านั้นไม่เกี่ยวข้องกับเราอีกต่อไปเพื่อดูแลสิ่งที่เรากำลังสูญเสียโดยการโยนทิ้ง

  2. เมื่อมีข้อมูลเพียงพอที่จะทำการจัดกลุ่มที่ดีให้พิจารณา "การตั้งค่า" นี้และเมื่อมีจุดใหม่มาแทนที่การจัดกลุ่มข้อมูลทั้งหมดใหม่เพียงแค่คิดว่าการจัดกลุ่มศูนย์กลางใดที่จุดใหม่อยู่ใกล้ที่สุดและเพิ่มเข้าไป ประโยชน์ที่นี่คือคุณสามารถหลีกเลี่ยงการจัดกลุ่มใหม่ในทุกจุดใหม่และคุณไม่จำเป็นต้องจัดเก็บจุดอื่น ๆ ทั้งหมดเพียงแค่ศูนย์คลัสเตอร์โดยพิจารณาจากการจัดกลุ่มนี้ "ดีพอ" ข้อเสียคือการเรียกใช้อัลกอริทึมใหม่กับจุดข้อมูลทั้งหมดตั้งแต่ต้นอาจมีความแม่นยำมากขึ้น

ในขณะที่เหล่านั้นเป็นวิธีแก้ปัญหาที่อาจเกิดขึ้นฉันระดมสมองฉันอยากจะรู้ว่ามีเทคนิคที่รู้จักกันดีกว่าที่จะเผชิญกับปัญหานี้ ฉันคิดว่าไซต์อย่าง Google ต้องจัดการกับมันอย่างใด (และฉันหวังว่า "เพิ่ม ram, เซิร์ฟเวอร์และโปรเซสเซอร์" หรือ "ขยายศูนย์ข้อมูลของคุณอย่างต่อเนื่อง" ไม่ใช่คำตอบเดียวที่มี)

คำตอบ:


6

ดูเหมือนว่าคุณกำลังมองหาอัลกอริทึมออนไลน์สำหรับการทำคลัสเตอร์

ฉันขอแนะนำให้ค้นหา "การทำคลัสเตอร์ออนไลน์" บน Google Scholar บางทีลิงก์ต่อไปนี้อาจเป็นประโยชน์ (อย่างน้อยก็เป็นจุดเริ่มต้น)


9

มีจำนวนงานที่ต้องทำในการจัดกลุ่มสตรีม (ซึ่งแตกต่างกันเล็กน้อยกับวิธีออนไลน์ แต่เป็นสิ่งที่คุณต้องการ) การอ้างอิงข้างต้นโดย Guha et al เป็นสิ่งที่ดีมากและสำหรับมุมมองที่กว้างขึ้นเกี่ยวกับชนิดของเทคนิคการทำงานและวิธีการที่ใช้ในอดีต (ทั้งการแก้ปัญหาและแม่นยำ) คุณอาจต้องการสำรวจแบบสำรวจของฉัน ในการจัดกลุ่มในลำธาร



4

ฉันชอบแบบสำรวจของ Suresh ด้านบนและสรุปวิธีการที่แตกต่างกันในการจัดกลุ่มสตรีม คุณไม่ได้ขอสิ่งนี้ แต่เป็นไปได้ในบางกรณีปัญหาคือว่าเซิร์ฟเวอร์ที่มีการกระจายข้อมูลอย่างต่อเนื่องจะเห็นข้อมูลอย่างใดอย่างหนึ่งต้องรักษาคลัสเตอร์ที่ศูนย์และไม่ต้องย้ายข้อมูลจำนวนมาก ดูที่นี่


ยินดีต้อนรับ Muthu!
Suresh Venkat
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.