ดังนั้นฉันมีปัญหาที่ฉันกำลังเผชิญกับการจัดกลุ่มกับข้อมูลสดสตรีมมิ่งอย่างต่อเนื่อง เนื่องจากฉันมีชุดข้อมูลที่เติบโตขึ้นเรื่อย ๆ ฉันไม่แน่ใจว่าวิธีใดที่ดีที่สุดในการจัดกลุ่มที่มีประสิทธิภาพและประสิทธิผล ฉันคิดวิธีแก้ปัญหาที่เป็นไปได้สองสามประการ ได้แก่ :
การตั้งค่าขีด จำกัด จำนวนจุดข้อมูลที่จะอนุญาตดังนั้นเมื่อใดก็ตามที่ถึงขีด จำกัด เมื่อจุดข้อมูลอื่นเข้ามาในจุดที่เก่าที่สุดจะถูกลบออก โดยพื้นฐานแล้วสิ่งนี้จะแนะนำว่าข้อมูลที่เก่ากว่านั้นไม่เกี่ยวข้องกับเราอีกต่อไปเพื่อดูแลสิ่งที่เรากำลังสูญเสียโดยการโยนทิ้ง
เมื่อมีข้อมูลเพียงพอที่จะทำการจัดกลุ่มที่ดีให้พิจารณา "การตั้งค่า" นี้และเมื่อมีจุดใหม่มาแทนที่การจัดกลุ่มข้อมูลทั้งหมดใหม่เพียงแค่คิดว่าการจัดกลุ่มศูนย์กลางใดที่จุดใหม่อยู่ใกล้ที่สุดและเพิ่มเข้าไป ประโยชน์ที่นี่คือคุณสามารถหลีกเลี่ยงการจัดกลุ่มใหม่ในทุกจุดใหม่และคุณไม่จำเป็นต้องจัดเก็บจุดอื่น ๆ ทั้งหมดเพียงแค่ศูนย์คลัสเตอร์โดยพิจารณาจากการจัดกลุ่มนี้ "ดีพอ" ข้อเสียคือการเรียกใช้อัลกอริทึมใหม่กับจุดข้อมูลทั้งหมดตั้งแต่ต้นอาจมีความแม่นยำมากขึ้น
ในขณะที่เหล่านั้นเป็นวิธีแก้ปัญหาที่อาจเกิดขึ้นฉันระดมสมองฉันอยากจะรู้ว่ามีเทคนิคที่รู้จักกันดีกว่าที่จะเผชิญกับปัญหานี้ ฉันคิดว่าไซต์อย่าง Google ต้องจัดการกับมันอย่างใด (และฉันหวังว่า "เพิ่ม ram, เซิร์ฟเวอร์และโปรเซสเซอร์" หรือ "ขยายศูนย์ข้อมูลของคุณอย่างต่อเนื่อง" ไม่ใช่คำตอบเดียวที่มี)