โซลูชั่นสำหรับการจำแนกคลัสเตอร์ออนไลน์อย่างต่อเนื่อง?


11

ให้ฉันแสดงตัวอย่างของแอปพลิเคชันการจัดกลุ่มออนไลน์สมมุติ:

ป้อนคำอธิบายรูปภาพที่นี่

ณ เวลาที่มีการจัดสรร n คะแนน 1,2,3,4 ให้กับคลัสเตอร์สีน้ำเงิน A และคะแนน b จะมีการจัดสรร 5,6,7 ไปยังคลัสเตอร์ B สีแดง

ในเวลา n + 1 จุดใหม่ a ถูกแนะนำซึ่งถูกกำหนดให้กับคลัสเตอร์สีน้ำเงิน A แต่ยังทำให้จุด b ถูกกำหนดให้กับคลัสเตอร์สีน้ำเงิน A เช่นกัน

ในท้ายที่สุดคะแนน 1,2,3,4, a, b เป็นของ A และคะแนน 5,6,7 ถึง B สำหรับฉันนี่ดูเหมือนจะสมเหตุสมผล

สิ่งที่ดูเหมือนง่ายๆในตอนแรกนั้นเป็นเรื่องยากเล็กน้อย - เพื่อรักษาตัวระบุข้ามขั้นตอนเวลา ให้ฉันพยายามทำให้จุดนี้ชัดเจนขึ้นด้วยตัวอย่างของเส้นขอบที่มากขึ้น:

ป้อนคำอธิบายรูปภาพที่นี่

จุดสีเขียวจะทำให้จุดสีฟ้าสองและจุดสีแดงสองจุดถูกรวมเข้าด้วยกันเป็นหนึ่งกลุ่มซึ่งฉันตัดสินใจโดยไม่ตั้งใจว่าจะใช้สีฟ้า - ใจนี่เป็นความคิดแบบมนุษย์ของฉันที่ทำงานอยู่แล้ว!

คอมพิวเตอร์ในการตัดสินใจนี้จะต้องใช้กฎ ตัวอย่างเช่นเมื่อมีการรวมคะแนนเข้าในคลัสเตอร์ดังนั้นเอกลักษณ์ของคลัสเตอร์จะถูกกำหนดโดยเสียงส่วนใหญ่ ในกรณีนี้เราจะพบกับการดึง - ทั้งสีฟ้าและสีแดงอาจเป็นตัวเลือกที่ถูกต้องสำหรับกลุ่มใหม่ (ที่นี่มีสีน้ำเงิน)

ลองนึกภาพจุดสีแดงที่ห้าใกล้กับจุดสีเขียว ส่วนใหญ่จะเป็นสีแดง (3 สีแดงกับ 2 สีน้ำเงิน) ดังนั้นสีแดงจึงเป็นตัวเลือกที่ดีสำหรับกลุ่มใหม่ - แต่สิ่งนี้จะขัดแย้งกับตัวเลือกสีแดงที่ชัดเจนยิ่งขึ้นสำหรับกลุ่มด้านขวาสุดเนื่องจากสีแดงและน่าจะอยู่แบบนั้น .

ฉันคิดว่ามันน่ากลัวที่จะคิดเกี่ยวกับเรื่องนี้ ในตอนท้ายของวันที่ฉันเดาว่าไม่มีกฎที่สมบูรณ์แบบสำหรับเรื่องนี้ - ฮิวริสติกค่อนข้างดีที่จะเพิ่มความเสถียรให้กับสถานการณ์

ในที่สุดนี้นำไปสู่คำถามของฉัน:

  1. "ปัญหา" นี้มีชื่อที่สามารถอ้างอิงได้หรือไม่?
  2. มีวิธี "มาตรฐาน" สำหรับสิ่งนี้และ ...
  3. ... อาจมีแพ็กเกจ R สำหรับสิ่งนั้นอยู่ใช่ไหม

การสืบทอดที่เหมาะสมของเอกลักษณ์ของคลัสเตอร์ในการทำคลัสเตอร์ซ้ำ


ข้ามโพสต์จากสถิติstats.stackexchange.com/questions/111911/...และ StackOverflow: stackoverflow.com/questions/24970702/...
เลิก - anony-มูส

เป็นปัญหาที่คุณพยายามรักษาเอกลักษณ์ของกลุ่มให้มากที่สุดในแต่ละขั้นตอนหรือไม่ ดังนั้นที่ N + 1 คุณสามารถพูดได้ว่ามีการเปลี่ยนแปลงกลุ่มเพราะมีความสัมพันธ์ระหว่างกลุ่มที่ N และที่ N + 1? และหากินเป็นสิ่งที่เกิดขึ้นถ้ากลุ่มแยกและผสาน?
Spacedman

@Spacedman: BINGO :) joyofdata.de/blog/…
Raffael

ฉันขอเชิญคุณมาดูสิ่งนี้และสิ่งนี้
Farhawa

คำตอบ:


1

ภาวะที่กลืนไม่เข้าคายไม่ออก - ความคงตัว, อัตราการเรียนรู้และการลืมอัลกอริทึม:

ก่อนอื่นให้ฉันบอกว่านี่เป็นคำถามที่ยอดเยี่ยมจริงๆและเป็นประเภทของความคิดที่กระตุ้นให้เข้าใจอัลกอริทึม ML

  1. "ปัญหา" นี้มีชื่อที่สามารถอ้างอิงได้หรือไม่?

โดยทั่วไปจะเรียกว่า "ความมั่นคง" สิ่งที่ตลกคือความเสถียรเป็นจริงแนวคิดที่มีประโยชน์ในการจัดกลุ่มปกติเช่นไม่ออนไลน์ "ความมั่นคง" ของอัลกอริทึมมักถูกเลือกเป็นเกณฑ์การเลือกว่าจะเลือกกลุ่มที่เหมาะสมหรือไม่ stability-plasticity dilemmaโดยเฉพาะอย่างยิ่งปัญหาความมั่นคงออนไลน์จัดกลุ่มที่คุณได้อธิบายถูกเรียกว่า

  1. มีวิธี "มาตรฐาน" สำหรับสิ่งนี้และ ...

อย่างแรกคำตอบภาพรวมคืออัลกอริธึมการจัดกลุ่มออนไลน์จำนวนมากมีความเสถียรอย่างน่าประหลาดใจเมื่อพวกเขาได้รับการฝึกฝนมาอย่างดีพร้อมกับข้อมูลเริ่มต้นจำนวนมาก อย่างไรก็ตามมันยังคงเป็นปัญหาหากคุณต้องการตอกย้ำเอกลักษณ์ของกลุ่มจุดในขณะที่อนุญาตให้อัลกอริทึมตอบสนองต่อข้อมูลใหม่ ความยากง่ายของคุณจะได้รับการกล่าวถึงสั้น ๆ ในIntroduction to Machine Learningโดย Ethem Alpaydin ในหน้า 319เขาได้รับอัลกอริธึมออนไลน์ k-mean ผ่านแอพพลิเคชั่นการไล่ระดับสีแบบสุ่ม แต่ระบุว่าstability-plasticity dilemmaเกิดขึ้นเมื่อเลือกค่าสำหรับอัตราการเรียนรู้ อัตราการเรียนรู้ขนาดเล็กส่งผลให้เกิดความเสถียร แต่ระบบจะสูญเสียความสามารถในการปรับตัวเมื่ออัตราการเรียนรู้ขนาดใหญ่เพิ่มขึ้นการปรับตัวได้ แต่จะลดความเสถียรของคลัสเตอร์

ฉันเชื่อว่าเส้นทางที่ดีที่สุดคือการเลือกใช้การจัดกลุ่มออนไลน์ซึ่งช่วยให้คุณสามารถควบคุมอัลกอริธึมการไล่ระดับสีสุ่มและเลือกอัตราการเรียนรู้เพื่อให้คุณมีความเสถียรและปรับตัวได้ดีที่สุดเท่าที่จะทำได้

อีกวิธีหนึ่งที่ฉันเคยเห็นคือการใช้อัลกอริทึมบางอย่างเช่นการลืมจุดที่เก่ากว่าเมื่อสตรีมข้อมูลเติบโต สิ่งนี้ทำให้ระบบมีความเสถียรพอสมควรในช่วงเวลาที่รวดเร็วและช่วยให้วิวัฒนาการในช่วงเวลาที่ช้าลง ถูกสร้างขึ้นเพื่อพยายามที่จะแก้ปัญหาAdaptive Resonance Theory stability-plasticity dilemmaคุณอาจพบว่าบทความนี้น่าสนใจ

ฉันไม่ได้มีความเชี่ยวชาญเพียงพอใน R เพื่อแนะนำอัลกอริทึม แต่ฉันขอแนะนำให้คุณมองหาmini-batch k-meansอัลกอริทึมที่ช่วยให้คุณควบคุมอัตราการเรียนรู้ในอัลกอริทึมการไล่ระดับสีสุ่ม

ฉันหวังว่านี่จะช่วยได้!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.