ในข้อมูลหนึ่งมิติอย่าใช้การวิเคราะห์กลุ่ม
การวิเคราะห์กลุ่มมักเป็นเทคนิคหลายตัวแปร หรือให้ฉันใช้วิธีอื่นดีกว่า: สำหรับข้อมูลมิติเดียว - ซึ่งจัดเรียงอย่างสมบูรณ์ - มีเทคนิคที่ดีกว่ามาก การใช้ k-mean และเทคนิคที่คล้ายคลึงกันที่นี่คือของเสียทั้งหมดยกเว้นว่าคุณใช้ความพยายามมากพอที่จะปรับให้เหมาะสมสำหรับกรณี 1-d
เพื่อให้คุณตัวอย่าง: สำหรับ k- หมายความว่าเป็นเรื่องปกติที่จะใช้วัตถุสุ่ม k เป็นเมล็ดเริ่มต้น สำหรับข้อมูลมิติเดียวการทำได้ดีกว่าทำได้ง่ายเพียงแค่ใช้ควอนไทล์ที่เหมาะสม (1 / 2k, 3 / 2k, 5 / 2k เป็นต้น) หลังจากเรียงลำดับข้อมูลหนึ่งครั้งแล้วปรับให้เหมาะสมจากจุดเริ่มต้นนี้ อย่างไรก็ตามข้อมูล 2D ไม่สามารถจัดเรียงได้อย่างสมบูรณ์ และในตารางจะมีเซลล์ว่างอยู่
ฉันจะไม่เรียกมันว่าเป็นคลัสเตอร์ ฉันจะเรียกมันว่าช่วงเวลา สิ่งที่คุณต้องการทำจริงๆคือการปรับขอบเขตของช่วงเวลาให้เหมาะสม หากคุณใช้วิธี k ก็จะทดสอบแต่ละวัตถุถ้ามันควรจะย้ายไปยังกลุ่มอื่น ที่ไม่สมเหตุสมผลใน 1D: ต้องตรวจสอบเฉพาะวัตถุที่เส้นขอบช่วงเวลา เห็นได้ชัดว่าเร็วกว่ามากเนื่องจากมีเพียงวัตถุ 2k เท่านั้น หากพวกเขาไม่ได้ต้องการช่วงเวลาอื่น ๆ วัตถุกลางมากขึ้นจะไม่อย่างใดอย่างหนึ่ง
คุณอาจต้องการที่จะดูเป็นเทคนิคเช่นการเพิ่มประสิทธิภาพของเที่ยวบินไปเจงส์ธรรมชาติเช่น
หรือคุณสามารถทำการประมาณค่าความหนาแน่นของเคอร์เนลและมองหา local minima ของความหนาแน่นเพื่อแยก สิ่งที่ดีคือคุณไม่จำเป็นต้องระบุ k สำหรับสิ่งนี้!
PS โปรดใช้ฟังก์ชั่นการค้นหา ต่อไปนี้เป็นคำถามเกี่ยวกับการจัดกลุ่มข้อมูลแบบ 1 มิติที่คุณพลาด