ฉันรู้ว่ามีอัลกอริธึมการจัดกลุ่ม k-mean และ k-median หนึ่งที่ใช้ค่าเฉลี่ยเป็นศูนย์กลางของคลัสเตอร์และอื่น ๆ ที่ใช้ค่ามัธยฐาน คำถามของฉันคือเมื่อใด / ที่ไหนที่จะใช้?
ฉันรู้ว่ามีอัลกอริธึมการจัดกลุ่ม k-mean และ k-median หนึ่งที่ใช้ค่าเฉลี่ยเป็นศูนย์กลางของคลัสเตอร์และอื่น ๆ ที่ใช้ค่ามัธยฐาน คำถามของฉันคือเมื่อใด / ที่ไหนที่จะใช้?
คำตอบ:
k- หมายถึงลดความแปรปรวนภายในคลัสเตอร์ซึ่งเท่ากับระยะทางแบบยุคลิดที่ถูกยกกำลังสอง
โดยทั่วไปค่าเฉลี่ยเลขคณิตทำเช่นนี้ มันไม่ได้ปรับระยะทางให้เหมาะสม แต่เป็นการเบี่ยงเบนกำลังสองจากค่าเฉลี่ย
k-medians ลดการเบี่ยงเบนสัมบูรณ์ซึ่งเท่ากับระยะทางของแมนฮัตตัน
โดยทั่วไปค่ามัธยฐานต่อแกนควรทำเช่นนี้ มันเป็นตัวประมาณที่ดีสำหรับค่าเฉลี่ยถ้าคุณต้องการลดผลรวมของการเบี่ยงเบนสัมบูรณ์ (นั่นคือ sum_i abs (x_i-y_i)) แทนที่จะเป็นค่ากำลังสอง
ไม่ใช่คำถามเกี่ยวกับความถูกต้อง มันเป็นคำถามของความถูกต้อง ;-)
นี่คือต้นไม้การตัดสินใจของคุณ:
ข้อยกเว้นบางประการ: เท่าที่ฉันสามารถบอกได้การเพิ่มความคล้ายคลึงโคไซน์ให้มากที่สุดนั้นสัมพันธ์กับการลดระยะทางแบบยุคลิดกำลังสองที่ลดลงบนข้อมูล L2 ที่ทำให้เป็นมาตรฐาน ดังนั้นหากข้อมูลของคุณถูกทำให้เป็นมาตรฐาน L2 และคุณทำให้ค่าเฉลี่ยของคุณซ้ำทุกครั้งจากนั้นคุณสามารถใช้ค่า k อีกครั้ง
หากคุณต้องการทำการวิเคราะห์ที่ไม่เกี่ยวข้องกับผลกระทบที่อาจเกิดขึ้นจากค่าที่มากที่สุดให้ใช้วิธี k แต่ถ้าคุณต้องการให้การใช้ k มีค่าถูกต้องมากขึ้น