k-mean เทียบกับ k-median?


14

ฉันรู้ว่ามีอัลกอริธึมการจัดกลุ่ม k-mean และ k-median หนึ่งที่ใช้ค่าเฉลี่ยเป็นศูนย์กลางของคลัสเตอร์และอื่น ๆ ที่ใช้ค่ามัธยฐาน คำถามของฉันคือเมื่อใด / ที่ไหนที่จะใช้?


คุณจะต้องกำหนดค่ามัธยฐาน (และอาจคำนวณได้) ถ้าคุณมีมิติมากกว่าหนึ่ง หากคุณใช้ค่ามัธยฐานในแต่ละค่าคุณจะสูญเสียคุณสมบัติการหมุน ความเป็นไปได้เพิ่มเติมคือk -medoids
Henry

คำตอบ:


14

k- หมายถึงลดความแปรปรวนภายในคลัสเตอร์ซึ่งเท่ากับระยะทางแบบยุคลิดที่ถูกยกกำลังสอง

โดยทั่วไปค่าเฉลี่ยเลขคณิตทำเช่นนี้ มันไม่ได้ปรับระยะทางให้เหมาะสม แต่เป็นการเบี่ยงเบนกำลังสองจากค่าเฉลี่ย

k-medians ลดการเบี่ยงเบนสัมบูรณ์ซึ่งเท่ากับระยะทางของแมนฮัตตัน

โดยทั่วไปค่ามัธยฐานต่อแกนควรทำเช่นนี้ มันเป็นตัวประมาณที่ดีสำหรับค่าเฉลี่ยถ้าคุณต้องการลดผลรวมของการเบี่ยงเบนสัมบูรณ์ (นั่นคือ sum_i abs (x_i-y_i)) แทนที่จะเป็นค่ากำลังสอง

ไม่ใช่คำถามเกี่ยวกับความถูกต้อง มันเป็นคำถามของความถูกต้อง ;-)

นี่คือต้นไม้การตัดสินใจของคุณ:

  • หากระยะทางของคุณคือระยะทางแบบยุคลิดกำลังสองให้ใช้k-mean
  • หากระยะทางของคุณคือTaxicab metricให้ใช้k-medians
  • หากคุณมีระยะทางอื่นให้ใช้k-medoids

ข้อยกเว้นบางประการ: เท่าที่ฉันสามารถบอกได้การเพิ่มความคล้ายคลึงโคไซน์ให้มากที่สุดนั้นสัมพันธ์กับการลดระยะทางแบบยุคลิดกำลังสองที่ลดลงบนข้อมูล L2 ที่ทำให้เป็นมาตรฐาน ดังนั้นหากข้อมูลของคุณถูกทำให้เป็นมาตรฐาน L2 และคุณทำให้ค่าเฉลี่ยของคุณซ้ำทุกครั้งจากนั้นคุณสามารถใช้ค่า k อีกครั้ง


ฉันค่อนข้างจะมีปัญหากับคำแถลงว่าค่ามัธยฐานลดระยะทางแมนฮัตตันเนื่องจากไม่มีการตกลงกันในแนวคิดของค่ามัธยฐานสำหรับข้อมูลหลายมิติ มันไม่ใช่เรื่องผิด แต่ฉันคิดว่ามันเป็นสิ่งที่ทำให้เข้าใจผิดในบริบทหลายมิติ มีภาพรวมหลายมิติหลายมิติของค่ามัธยฐานซึ่งส่วนใหญ่ไม่เกี่ยวข้องกับการลดระยะทางแมนฮัตตัน
Tim Seguine

1
ฉันเปลี่ยนสิ่งนี้เป็นค่ามัธยฐานต่อแกน ฉันหวังว่าคุณจะมีความสุขกว่านี้
มี QUIT - Anony-Mousse

2

หากคุณต้องการทำการวิเคราะห์ที่ไม่เกี่ยวข้องกับผลกระทบที่อาจเกิดขึ้นจากค่าที่มากที่สุดให้ใช้วิธี k แต่ถ้าคุณต้องการให้การใช้ k มีค่าถูกต้องมากขึ้น


5
คุณสามารถสนับสนุนและ / หรืออธิบายการยืนยันเหล่านี้ในทางใดทางหนึ่งได้หรือไม่?
jona

ใช่คุณช่วยอธิบายเพิ่มเติมได้ไหม ด้วยตัวอย่าง
Jack Twain

2
ฉันคิดว่าเป็นเพราะ "ค่ามัธยฐาน" สามารถทนต่อค่าผิดปกติ แต่ "ค่าเฉลี่ย" ได้รับผลกระทบโดยสิ้นเชิงจากพวกเขา ตัวอย่างเช่น: ถ้าเรามีจุดข้อมูล {1,2,3,5,78} มันชัดเจนว่า 78 เป็นค่าเริ่มต้น ค่ามัธยฐานของข้อมูลเหล่านี้คือ 3 และค่าเฉลี่ยคือ 17.8 ดังนั้นค่ามัธยฐานจึงเป็นวิธีที่ดีที่สุดในการสรุปข้อมูลเหล่านี้
Fadwa
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.