การหาเซนทรอยด์นั้นแตกต่างจากการหาค่าเฉลี่ยอย่างไร


26

เมื่อดำเนินการจัดกลุ่มแบบลำดับชั้นเราสามารถใช้หลายเมตริกเพื่อวัดระยะทางระหว่างกลุ่ม สองตัวชี้วัดดังกล่าวบ่งบอกถึงการคำนวณ centroids และวิธีการของจุดข้อมูลในกลุ่ม

ความแตกต่างระหว่างค่าเฉลี่ยและเซนทรอยด์คืออะไร? นี่ไม่ใช่จุดเดียวกันในคลัสเตอร์ใช่ไหม

คำตอบ:


38

เท่าที่ฉันรู้ "ค่าเฉลี่ย" ของกลุ่มและเซนทรอยด์ของกลุ่มเดียวเป็นสิ่งเดียวกันแม้ว่าคำว่า "เซนทรอยด์" อาจมีความแม่นยำมากกว่า "ค่าเฉลี่ย" เล็กน้อยเมื่อจัดการกับข้อมูลหลายตัวแปร

ในการค้นหาเซนทรอยด์หนึ่งจะคำนวณ (เลขคณิต) ค่าเฉลี่ยของตำแหน่งคะแนนแยกกันสำหรับแต่ละมิติ ตัวอย่างเช่นหากคุณมีคะแนนอยู่ที่:

  • (-1, 10, 3)
  • (0, 5, 2) และ
  • (1, 20, 10)

เซนทรอยด์จะอยู่ที่ ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3) ซึ่งลดความซับซ้อน (0, 11 2/3, 5) (หมายเหตุ: เซนทรอยด์ไม่จำเป็นต้องเป็นและไม่ค่อยมี - เป็นหนึ่งในจุดข้อมูลดั้งเดิม)

เซนทรอยด์บางครั้งก็เรียกว่าศูนย์กลางของมวลหรือแบริเซนเตอร์ตามการตีความทางกายภาพของมัน (เป็นศูนย์กลางของมวลของวัตถุที่กำหนดโดยจุด) เช่นเดียวกับค่าเฉลี่ยตำแหน่งของเซนทรอยด์จะช่วยลดระยะห่างรวมจากจุดอื่น ๆ ให้เหลือน้อยที่สุด

แนวคิดที่เกี่ยวข้องคือmedoidซึ่งเป็นจุดข้อมูลที่ "แตกต่างกันน้อยที่สุด" จากจุดข้อมูลอื่นทั้งหมด สิ่งที่แตกต่างจากเซนทรอยด์ตรงนั้นจะต้องเป็นจุดเดิม คุณอาจสนใจค่ามัธยฐานเรขาคณิตซึ่งเป็นค่ามัธยฐานของค่ามัธยฐาน แต่สำหรับข้อมูลหลายตัวแปร สิ่งเหล่านี้ต่างจากเซนทรอยด์

อย่างไรก็ตามในขณะที่เกบชี้ให้เห็นในคำตอบของเขามีความแตกต่างระหว่าง "ระยะทางเซนทรอยด์" และ "ระยะทางเฉลี่ย" เมื่อคุณเปรียบเทียบกลุ่ม ระยะ centroidระหว่างคลัสเตอร์และเป็นเพียงระยะห่างระหว่างและ(B) ระยะทางเฉลี่ยจะถูกคำนวณโดยการหาระยะทางจากจำนวนเฉลี่ยระหว่างจุดในแต่ละคลัสเตอร์ กล่าวอีกนัยหนึ่งสำหรับทุก ๆ จุดในคลัสเตอร์คุณคำนวณ , , ...B centroid ( A ) centroid ( B ) a i A dist ( a i , b 1 ) dist ( a i , b 2 ) dist ( a i , b n )ABcentroid(A)centroid(B)aiAdist(ai,b1)dist(ai,b2)dist(ai,bn) และหาค่าเฉลี่ยพวกมันทั้งหมดเข้าด้วยกัน


เซนทรอยด์และเม็ดยาภายใต้เงื่อนไขใดภายใต้เงื่อนไขเดียวกัน และทำไมเซนทรอยด์จึงเป็นตัวแทนที่ดีของชุดคะแนน
raikumardipak

@dkr คุณอาจต้องการถามคำถามนี้เป็นคำถามใหม่เพื่อรับการตอบสนองเพิ่มเติม (และเจาะลึกมากขึ้น) ที่กล่าวว่าความแตกต่างนั้นมีสองสิ่ง: 1) สิ่งที่จะย่อเล็กสุด (ระยะทางกำลังสอง / L2 ปกติสำหรับเซนทรอยด์, ระยะทางสัมบูรณ์ / มาตรฐาน L1 สำหรับ mediod) และ 2) การส่งออกอาจเป็นจุดใด ๆ (centroid) หรือ จะต้องอยู่ในชุดข้อมูล (mediod) คุณสามารถจินตนาการกรณีที่พวกเขาจะเหมือนกัน แต่โดยทั่วไปพวกเขาจะไม่ เซนทรอยด์นั้น "ดี" ด้วยเหตุผลเดียวกันกับที่ค่าเฉลี่ยคือ (ระยะทางรวมที่เล็กที่สุดกับจุด) และยังมีข้อเสียที่คล้ายกัน (เช่นไม่ทนทานต่อค่าผิดปกติ)
Matt Krause

4

คำตอบข้างต้นอาจไม่ถูกต้องดูวิดีโอนี้: https://www.youtube.com/watch?v=VMyXc3SiEqsดูเหมือนว่าโดยเฉลี่ยจะเป็นการรวมระยะทางทั้งหมดระหว่างองค์ประกอบของคลัสเตอร์ 1 และคลัสเตอร์ 2 - นั่นคือ n ^ 2 ระยะทางรวมเข้าด้วยกันแล้วหารด้วย n ^ 2 ถึงค่าเฉลี่ย

วิธี Centroid จะคำนวณค่าเฉลี่ยของแต่ละคลัสเตอร์ก่อน จากนั้นจะคำนวณระยะทางหนึ่งระหว่างคะแนนเฉลี่ยเหล่านั้น


1
สวัสดี Gabe! ฉันคิดว่าคุณกำลังพูดถึงส่วนนี้ของวิดีโอหรือไม่ เท่าที่ฉันรู้เซนทรอยด์และค่าเฉลี่ยของกระจุกเดียวก็เท่ากัน แต่อย่างที่คุณชี้ให้เห็นว่าระยะทางเซนทรอยด์และระยะทางเฉลี่ยระหว่างสองกลุ่มนั้นต่างกัน ฉันคิดว่า OP กำลังถามเกี่ยวกับอดีต แต่ฉันเพิ่งแก้ไขในส่วนหลังด้วยเช่นกัน ขอบคุณสำหรับการชี้ให้เห็น (+1) และยินดีต้อนรับสู่ Cross Validated!
Matt Krause

-1

centroid เป็นค่าเฉลี่ยของจุดข้อมูลในคลัสเตอร์จุด centroid ไม่จำเป็นต้องอยู่ในชุดข้อมูลในขณะที่ medoid เป็นจุดข้อมูลที่อยู่ใกล้กับ centroid, medoid จะต้องมีอยู่ในข้อมูลต้นฉบับ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.