เมื่อดำเนินการจัดกลุ่มแบบลำดับชั้นเราสามารถใช้หลายเมตริกเพื่อวัดระยะทางระหว่างกลุ่ม สองตัวชี้วัดดังกล่าวบ่งบอกถึงการคำนวณ centroids และวิธีการของจุดข้อมูลในกลุ่ม
ความแตกต่างระหว่างค่าเฉลี่ยและเซนทรอยด์คืออะไร? นี่ไม่ใช่จุดเดียวกันในคลัสเตอร์ใช่ไหม
เมื่อดำเนินการจัดกลุ่มแบบลำดับชั้นเราสามารถใช้หลายเมตริกเพื่อวัดระยะทางระหว่างกลุ่ม สองตัวชี้วัดดังกล่าวบ่งบอกถึงการคำนวณ centroids และวิธีการของจุดข้อมูลในกลุ่ม
ความแตกต่างระหว่างค่าเฉลี่ยและเซนทรอยด์คืออะไร? นี่ไม่ใช่จุดเดียวกันในคลัสเตอร์ใช่ไหม
คำตอบ:
เท่าที่ฉันรู้ "ค่าเฉลี่ย" ของกลุ่มและเซนทรอยด์ของกลุ่มเดียวเป็นสิ่งเดียวกันแม้ว่าคำว่า "เซนทรอยด์" อาจมีความแม่นยำมากกว่า "ค่าเฉลี่ย" เล็กน้อยเมื่อจัดการกับข้อมูลหลายตัวแปร
ในการค้นหาเซนทรอยด์หนึ่งจะคำนวณ (เลขคณิต) ค่าเฉลี่ยของตำแหน่งคะแนนแยกกันสำหรับแต่ละมิติ ตัวอย่างเช่นหากคุณมีคะแนนอยู่ที่:
เซนทรอยด์จะอยู่ที่ ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3) ซึ่งลดความซับซ้อน (0, 11 2/3, 5) (หมายเหตุ: เซนทรอยด์ไม่จำเป็นต้องเป็นและไม่ค่อยมี - เป็นหนึ่งในจุดข้อมูลดั้งเดิม)
เซนทรอยด์บางครั้งก็เรียกว่าศูนย์กลางของมวลหรือแบริเซนเตอร์ตามการตีความทางกายภาพของมัน (เป็นศูนย์กลางของมวลของวัตถุที่กำหนดโดยจุด) เช่นเดียวกับค่าเฉลี่ยตำแหน่งของเซนทรอยด์จะช่วยลดระยะห่างรวมจากจุดอื่น ๆ ให้เหลือน้อยที่สุด
แนวคิดที่เกี่ยวข้องคือmedoidซึ่งเป็นจุดข้อมูลที่ "แตกต่างกันน้อยที่สุด" จากจุดข้อมูลอื่นทั้งหมด สิ่งที่แตกต่างจากเซนทรอยด์ตรงนั้นจะต้องเป็นจุดเดิม คุณอาจสนใจค่ามัธยฐานเรขาคณิตซึ่งเป็นค่ามัธยฐานของค่ามัธยฐาน แต่สำหรับข้อมูลหลายตัวแปร สิ่งเหล่านี้ต่างจากเซนทรอยด์
อย่างไรก็ตามในขณะที่เกบชี้ให้เห็นในคำตอบของเขามีความแตกต่างระหว่าง "ระยะทางเซนทรอยด์" และ "ระยะทางเฉลี่ย" เมื่อคุณเปรียบเทียบกลุ่ม ระยะ centroidระหว่างคลัสเตอร์และเป็นเพียงระยะห่างระหว่างและ(B) ระยะทางเฉลี่ยจะถูกคำนวณโดยการหาระยะทางจากจำนวนเฉลี่ยระหว่างจุดในแต่ละคลัสเตอร์ กล่าวอีกนัยหนึ่งสำหรับทุก ๆ จุดในคลัสเตอร์คุณคำนวณ , , ...B centroid ( A ) centroid ( B ) a i A dist ( a i , b 1 ) dist ( a i , b 2 ) dist ( a i , b n ) และหาค่าเฉลี่ยพวกมันทั้งหมดเข้าด้วยกัน
คำตอบข้างต้นอาจไม่ถูกต้องดูวิดีโอนี้: https://www.youtube.com/watch?v=VMyXc3SiEqsดูเหมือนว่าโดยเฉลี่ยจะเป็นการรวมระยะทางทั้งหมดระหว่างองค์ประกอบของคลัสเตอร์ 1 และคลัสเตอร์ 2 - นั่นคือ n ^ 2 ระยะทางรวมเข้าด้วยกันแล้วหารด้วย n ^ 2 ถึงค่าเฉลี่ย
วิธี Centroid จะคำนวณค่าเฉลี่ยของแต่ละคลัสเตอร์ก่อน จากนั้นจะคำนวณระยะทางหนึ่งระหว่างคะแนนเฉลี่ยเหล่านั้น
centroid เป็นค่าเฉลี่ยของจุดข้อมูลในคลัสเตอร์จุด centroid ไม่จำเป็นต้องอยู่ในชุดข้อมูลในขณะที่ medoid เป็นจุดข้อมูลที่อยู่ใกล้กับ centroid, medoid จะต้องมีอยู่ในข้อมูลต้นฉบับ