สมมติว่าเรามีชุดขององค์ประกอบEและความคล้ายคลึงกัน ( ไม่ใช่ระยะทาง ) ฟังก์ชั่นซิม (EI, EJ)ระหว่างสององค์ประกอบEI, EJ ∈ E
เราจะจัดองค์ประกอบของEโดยใช้ซิมได้อย่างไร(อย่างมีประสิทธิภาพ)
ตัวอย่างเช่นk -means ต้องการk ที่ให้มา, Canopy Clustering ต้องการค่าสองค่า ถ้าเราไม่ต้องการพารามิเตอร์ที่กำหนดไว้ล่วงหน้า
โปรดทราบว่าซิมนั้นไม่จำเป็นต้องมีการวัด (เช่นความไม่เท่าเทียมกันของสามเหลี่ยมอาจหรืออาจไม่ถือ) ยิ่งกว่านั้นมันไม่สำคัญว่ากลุ่มจะแยกจากกัน (พาร์ติชันของE )
1-sim(ei, ej) = Distance
กว่า ด้วยการวัดระยะทางคุณสามารถใช้ตัวอย่างการจัดกลุ่มลำดับชั้น การลงมาจากรูทคุณจะเห็นว่ากลุ่มของกลุ่มข้อมูลระดับใดที่เหมาะสมสำหรับปัญหาเฉพาะของคุณ