ข้อกำหนดสำหรับการทำคลัสเตอร์แบบลำดับชั้น
การจัดกลุ่มตามลำดับชั้นสามารถใช้กับความคล้ายคลึงกันและมาตรการที่แตกต่างกันโดยพลการ (เครื่องมือส่วนใหญ่คาดว่าจะมีความแตกต่างกัน แต่จะอนุญาตให้มีค่าลบ - มันขึ้นอยู่กับคุณเพื่อให้แน่ใจว่ามีค่าขนาดเล็กหรือขนาดใหญ่หรือไม่)
เฉพาะวิธีการที่ขึ้นอยู่กับ centroids หรือความแปรปรวน (เช่นวิธีของ Ward) เป็นพิเศษและควรใช้กับ Euclidean กำลังสอง (เพื่อให้เข้าใจว่าทำไมโปรดศึกษาการเชื่อมโยงเหล่านี้อย่างรอบคอบ)
Single-linkage, average-linkage, -linkage สมบูรณ์ไม่ได้รับผลกระทบมากนัก แต่จะยังคงเป็นค่าต่ำสุด / เฉลี่ย / สูงสุดของความแตกต่างแบบคู่
ความสัมพันธ์เป็นตัววัดระยะทาง
หากคุณประมวลผลข้อมูลล่วงหน้าของคุณ ( การสังเกตการณ์คุณสมบัติ ) เช่นนั้นคุณลักษณะแต่ละอย่างจะมีและ (ซึ่งปิดคุณสมบัติไม่คงที่!) ดังนั้นความสัมพันธ์จะลดลงเป็นโคไซน์:nพีμ = 0σ= 1
Corr ( X, วาย) = Cov ( X, วาย)σXσY= E [ ( X- μX) ( Y- μY) ]σXσY= E [ XY] = 1n⟨ X, วาย⟩
ภายใต้เงื่อนไขเดียวกันระยะทางแบบยุคลิดสแควร์สแควร์จะลดลงเป็นโคไซน์:
d2Euclid( X, วาย) = ∑ ( Xผม- Yผม)2= ∑ X2ผม+ ∑ Y2ผม- 2 ∑ XผมYผม= 2 n - 2 ⟨ X, วาย⟩ = 2 n [ 1 - Corr ( X), วาย) ]
ดังนั้นยกเว้นว่าข้อมูลของคุณจะแย่ลงการใช้ความสัมพันธ์สำหรับการจัดกลุ่มแบบลำดับชั้นควรจะโอเค เพียงประมวลผลล่วงหน้าตามที่อธิบายไว้ข้างต้นจากนั้นใช้ระยะทางแบบยุคลิดแบบสแควร์