ภายในบริบทของการวิเคราะห์กลุ่มPurity เป็นเกณฑ์การประเมินภายนอกคุณภาพคลัสเตอร์ เป็นเปอร์เซ็นต์ของจำนวนทั้งหมดของวัตถุ (จุดข้อมูล) ที่จำแนกอย่างถูกต้องในช่วงหน่วย [0..1]
Purity=1N∑i=1kmaxj|ci∩tj|
โดยที่N = จำนวนของวัตถุ (จุดข้อมูล), k = จำนวนกลุ่ม, ciคือคลัสเตอร์ในC , และtjเป็นการจำแนกซึ่งมีจำนวนสูงสุดสำหรับคลัสเตอร์ci
เมื่อเราพูดว่า "ถูกต้อง" ซึ่งก็หมายความว่าแต่ละกลุ่มciได้ระบุกลุ่มของวัตถุเป็นชั้นเดียวกันกับที่ความจริงพื้นดินได้ระบุไว้ เราใช้การจัดหมวดหมู่ความจริงพื้นtiของวัตถุเหล่านั้นเป็นตัวชี้วัดของการกำหนดความถูกต้อง แต่จะทำเช่นนั้นเราจะต้องทราบว่าคลัสเตอร์ciแมปไปที่พื้นดินความจริงการจัดหมวดหมู่tiฉัน ถ้ามันแม่นยำ 100% แต่ละciจะจับคู่กับ 1 tiแต่ในความเป็นจริงcของเราciมีบางจุดที่ความจริงภาคพื้นจัดเป็นประเภทอื่น ๆ โดยธรรมชาติแล้วเราจะเห็นว่าคุณภาพการจัดกลุ่มสูงสุดจะได้รับโดยใช้ciจะtiทำแผนที่ซึ่งมีจำนวนมากที่สุดของการจำแนกประเภทที่ถูกต้องคือci∩tiฉันนั่นคือจุดที่maxมาจากในสมการ
การคำนวณความบริสุทธิ์ครั้งแรกของคุณสร้างความสับสนเมทริกซ์ นี้สามารถทำได้โดยการวนลูปผ่านแต่ละคลัสเตอร์ciและนับว่าวัตถุจำนวนมากถูกจัดให้เป็นแต่ละชั้นtiฉัน
| T1 | T2 | T3
---------------------
C1 | 0 | 53 | 10
C2 | 0 | 1 | 60
C3 | 0 | 16 | 0
ciเลือกค่าสูงสุดจากแถวรวมผลรวมเข้าด้วยกันแล้วหารด้วยจำนวนจุดข้อมูลทั้งหมด
Purity = (53 + 60 + 16) / 140 = 0.92142