วิธีการคำนวณความบริสุทธิ์


15

ในการวิเคราะห์กลุ่มเราจะคำนวณความบริสุทธิ์ได้อย่างไร สมการคืออะไร?

ฉันไม่ได้มองหารหัสที่จะทำเพื่อฉัน

ป้อนคำอธิบายรูปภาพที่นี่

ให้เป็นคลัสเตอร์ k และเจเป็นชั้น Jωkcj

ดังนั้นความบริสุทธิ์ถูกต้องจริงหรือไม่ ดูเหมือนว่าจะรวมจำนวนคลาสที่จำแนกอย่างแท้จริงต่อคลัสเตอร์มากกว่าขนาดตัวอย่าง

แหล่งที่มาของสมการ

คำถามคือความสัมพันธ์ระหว่างผลลัพธ์และอินพุตคืออะไร

หากมีการบวกอย่างแท้จริง (TP), ลบอย่างแท้จริง (TN), บวกเท็จ (FP), ลบเท็จ (FN) มัน ?Purity=TPK(TP+TN+FP+FN)


3
หากคุณต้องการคำจำกัดความอย่างรวดเร็ว: การค้นหา google อันดับต้น ๆ บนลิงก์การแบ่งกลุ่มความบริสุทธิ์ ** ที่นี่ซึ่งให้คำจำกัดความทางคณิตศาสตร์ (** สำหรับฉันอย่างน้อย - ผลลัพธ์ของคุณอาจแตกต่างกัน)
Glen_b

ฉันไม่รู้ว่าคุณหมายถึงอะไรโดย 'ความบริสุทธิ์' แต่ David Colquhoun ใช้ "การวิเคราะห์มนต์ดำแห่งความบริสุทธิ์ของหัวใจ" เป็นตัวอย่างของการสุ่มตัวอย่างทวินามบนหน้า 111-114 ของตำราเรียนที่ยอดเยี่ยมเกี่ยวกับชีวสถิติ (1971) ให้บริการในรูปแบบ pdf ฟรีจากเว็บไซต์ของผู้เขียน: dcscience.netแม้ว่ามันจะไม่เกี่ยวข้องกับคำถามของคุณมันเป็นเรื่องที่ยอดเยี่ยม
Michael Lew

ในต้นไม้การจำแนกประเภทของฟังก์ชั่นในการวัดสิ่งเจือปนคือ: ข้อผิดพลาดในการเรียกคืน, ดัชนีจีนี (ต้นไม้การจำแนกประเภททำรูปแบบเฉพาะของการจัดกลุ่มดังนั้นฉันคิดว่านี่น่าจะเกี่ยวข้อง) หวังว่านี่จะช่วยได้!
Angelorf

คำตอบ:


25

ภายในบริบทของการวิเคราะห์กลุ่มPurity เป็นเกณฑ์การประเมินภายนอกคุณภาพคลัสเตอร์ เป็นเปอร์เซ็นต์ของจำนวนทั้งหมดของวัตถุ (จุดข้อมูล) ที่จำแนกอย่างถูกต้องในช่วงหน่วย [0..1]

Purity=1Ni=1kmaxj|citj|

โดยที่N = จำนวนของวัตถุ (จุดข้อมูล), k = จำนวนกลุ่ม, ciคือคลัสเตอร์ในC , และtjเป็นการจำแนกซึ่งมีจำนวนสูงสุดสำหรับคลัสเตอร์ci

เมื่อเราพูดว่า "ถูกต้อง" ซึ่งก็หมายความว่าแต่ละกลุ่มciได้ระบุกลุ่มของวัตถุเป็นชั้นเดียวกันกับที่ความจริงพื้นดินได้ระบุไว้ เราใช้การจัดหมวดหมู่ความจริงพื้นtiของวัตถุเหล่านั้นเป็นตัวชี้วัดของการกำหนดความถูกต้อง แต่จะทำเช่นนั้นเราจะต้องทราบว่าคลัสเตอร์ciแมปไปที่พื้นดินความจริงการจัดหมวดหมู่tiฉัน ถ้ามันแม่นยำ 100% แต่ละciจะจับคู่กับ 1 tiแต่ในความเป็นจริงcของเราciมีบางจุดที่ความจริงภาคพื้นจัดเป็นประเภทอื่น ๆ โดยธรรมชาติแล้วเราจะเห็นว่าคุณภาพการจัดกลุ่มสูงสุดจะได้รับโดยใช้ciจะtiทำแผนที่ซึ่งมีจำนวนมากที่สุดของการจำแนกประเภทที่ถูกต้องคือcitiฉันนั่นคือจุดที่maxมาจากในสมการ

การคำนวณความบริสุทธิ์ครั้งแรกของคุณสร้างความสับสนเมทริกซ์ นี้สามารถทำได้โดยการวนลูปผ่านแต่ละคลัสเตอร์ciและนับว่าวัตถุจำนวนมากถูกจัดให้เป็นแต่ละชั้นtiฉัน

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

ciเลือกค่าสูงสุดจากแถวรวมผลรวมเข้าด้วยกันแล้วหารด้วยจำนวนจุดข้อมูลทั้งหมด

Purity = (53 + 60 + 16) / 140 = 0.92142

คุณช่วยตอบเอนโทรปีได้ไหม
MonsterMMORPG

ที่นี่คำถามของฉัน: stackoverflow.com/questions/35709562/…
MonsterMMORPG

ฉันคิดว่าคุณ "ล้นตรรกะ" เมื่อพูดว่า "เสื้อJ is the classification ... max counts". There is no need for maxj then. By the way, high purity does not shows the correctness of classification, does it?
LRDPRDX
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.