ฉันพยายามหาวิธีการคำนวณดัชนีแรนด์ของอัลกอริทึมคลัสเตอร์ แต่ฉันติดอยู่ที่จุดวิธีการคำนวณเชิงลบที่แท้จริงและเท็จ
ตอนนี้ฉันใช้ตัวอย่างจากหนังสือ An Introduction to Information Retrieval (Manning, Raghavan & Schütze, 2009) ที่หน้า 359 พวกเขาพูดถึงวิธีคำนวณดัชนีแรนด์ สำหรับตัวอย่างนี้พวกเขาใช้สามกลุ่มและกลุ่มมีวัตถุต่อไปนี้
- aaaaab
- abbbbc
- aaccc
ฉันเปลี่ยนวัตถุ (สัญญาณเดิมเป็นตัวอักษร แต่ความคิดและจำนวนยังคงเหมือนเดิม) ฉันจะให้คำที่แน่นอนจากหนังสือเพื่อดูสิ่งที่พวกเขากำลังพูดถึง:
อันดับแรกเราคำนวณ TP + FP สามกลุ่มประกอบด้วย 6, 6 และ 5 คะแนนตามลำดับดังนั้นจำนวนรวมของ "ผลบวก" หรือคู่ของเอกสารที่อยู่ในคลัสเตอร์เดียวกันคือ:
TP + FP = + + = 15 + 15+ 10 = 40
ในบรรดาเหล่านี้คู่ในคลัสเตอร์ 1, คู่ b ในกลุ่ม 2, คู่ c ในกลุ่ม 3 และคู่ในกลุ่ม 3 เป็นผลบวกจริง:
TP = + + {3 \ select 2} + {2 \ select 2} = 10 + 6 + 3 + 1 = 20
ดังนั้น FP = 40 - 20 = 20
จนถึงที่นี่มีการคำนวณที่ชัดเจนและถ้าฉันนำตัวอย่างอื่น ๆ ฉันได้ผลลัพธ์เดียวกัน แต่เมื่อฉันต้องการคำนวณค่าลบเท็จและค่าลบจริง Manning และคณะ ระบุสิ่งต่อไปนี้:
FN และ TN คำนวณในทำนองเดียวกันผลลัพธ์ในตารางฉุกเฉินดังต่อไปนี้:
ตารางฉุกเฉินมีลักษณะดังนี้:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
ประโยค: "FN และ TN คำนวณในทำนองเดียวกัน" ไม่ชัดเจนกับฉันและฉันไม่เข้าใจว่าต้องคำนวณตัวเลขใดกับ TN และ FN ฉันสามารถคำนวณด้านขวาของตารางโดยทำสิ่งต่อไปนี้:
TP + FP + FN + TN = = = 136
ที่มา: http://en.wikipedia.org/wiki/Rand_index
ดังนั้น FN + TN = 136 - TP + FP = 136 - 40 = 96 แต่สิ่งนี้ไม่ได้ช่วยฉันในการหาวิธีการคำนวณตัวแปรแยกจากกัน โดยเฉพาะอย่างยิ่งเมื่อผู้เขียนพูดว่า: "FN และ TN คำนวณในทำนองเดียวกัน" ฉันไม่เห็นวิธี นอกจากนี้เมื่อฉันดูตัวอย่างอื่น ๆ พวกเขาคำนวณแต่ละเซลล์ของตารางฉุกเฉินโดยดูที่แต่ละคู่
ตัวอย่างเช่น: http://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
คำถามแรกของฉันตามตัวอย่างของ Manning et al (2009) เป็นไปได้หรือไม่ที่จะคำนวณ TN และ FN หากคุณรู้จัก TP & NP? และถ้าเป็นเช่นนั้นการคำนวณที่คล้ายกันจะมีลักษณะอย่างไรตามตัวอย่างที่กำหนด