ในสหสัมพันธ์ cophenetic สำหรับการรวมกลุ่ม dendrogram


10

พิจารณาบริบทของการรวมกลุ่ม dendrogram ให้เราเรียกความแตกต่างเดิมระยะทางระหว่างบุคคล หลังจากสร้าง dendrogram เราจะกำหนดความแตกต่างของ copheneticระหว่างบุคคลสองคนเป็นระยะห่างระหว่างกลุ่มที่บุคคลเหล่านี้อยู่

บางคนคิดว่าความสัมพันธ์ระหว่างความแตกต่างดั้งเดิมและความแตกต่างของ cophenetic (เรียกว่าสหสัมพันธ์ cophenetic ) เป็น "ดัชนีความเหมาะสม" ของการจัดหมวดหมู่ เสียงนี้ทำให้ฉันงงงวยจริงๆ การคัดค้านของฉันไม่ได้ขึ้นอยู่กับตัวเลือกเฉพาะของสหสัมพันธ์ของเพียร์สัน แต่โดยทั่วไปแล้วความคิดใด ๆ ที่เชื่อมโยงระหว่างความแตกต่างเดิมกับความแตกต่างของ cophenetic อาจเกี่ยวข้องกับความเหมาะสมของการจำแนกประเภท

คุณเห็นด้วยกับฉันหรือคุณอาจเสนออาร์กิวเมนต์ที่สนับสนุนการใช้สหสัมพันธ์ cophenetic เป็นดัชนีความเหมาะสมสำหรับการจำแนก dendrogram?


คุณไม่ได้อธิบายคัดค้านของคุณไปยัง general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification(ที่ใช้งานง่ายมาก) การจำแนกประเภทควรสะท้อนถึงความแตกต่างดั้งเดิม คุณสมบัติพื้นฐานของการจำแนกประเภท Dendrogramic ในการทำเช่นนี้คือความแตกต่างของ cophenetic มี ไม่ถูกต้อง?
ttnphns

1
โดยวิธีการที่ไม่ควรผสมแนวคิดของลำดับชั้น (agglometative) การจัดกลุ่มที่มีลำดับชั้น (dendrogramic) การจัดหมวดหมู่ การจัดกลุ่มสร้าง dendrogram เป็นรายงานกระบวนการ มันไม่ได้เรียกร้องให้มันเป็นผลการจัดหมวดหมู่ตามลำดับชั้น
ttnphns

1
Cophenetic correlation ถูกเสนอขึ้นสำหรับการจำแนกประเภท "dogmatic" เท่านั้น - โดยที่การจำแนกควรสะท้อนถึงความแตกต่างของจำนวนคู่ดังนั้นความคิดเกี่ยวกับประโยชน์ของความสัมพันธ์ (cophenetic) ก็มีดังนี้
ttnphns

2
คุณอาจต้องการที่จะอ่านนี้กระดาษในความสัมพันธ์ cophenetic
ttnphns

3
@ StéphaneLaurentฉันไม่ได้มีส่วนร่วมในการตอบคำถามของคุณ แต่ฉันอ่านบทสนทนา ไม่มีอะไรที่คุณพูดฟังดูน่ารังเกียจสำหรับฉัน นอกจากนี้คุณบอกว่าคุณไม่ทราบความแตกต่างระหว่างการจำแนกและการจัดกลุ่มและฉันไม่ได้เห็นว่าคำถามง่าย ๆ ตอบ มันเป็นความแตกต่างระหว่างสิ่งที่คนเรียนรู้ด้วยเครื่องจักรเรียกว่าการเรียนรู้แบบมีผู้ดูแลและไม่มีการควบคุม ในการจัดหมวดหมู่คุณทราบฉลากคลาสทั้งหมดสำหรับข้อมูลของคุณและใช้ข้อมูลนั้นเพื่อสร้างกฎการจัดหมวดหมู่สำหรับกรณีในอนาคตที่ไม่มีป้ายกำกับ ในคลัสเตอร์คุณไม่มีการติดฉลาก
Michael R. Chernick

คำตอบ:


2

... คือ "ดัชนีความเหมาะสม" ของการจัดหมวดหมู่

สำหรับฉันมันไม่ถูกต้องชัดเจนว่าสิ่งที่มีความหมายโดยที่ วิธีที่ฉันได้มันคือ

ความสัมพันธ์ระหว่างความแตกต่างเดิมและความแตกต่างของ cophenetic (เรียกว่าความสัมพันธ์ของ cophenetic)

เป็นการวัดโครงสร้างลำดับชั้นในการสังเกตคือระยะทาง กล่าวคือความแตกต่างของการสังเกตในกลุ่มต่าง ๆ นั้นมีความคล้ายคลึงกันมากกว่า เมื่อพิจารณาถึงชุดข้อมูล A และ B ที่รวมกลุ่มโดยใช้ระยะทางแบบยุคลิดและการเชื่อมโยงที่สมบูรณ์ ... ป้อนคำอธิบายรูปภาพที่นี่ ... แม้จะไม่ได้ดูแผนที่ระยะทางแบบโคฟฟีเนติกหรือคำนวณความสัมพันธ์แบบโคฟฟีเนติก ในลำดับชั้นมีระดับ ดังนั้น CC จึงบอกว่าระยะทางไปสู่การสังเกตการณ์ในระดับเดียวกัน (กลุ่ม) จะคล้ายกันหรือไม่

เพื่อความสมบูรณ์: สหสัมพันธ์ cophenetic คือ CC (A) = 0.936 และ CC (B) = 0.691


1
ฉันหวังว่าฉันเป็นผู้เชี่ยวชาญในเรื่องนี้มากขึ้น ฉันไม่ได้ทำตามตัวอย่างของคุณด้วย heatmaps คุณเห็นว่าอะไรทำให้เห็นชัดเจนถึง CC (A)> CC (B) เช่นถ้าสามเหลี่ยมด้านบนเป็นระยะทาง cophenetic และสามเหลี่ยมล่างเป็นระยะทางดั้งเดิมและทั้งสองแสดงรูปแบบที่คล้ายกันฉันจะจำได้ว่า CC น่าจะสูง ฯลฯ W / พวกนี้ฉันไม่แน่ใจว่าจะอนุมานอย่างไร . มันเป็นเพียงแค่ว่า A จะก่อให้เกิดการรวมกลุ่มที่ดีขึ้น & ดังนั้น CC ที่เกิดขึ้นจะต้องจบลงด้วยการจับคู่ที่ดี?
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.