วิธีตีความ dendrogram ของการวิเคราะห์คลัสเตอร์แบบลำดับชั้น


25

ลองพิจารณาตัวอย่าง R ด้านล่าง:

plot( hclust(dist(USArrests), "ave") )
  1. แกน y "ความสูง" หมายความว่าอะไร?

  2. มองไปที่นอร์ ธ แคโรไลน่าและแคลิฟอร์เนีย (ทางซ้าย) แคลิฟอร์เนียอยู่ใกล้กับนอร์ทแคโรไลนามากกว่าแอริโซนาหรือไม่ ฉันสามารถตีความได้ไหม

  3. ฮาวาย (ขวา) เข้าร่วมกลุ่มค่อนข้างช้า ฉันเห็นสิ่งนี้เพราะ "สูง" กว่ารัฐอื่น โดยทั่วไปแล้วฉันจะตีความความจริงว่าป้ายกำกับ "สูงกว่า" หรือ "ต่ำลง" ใน dendrogram ถูกต้องได้อย่างไร

ป้อนคำอธิบายรูปภาพที่นี่


1
?hclustคำตอบในการ
Scortchi - Reinstate Monica

3
ตำแหน่งของฉลากไม่มีความหมาย หากคุณไม่เข้าใจแกน y มันก็แปลกที่คุณจะเข้าใจการจัดกลุ่มแบบลำดับชั้นได้ดี
Stéphane Laurent

1
โปรดทราบว่าโดยทั่วไปการจัดกลุ่มแบบลำดับชั้นไม่ได้ให้การจำแนกแบบลำดับชั้น (แบบต้นไม้) ให้คุณ วิธีการเฉลี่ย (ที่คุณใช้) ไม่ได้โดยเฉพาะอย่างยิ่ง ดูจุดสุดท้ายที่นี่
ttnphns

1
ตำแหน่งของฉลากมีความหมายเล็กน้อย ตำแหน่งที่สูงกว่าวัตถุที่เชื่อมโยงกับผู้อื่นในภายหลังและด้วยเหตุนี้มากขึ้นเช่นมันเป็นค่าผิดปกติหรือหลงทาง
ttnphns

3
@ StéphaneLaurentคุณพูดถูกว่าเสียงนี้ขัดแย้งกัน ในมือฉันยังคงคิดว่าฉันสามารถ interendates dendogram ของข้อมูลที่ฉันรู้ดี นอกจากนี้ตำแหน่งของฉลากมีความหมายเพียงเล็กน้อยตามที่ ttnphns และ Peter Flom ชี้ให้เห็น ในที่สุดความคิดเห็นของคุณไม่สร้างสรรค์สำหรับฉัน
Ric

คำตอบ:


17

1) แกน y คือการวัดความใกล้ชิดของแต่ละจุดข้อมูลหรือกลุ่ม

2) แคลิฟอร์เนียและแอริโซนาอยู่ห่างจากฟลอริดาอย่างเท่าเทียมกันเนื่องจาก CA และ AZ อยู่ในกลุ่มก่อนที่จะเข้าร่วม FL

3) ฮาวายเข้าร่วมค่อนข้างช้า ที่ประมาณ 50 ซึ่งหมายความว่าคลัสเตอร์ที่รวมอยู่ใกล้กันก่อนที่ HI จะเข้าร่วม แต่ไม่ใกล้มากนัก โปรดทราบว่าคลัสเตอร์จะรวม (แบบฟอร์มทั้งหมดทางด้านขวา) จะมีรูปแบบที่ประมาณ 45 เท่านั้นความจริงที่ว่า HI เข้าร่วมคลัสเตอร์ในภายหลังกว่าสถานะอื่นใดก็หมายความว่า (ใช้ตัวชี้วัดที่คุณเลือก) HI ไม่ใกล้เคียงกับ รัฐใดโดยเฉพาะ


ดังนั้น "ความสูง" ทำให้ฉันมีความคิดเกี่ยวกับคุณค่าของเกณฑ์การเชื่อมโยง (ดังที่นี่ ) - ในกรณีของฉันระยะทางเฉลี่ยของกลุ่มซึ่งกันและกัน ถูกต้องหรือไม่ ขอบคุณ!
Ric

ไม่ได้เป็นแกน Y วัดของโรคความคล้ายคลึงกันระหว่างกลุ่มและจุด? Ie ลบความใกล้ชิดเพราะมันใหญ่ที่สุดเมื่อสิ่งต่าง ๆ มากที่สุดไม่ใช่วิธีอื่น ๆ รอบ ๆ @PeterFlom
Felipe Almeida

21

ฉันมีคำถามเดียวกันเมื่อฉันพยายามเรียนรู้การจัดกลุ่มแบบลำดับชั้นและฉันพบว่าไฟล์ PDF ต่อไปนี้มีประโยชน์มาก

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

แม้ว่าริชาร์ดจะมีความชัดเจนเกี่ยวกับกระบวนการ แต่คนอื่น ๆ ที่อ่านคำถามอาจใช้ PDF ได้ แต่มันก็ง่ายและชัดเจนสำหรับผู้ที่ไม่มีพื้นฐานทางคณิตศาสตร์เพียงพอ


3
เพียงแค่ต้องการย้ำอีกครั้งว่าไฟล์ PDF ที่เชื่อมโยงนั้นดีมาก
ไฮเซนเบิร์ก

การอ้างอิง: Klimberg, Ronald K. และ BD McCullough 2013“ บทที่ 7: การวิเคราะห์กลุ่มลำดับชั้น” ในพื้นฐานของการวิเคราะห์เชิงพยากรณ์ด้วย JMP Cary, NC: สถาบัน SAS
jay.sf

1

แกนแนวนอนแสดงถึงกลุ่ม สเกลแนวตั้งบน dendrogram เป็นตัวแทนของระยะทางหรือความแตกต่าง แต่ละการรวม (ฟิวชั่น) ของสองกลุ่มจะถูกแสดงบนแผนภาพโดยการแยกของเส้นแนวตั้งออกเป็นสองเส้นแนวตั้ง ตำแหน่งแนวตั้งของการแยกซึ่งแสดงโดยแถบสั้น ๆ จะให้ระยะห่าง (ไม่เหมือนกัน) ระหว่างสองกลุ่ม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.