การวางแผนข้อมูลคลัสเตอร์หลายมิติด้วยสายตา


17

ฉันมีชุดข้อมูลที่มี 16 ตัวแปรและหลังจากการจัดกลุ่มโดย kmeans ฉันต้องการลงจุดทั้งสองกลุ่ม

คุณแนะนำให้แปลงอะไรเป็นภาพสองกลุ่ม?

คำตอบ:


23

ไม่มีการสร้างภาพข้อมูลที่ถูกต้องเพียงอย่างเดียว ขึ้นอยู่กับลักษณะของคลัสเตอร์ที่คุณต้องการดูหรือเน้น

ต้องการดูว่าแต่ละตัวแปรมีส่วนช่วยอย่างไร พิจารณาพล็อตพิกัดขนาน

พิกัดขนานสำหรับสองคลัสเตอร์และคลัสเตอร์หมายถึง

คุณต้องการที่จะดูว่าการกระจายของกลุ่มตามองค์ประกอบหลักหรือไม่ พิจารณา biplot (ใน 2D หรือ 3D):

biplot ของคลัสเตอร์

คุณต้องการมองหาค่าผิดปกติของคลัสเตอร์ในทุกมิติหรือไม่ พิจารณาการกระจายของระยะทางจากศูนย์กลางของคลัสเตอร์ 1 ต่อระยะทางจากศูนย์กลางของคลัสเตอร์ 2 (โดยนิยามของ K หมายถึงแต่ละคลัสเตอร์จะตกที่ด้านหนึ่งของเส้นทแยงมุม)

ป้อนคำอธิบายรูปภาพที่นี่

คุณต้องการที่จะเห็นความสัมพันธ์แบบเป็นคู่เทียบกับการจัดกลุ่ม พิจารณา scatterplot matrix ที่มีสีเป็นกระจุก

ป้อนคำอธิบายรูปภาพที่นี่

คุณต้องการที่จะเห็นมุมมองสรุปของระยะทางคลัสเตอร์หรือไม่? พิจารณาเปรียบเทียบการสร้างภาพข้อมูลการแจกแจงใด ๆ เช่นฮิสโตแกรมพล็อตไวโอลินหรือพล็อตกล่อง

ป้อนคำอธิบายรูปภาพที่นี่


2

การแสดงหลายตัวแปรนั้นมีความยุ่งยากโดยเฉพาะอย่างยิ่งกับตัวแปรจำนวนนั้น ฉันมีสองข้อเสนอแนะ

หากมีตัวแปรบางอย่างที่มีความสำคัญต่อการจัดกลุ่มหรือน่าสนใจอย่างยิ่งคุณสามารถใช้เมทริกซ์กระจายและแสดงความสัมพันธ์แบบแปรผันระหว่างตัวแปรที่น่าสนใจของคุณ คุณยังสามารถใช้ scatterplots แบบปรับปรุง (เช่นใช้รูปร่างที่มีขนาดตามสัดส่วนกับตัวแปรที่สาม) เพื่อเพิ่มมิติข้อมูลเพิ่มเติม

หรือคุณสามารถใช้สปริงพล็อตซึ่งพัฒนาขึ้นเพื่อแสดงข้อมูลมิติสูงที่แสดงการจัดกลุ่ม หมายเหตุฉันไม่เคยเห็นสิ่งนี้ในวรรณคดีที่ฉันคุ้นเคย แต่ฉันคิดว่ามันเป็นวิธีที่น่าสนใจมากในการแสดงข้อมูลหลายตัวแปร การอ้างอิงต่อไปนี้เป็นตำแหน่งที่เสนอให้เริ่มต้น

Hoffman, PE และคณะ (1997) การขุด DNA ข้อมูลด้วยภาพและการวิเคราะห์ ในการดำเนินการตามมาตรฐาน IEEE Visualization Phoenix, AZ, pp. 437-441

และที่นี่คือที่ที่ฉันพบว่ามีการกล่าวถึงในตอนแรก

ตอนนี้คำเตือนที่เป็นธรรมฉันไม่สามารถหาการดำเนินการของ springplots นอก Orange ได้ จากนั้นอีกครั้งฉันไม่ได้ค้นหาอย่างหนัก!

ฉันสมมติว่าข้อมูลของคุณมีค่าจริงและต่อเนื่องหากไม่ต่อเนื่องหรือไม่ต่อเนื่องดังนั้นฉันไม่คิดว่าแปลงใดจะมีประโยชน์


1
มีการใช้ Radviz สำหรับ R: cran.r-project.org/web/packages/Radviz/vignettes/…
pmav99

1

คุณสามารถใช้ฟังก์ชั่น fviz_cluster จาก factoextra pacakge ใน R มันจะแสดงพล็อตกระจายของข้อมูลของคุณและสีที่แตกต่างกันของคะแนนจะเป็นกลุ่ม

เพื่อความเข้าใจที่ดีที่สุดของฉันฟังก์ชั่นนี้จะทำการ PCA จากนั้นเลือกพีซีสองอันดับแรกและวางแผนบน 2D

ข้อเสนอแนะ / การปรับปรุงใด ๆ ในคำตอบของฉันยินดีต้อนรับมากที่สุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.