ฉันมีชุดข้อมูลที่มี 16 ตัวแปรและหลังจากการจัดกลุ่มโดย kmeans ฉันต้องการลงจุดทั้งสองกลุ่ม
คุณแนะนำให้แปลงอะไรเป็นภาพสองกลุ่ม?
ฉันมีชุดข้อมูลที่มี 16 ตัวแปรและหลังจากการจัดกลุ่มโดย kmeans ฉันต้องการลงจุดทั้งสองกลุ่ม
คุณแนะนำให้แปลงอะไรเป็นภาพสองกลุ่ม?
คำตอบ:
ไม่มีการสร้างภาพข้อมูลที่ถูกต้องเพียงอย่างเดียว ขึ้นอยู่กับลักษณะของคลัสเตอร์ที่คุณต้องการดูหรือเน้น
ต้องการดูว่าแต่ละตัวแปรมีส่วนช่วยอย่างไร พิจารณาพล็อตพิกัดขนาน
คุณต้องการที่จะดูว่าการกระจายของกลุ่มตามองค์ประกอบหลักหรือไม่ พิจารณา biplot (ใน 2D หรือ 3D):
คุณต้องการมองหาค่าผิดปกติของคลัสเตอร์ในทุกมิติหรือไม่ พิจารณาการกระจายของระยะทางจากศูนย์กลางของคลัสเตอร์ 1 ต่อระยะทางจากศูนย์กลางของคลัสเตอร์ 2 (โดยนิยามของ K หมายถึงแต่ละคลัสเตอร์จะตกที่ด้านหนึ่งของเส้นทแยงมุม)
คุณต้องการที่จะเห็นความสัมพันธ์แบบเป็นคู่เทียบกับการจัดกลุ่ม พิจารณา scatterplot matrix ที่มีสีเป็นกระจุก
คุณต้องการที่จะเห็นมุมมองสรุปของระยะทางคลัสเตอร์หรือไม่? พิจารณาเปรียบเทียบการสร้างภาพข้อมูลการแจกแจงใด ๆ เช่นฮิสโตแกรมพล็อตไวโอลินหรือพล็อตกล่อง
การแสดงหลายตัวแปรนั้นมีความยุ่งยากโดยเฉพาะอย่างยิ่งกับตัวแปรจำนวนนั้น ฉันมีสองข้อเสนอแนะ
หากมีตัวแปรบางอย่างที่มีความสำคัญต่อการจัดกลุ่มหรือน่าสนใจอย่างยิ่งคุณสามารถใช้เมทริกซ์กระจายและแสดงความสัมพันธ์แบบแปรผันระหว่างตัวแปรที่น่าสนใจของคุณ คุณยังสามารถใช้ scatterplots แบบปรับปรุง (เช่นใช้รูปร่างที่มีขนาดตามสัดส่วนกับตัวแปรที่สาม) เพื่อเพิ่มมิติข้อมูลเพิ่มเติม
หรือคุณสามารถใช้สปริงพล็อตซึ่งพัฒนาขึ้นเพื่อแสดงข้อมูลมิติสูงที่แสดงการจัดกลุ่ม หมายเหตุฉันไม่เคยเห็นสิ่งนี้ในวรรณคดีที่ฉันคุ้นเคย แต่ฉันคิดว่ามันเป็นวิธีที่น่าสนใจมากในการแสดงข้อมูลหลายตัวแปร การอ้างอิงต่อไปนี้เป็นตำแหน่งที่เสนอให้เริ่มต้น
Hoffman, PE และคณะ (1997) การขุด DNA ข้อมูลด้วยภาพและการวิเคราะห์ ในการดำเนินการตามมาตรฐาน IEEE Visualization Phoenix, AZ, pp. 437-441
และที่นี่คือที่ที่ฉันพบว่ามีการกล่าวถึงในตอนแรก
ตอนนี้คำเตือนที่เป็นธรรมฉันไม่สามารถหาการดำเนินการของ springplots นอก Orange ได้ จากนั้นอีกครั้งฉันไม่ได้ค้นหาอย่างหนัก!
ฉันสมมติว่าข้อมูลของคุณมีค่าจริงและต่อเนื่องหากไม่ต่อเนื่องหรือไม่ต่อเนื่องดังนั้นฉันไม่คิดว่าแปลงใดจะมีประโยชน์
คุณสามารถใช้ฟังก์ชั่น fviz_cluster จาก factoextra pacakge ใน R มันจะแสดงพล็อตกระจายของข้อมูลของคุณและสีที่แตกต่างกันของคะแนนจะเป็นกลุ่ม
เพื่อความเข้าใจที่ดีที่สุดของฉันฟังก์ชั่นนี้จะทำการ PCA จากนั้นเลือกพีซีสองอันดับแรกและวางแผนบน 2D
ข้อเสนอแนะ / การปรับปรุงใด ๆ ในคำตอบของฉันยินดีต้อนรับมากที่สุด