วิธีคลัสเตอร์ที่แข็งแกร่งสำหรับข้อมูลแบบผสมใน R


12

ฉันต้องการจัดกลุ่มชุดข้อมูลขนาดเล็ก (การสังเกต 64 ครั้งของตัวแปรช่วงเวลา 4 ตัวและตัวแปรหมวดหมู่สามปัจจัยเดียว) ตอนนี้ฉันค่อนข้างใหม่ในการวิเคราะห์กลุ่ม แต่ฉันรู้ว่ามีความคืบหน้าอย่างมากตั้งแต่วันที่การจัดกลุ่มแบบลำดับชั้นหรือ k-mean เป็นตัวเลือกที่ใช้ได้เท่านั้น โดยเฉพาะอย่างยิ่งดูเหมือนว่าวิธีการใหม่ของการจัดกลุ่มตามโมเดลนั้นมีอยู่ซึ่งชี้ให้เห็นโดย chlให้เปิดใช้งาน "ดัชนีความดี - พอดีพอดีในการตัดสินใจเกี่ยวกับจำนวนของกลุ่มหรือคลาส"

อย่างไรก็ตามแพคเกจ R มาตรฐานสำหรับการจัดกลุ่มตามแบบจำลองmclustจะไม่เหมาะกับรุ่นที่มีชนิดข้อมูลแบบผสม fpcรุ่นจะ แต่มีปัญหาในการกระชับรูปแบบที่ฉันสงสัยว่าเพราะธรรมชาติไม่ใช่เกาส์ของตัวแปรอย่างต่อเนื่อง ฉันควรจะทำตามแนวทางของแบบจำลองต่อไปหรือไม่? ฉันต้องการใช้ R ต่อไปถ้าเป็นไปได้ เท่าที่ฉันเห็นฉันมีตัวเลือกน้อย:

  1. mclustแปลงตัวแปรเด็ดขาดสามระดับเป็นสองตัวแปรหุ่นและการใช้งาน ฉันไม่แน่ใจว่านี่จะทำให้เกิดผลลัพธ์หรือไม่ แต่ถ้าไม่ใช่นี่คือตัวเลือกที่ฉันต้องการ
  2. แปลงตัวแปรอย่างต่อเนื่องและใช้fpcแพ็คเกจ
  3. ใช้แพ็คเกจ R อื่นที่ฉันยังไม่เคยพบมาก่อน
  4. สร้างเมทริกซ์ที่แตกต่างกันโดยใช้การวัดของโกเวอร์และใช้เทคนิคแบบลำดับชั้นหรือการย้ายฐานแบบดั้งเดิม

stats.se hivemind มีคำแนะนำใด ๆ หรือไม่


ในการแปลงข้อมูลหมวดหมู่ของคุณเป็นรหัสจำลอง (หนึ่งรหัสที่เข้ารหัสร้อน) คุณสามารถใช้ฟังก์ชัน dummy.data.frame ในฐานะที่เป็นอินพุตคุณสามารถให้ข้อมูลแบบผสมของคุณและเป็นผลลัพธ์มันเป็นเพียงการเข้ารหัสคนหมวด
Naghmeh

คำตอบ:


7

ฉันขอแนะนำให้คุณใช้Gowerกับการจัดกลุ่มลำดับชั้นตามมา การจัดกลุ่มตามลำดับชั้นยังคงมีความยืดหยุ่นและเหมาะสมที่สุดในกรณีที่มีวัตถุจำนวนน้อย (เช่น 64) หากตัวแปรเด็ดขาดของคุณคือเล็กน้อยโกเวอร์จะทำการถอดรหัสภายในเป็นตัวแปรจำลองและความคล้ายคลึงกันของลูกเต๋าพื้นฐาน (เป็นส่วนหนึ่งของโกเวอร์) ที่อยู่ภายใน หากตัวแปรของคุณเป็นอันดับคุณควรทราบว่าเวอร์ชันล่าสุดของค่าสัมประสิทธิ์ Gower สามารถรองรับได้เช่นกัน

สำหรับดัชนีจำนวนมากเพื่อกำหนดจำนวน "ดีที่สุด" ของคลัสเตอร์ส่วนใหญ่มีอยู่เป็นอิสระจากอัลกอริทึมนี้หรือการจัดกลุ่มที่ คุณไม่จำเป็นต้องค้นหาแพคเกจการรวมกลุ่มที่จำเป็นต้องรวมดัชนีดังกล่าวเพราะหลังอาจมีอยู่เป็นแพคเกจแยกต่างหาก คุณออกจากช่วงของการแก้ปัญหากลุ่มหลังจากแพคเกจการจัดกลุ่มแล้วเปรียบเทียบพวกเขาโดยดัชนีจากแพคเกจอื่น


ฉันลงเอยด้วยการไปตามเส้นทางนี้ขอบคุณสำหรับคำแนะนำ
fmark
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.