คำถามติดแท็ก model-based-clustering

1
วิธีคลัสเตอร์ที่แข็งแกร่งสำหรับข้อมูลแบบผสมใน R
ฉันต้องการจัดกลุ่มชุดข้อมูลขนาดเล็ก (การสังเกต 64 ครั้งของตัวแปรช่วงเวลา 4 ตัวและตัวแปรหมวดหมู่สามปัจจัยเดียว) ตอนนี้ฉันค่อนข้างใหม่ในการวิเคราะห์กลุ่ม แต่ฉันรู้ว่ามีความคืบหน้าอย่างมากตั้งแต่วันที่การจัดกลุ่มแบบลำดับชั้นหรือ k-mean เป็นตัวเลือกที่ใช้ได้เท่านั้น โดยเฉพาะอย่างยิ่งดูเหมือนว่าวิธีการใหม่ของการจัดกลุ่มตามโมเดลนั้นมีอยู่ซึ่งชี้ให้เห็นโดย chlให้เปิดใช้งาน "ดัชนีความดี - พอดีพอดีในการตัดสินใจเกี่ยวกับจำนวนของกลุ่มหรือคลาส" อย่างไรก็ตามแพคเกจ R มาตรฐานสำหรับการจัดกลุ่มตามแบบจำลองmclustจะไม่เหมาะกับรุ่นที่มีชนิดข้อมูลแบบผสม fpcรุ่นจะ แต่มีปัญหาในการกระชับรูปแบบที่ฉันสงสัยว่าเพราะธรรมชาติไม่ใช่เกาส์ของตัวแปรอย่างต่อเนื่อง ฉันควรจะทำตามแนวทางของแบบจำลองต่อไปหรือไม่? ฉันต้องการใช้ R ต่อไปถ้าเป็นไปได้ เท่าที่ฉันเห็นฉันมีตัวเลือกน้อย: mclustแปลงตัวแปรเด็ดขาดสามระดับเป็นสองตัวแปรหุ่นและการใช้งาน ฉันไม่แน่ใจว่านี่จะทำให้เกิดผลลัพธ์หรือไม่ แต่ถ้าไม่ใช่นี่คือตัวเลือกที่ฉันต้องการ แปลงตัวแปรอย่างต่อเนื่องและใช้fpcแพ็คเกจ ใช้แพ็คเกจ R อื่นที่ฉันยังไม่เคยพบมาก่อน สร้างเมทริกซ์ที่แตกต่างกันโดยใช้การวัดของโกเวอร์และใช้เทคนิคแบบลำดับชั้นหรือการย้ายฐานแบบดั้งเดิม stats.se hivemind มีคำแนะนำใด ๆ หรือไม่

1
การเลือกรูปแบบ Mclust
แพ็คเกจ R mclustใช้ BIC เป็นเกณฑ์สำหรับการเลือกรูปแบบคลัสเตอร์ จากความเข้าใจของฉันควรเลือกรุ่นที่มี BIC ต่ำที่สุดเหนือรุ่นอื่น ๆ (ถ้าคุณสนใจเฉพาะ BIC เท่านั้น) อย่างไรก็ตามเมื่อค่า BIC เป็นลบทั้งหมดMclustฟังก์ชันจะใช้ค่าเริ่มต้นเป็นแบบจำลองที่มีค่า BIC สูงสุด เข้าใจโดยรวมของฉันจากการทดลองต่างๆที่mclustระบุ "ดีที่สุด" รุ่นที่เป็นผู้ที่มี\}max{BICi}max{BICi}max\{BIC_i\} ฉันพยายามที่จะเข้าใจว่าทำไมผู้เขียนตัดสินใจนี้ มันแสดงให้เห็นในเว็บไซต์ CRAN: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html นอกจากนี้ผู้เขียนของmclustบรรจุภัณฑ์ยังจดบันทึกสิ่งนี้ไว้ในวิธีการจำแนกประเภทแบบจำลองโดยใช้กระดาษ: การใช้ซอฟต์แวร์ mclust ในเคมีประยุกต์ในหน้า 5 โมเดล 'ที่ดีที่สุด' นั้นถูกนำมาใช้เป็นรุ่นที่มี BIC สูงที่สุดในบรรดารุ่นที่ติดตั้งไว้ ทุกคนสามารถเปล่งแสงในปัญหานี้ได้หรือไม่? ถ้า BIC ที่ต่ำกว่าดีกว่าอยู่เสมอทำไมผู้เขียนถึงไม่เลือกรุ่นที่มี BIC ต่ำสุด แต่แทนที่จะเป็นรุ่นที่มี BIC ที่เล็กที่สุด? ถ้าเป็นไปได้ให้อ้างอิง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.