ให้ถือว่า mat_pages [] มีหน้าต่างๆในคอลัมน์ (ซึ่งคุณต้องการจัดกลุ่ม) และบุคคลในแถว คุณสามารถทำคลัสเตอร์หน้าตามข้อมูลแต่ละตัวใน Rby โดยใช้คำสั่งต่อไปนี้:
pc <- prcomp(x=mat_pages,center=TRUE,scale=TRUE)
เมทริกการโหลดคือเมทริกซ์ของ eigenvector ของการสลายตัวของ SVD ของข้อมูล พวกเขาให้น้ำหนักสัมพัทธ์ของแต่ละหน้าในการคำนวณคะแนน การโหลดที่มีค่าสัมบูรณ์ที่มากกว่าจะมีอิทธิพลมากกว่าในการกำหนดคะแนนขององค์ประกอบหลักการที่สอดคล้อง
อย่างไรก็ตามฉันควรชี้ให้เห็นว่าการใช้ PCA สั้น ๆในการทำคลัสเตอร์หน้า เหตุผลสำหรับสิ่งนี้คือการโหลดให้น้ำหนักที่มากขึ้นสำหรับ PAGES ที่มีความแปรปรวนสูงกว่าไม่ว่าการเปลี่ยนแปลงนี้จะเกิดขึ้นจริงเนื่องจากเนื้อหาของ PAGE หรือเหตุผลอื่น ๆ (อาจเป็นเทคนิคหรือความผันแปรของแต่ละบุคคล) การโหลดไม่จำเป็นต้องสะท้อนความแตกต่างที่แท้จริงระหว่างกลุ่มซึ่ง (อาจ) ความสนใจหลักของคุณ แต่การจัดกลุ่มนี้สะท้อนให้เห็นถึงความแตกต่างอย่างแท้จริงในกลุ่มภายใต้สมมติฐานที่ว่าหน้าทั้งหมดมีความแปรปรวนเดียวกัน (ฉันไม่รู้ว่านี่เป็นสมมติฐานที่ถูกต้องหรือไม่)
หากคุณมีระบบประมวลผลที่ทรงพลัง (ซึ่งอาจเป็นไปได้เมื่อกำหนดขนาดข้อมูลของคุณ) - การใช้ตัวแบบลำดับชั้นอาจเป็นความคิดที่ดี ใน R สามารถทำได้โดยใช้แพ็คเกจ lme4
หลังจากคุณได้คะแนนแล้วจะทำอย่างไร?
นี่คือข้อเสนอแนะที่หยาบและการวิเคราะห์ขึ้นอยู่กับว่าข้อมูลมีลักษณะอย่างไร นอกจากนี้ฉันเดาว่ากระบวนการนี้จะเป็นไปไม่ได้อย่างมากในการจัดกลุ่มข้อมูลขนาดที่คุณมี
pc.col <- paste("page", 1:27000, sep=".")
pdf("principle-components.pdf")
plot(pc$x[,1:2]) ## Just look at the 1st two loadings (as you can see the groupings in a plane)
dev.off()
หวังว่านี่จะช่วยให้คุณเห็นภาพว่าข้อมูลถูกจัดกลุ่มอย่างไร
คำเตือน:นี่ไม่ใช่สิ่งที่ฉันอยากจะแนะนำ
คำแนะนำของฉัน:
ปัญหาเช่นนี้เกิดขึ้นบ่อยครั้งในฟังก์ชั่นในหน้ากรณีของคุณสอดคล้องกับยีนและบุคคลที่สอดคล้องกับผู้ป่วย (โดยทั่วไปบุคคลที่มีความหมายเช่นเดียวกับในฟังก์ชั่น)
คุณต้องการจัดกลุ่มเพจตามข้อมูล
คุณสามารถใช้แพ็คเกจการทำคลัสเตอร์จำนวนมากใน R และได้รับคำตอบในคำตอบอื่น ๆ ปัญหาพื้นฐานกับแพคเกจก็เหมือน hclust คือวิธีการกำหนดจำนวนของกลุ่ม คนโปรดของฉันคือ:
- pvclust (ให้คุณเป็นกลุ่มและยังให้ค่า p สำหรับแต่ละคลัสเตอร์ด้วยการใช้ p-value คุณสามารถกำหนดกลุ่มที่มีนัยสำคัญทางสถิติปัญหา : ต้องใช้พลังการคำนวณจำนวนมากและฉันไม่แน่ใจว่ามันจะทำงานกับข้อมูลของคุณหรือไม่ ขนาด)
- hopach (ให้จำนวนคุณโดยประมาณกับกลุ่มและกลุ่ม)
- มีแพ็คเกจอื่น ๆ ที่มีอยู่ใน Bioconductor โปรดตรวจสอบในมุมมองงาน
คุณยังสามารถใช้ algos จัดกลุ่มได้เช่น k-mean เป็นต้นฉันแน่ใจว่าฉันเห็นเธรดในฟอรัมนี้เกี่ยวกับการทำคลัสเตอร์ คำตอบนั้นละเอียดมาก Tal Galili ถูกถามว่าฉันจำได้ถูกต้องหรือไม่