ฉันมีเมทริกซ์โดยที่คือจำนวนยีนและคือจำนวนผู้ป่วย ทุกคนที่ทำงานกับข้อมูลดังกล่าวรู้ว่านั้นใหญ่กว่าเสมอ โดยใช้การเลือกคุณลักษณะฉันมีอากาศลงไปจำนวนที่เหมาะสมมากขึ้น แต่ยังคงสูงกว่าn
ฉันต้องการคำนวณความคล้ายคลึงกันของผู้ป่วยตามโปรไฟล์ทางพันธุกรรมของพวกเขา ฉันสามารถใช้ระยะทางแบบยุคลิดได้ แต่มาฮาโลโนบิสดูเหมือนจะเหมาะสมกว่าเพราะมันเกี่ยวข้องกับความสัมพันธ์ระหว่างตัวแปร ปัญหาที่เกิดขึ้น (ตามที่ระบุไว้ในนี้โพสต์ ) เป็นว่าระยะทาง Mahalanobis เฉพาะเมทริกซ์ความแปรปรวนร่วมไม่ทำงานเมื่อ<p เมื่อฉันเรียกใช้ระยะทาง Mahalanobis ใน R ข้อผิดพลาดที่ฉันได้รับคือ:
Error in solve.default(cov, ...) : system is computationally
singular: reciprocal condition number = 2.81408e-21
จนถึงตอนนี้ที่จะลองแก้ปัญหานี้ฉันใช้ PCA และแทนที่จะใช้ยีนฉันใช้ส่วนประกอบและดูเหมือนว่าจะทำให้ฉันคำนวณระยะทาง Mahalanobis ได้ 5 ส่วนประกอบแทนประมาณ 80% ของความแปรปรวนดังนั้นตอนนี้P
คำถามของฉันคือ:ฉันสามารถใช้ PCA เพื่อให้ได้ระยะทาง Mahalanobis ที่มีความหมายระหว่างผู้ป่วยหรือไม่เหมาะสมหรือไม่? มีการวัดระยะทางอื่นที่ทำงานเมื่อและมีความสัมพันธ์กันมากในหมู่ตัวแปรหรือไม่?
PCA
งานฉันอยากรู้ว่าการวัดระยะทางใด ๆ สามารถใช้กับผลลัพธ์ได้หรือไม่
PCA
สามารถทำลายความสัมพันธ์ของตัวแปรได้เว้นแต่คุณจะใช้การหมุนแบบเอียง ฉันยังไม่แน่ใจว่าการกระจายความแปรปรวนPCA
จะส่งผลต่อระยะทาง Mahalanobis ระหว่างผู้ป่วยที่คล้ายกันอย่างไร