ฉันมีชุดข้อมูลที่มี 11 ตัวแปรและ PCA (orthogonal) ทำเพื่อลดข้อมูล การตัดสินใจเกี่ยวกับจำนวนส่วนประกอบเพื่อให้เห็นได้ชัดจากความรู้ของฉันเกี่ยวกับเรื่องและพล็อตหินกรวด (ดูด้านล่าง) ว่าสององค์ประกอบหลัก (พีซี) เพียงพอที่จะอธิบายข้อมูลและส่วนประกอบที่เหลือมีเพียงข้อมูลน้อย
พล็อตหินกรวดที่มีการวิเคราะห์แบบขนาน: ค่าลักษณะเฉพาะ (สีเขียว) และค่าลักษณะเฉพาะที่จำลองตามการจำลอง 100 แบบ (สีแดง) พล็อต Scree แนะนำพีซี 3 เครื่องในขณะที่การทดสอบแบบขนานจะแนะนำพีซีสองเครื่องแรกเท่านั้น
อย่างที่คุณเห็นเพียง48%ของความแปรปรวนที่สามารถจับได้โดยพีซีสองเครื่องแรก
การพล็อตการสำรวจบนระนาบแรกที่ทำโดยพีซี 2 เครื่องแรกเปิดเผยกลุ่มที่แตกต่างกันสามกลุ่มโดยใช้การจัดกลุ่มแบบลำดับชั้น agglomerative (HAC) และการจัดกลุ่ม K-mean ทั้ง 3 กลุ่มนี้มีความเกี่ยวข้องกับปัญหาที่เกิดขึ้นและสอดคล้องกับข้อค้นพบอื่น ๆ เช่นกัน ดังนั้นยกเว้นความจริงที่ว่ามีเพียง 48% ของความแปรปรวนที่ถูกจับได้ทุกอย่างอื่นก็ดีมาก
ผู้ตรวจสอบคนหนึ่งในสองคนของฉันพูดว่า: ไม่สามารถเชื่อถือได้มากจากการค้นพบนี้เนื่องจากสามารถอธิบายความแปรปรวนเพียง 48% และน้อยกว่าที่ต้องการ
คำถาม
มีค่าที่ต้องใช้ในการคำนวณความแปรปรวนของ PCA ที่จะใช้งานได้หรือไม่ มันไม่ได้ขึ้นอยู่กับความรู้และวิธีการใช้งานโดเมนหรือไม่? ใครสามารถตัดสินข้อดีของการวิเคราะห์ทั้งหมดเพียงแค่ขึ้นอยู่กับมูลค่าของความแปรปรวนที่อธิบายไว้เท่านั้น
หมายเหตุ
- ข้อมูลเป็นตัวแปร 11 ตัวของยีนที่วัดโดยวิธีการที่ละเอียดอ่อนมากในชีววิทยาโมเลกุลที่เรียกว่าปฏิกิริยาลูกโซ่โพลีเมอเรสเชิงปริมาณแบบเรียลไทม์ (RT-qPCR)
- ทำการวิเคราะห์โดยใช้ R
- คำตอบจากนักวิเคราะห์ข้อมูลจากประสบการณ์ส่วนตัวของพวกเขาที่ทำงานเกี่ยวกับปัญหาในชีวิตจริงในด้านการวิเคราะห์ microarray, เคมี, การวิเคราะห์เชิงสเปกโทรสโกปีหรือเหมือนกัน
- โปรดพิจารณาสนับสนุนคำตอบของคุณด้วยการอ้างอิงให้มากที่สุด