วิธีการตีความโหลด PCA?


13

ในขณะที่อ่านเกี่ยวกับ PCA ฉันเจอคำอธิบายต่อไปนี้:

สมมติว่าเรามีชุดข้อมูลที่แต่ละจุดข้อมูลแสดงถึงคะแนนของนักเรียนคนเดียวในแบบทดสอบคณิตศาสตร์แบบทดสอบฟิสิกส์แบบทดสอบความเข้าใจในการอ่านและแบบทดสอบคำศัพท์

เราพบสององค์ประกอบหลักแรกซึ่งจับ 90% ของความแปรปรวนในข้อมูลและตีความภาระของพวกเขา เราสรุปได้ว่าองค์ประกอบหลักแรกแสดงถึงความสามารถทางวิชาการโดยรวมและองค์ประกอบที่สองแสดงถึงความแตกต่างระหว่างความสามารถเชิงปริมาณและความสามารถทางวาจา

ข้อความระบุว่าการโหลด PC1 และ PC2 คือสำหรับ PC1 และ( 0.5 , 0.5 , - 0.5 , - 0.5 )สำหรับ PC2 และให้คำอธิบายต่อไปนี้:(0.5,0.5,0.5,0.5)(0.5,0.5,0.5,0.5)

[T] ส่วนประกอบแรกเป็นสัดส่วนกับคะแนนเฉลี่ยและองค์ประกอบที่สองวัดความแตกต่างระหว่างคะแนนคู่แรกและคะแนนคู่ที่สอง

ฉันไม่สามารถเข้าใจความหมายของคำอธิบายนี้


7
อย่างใดคำตอบของ @ ttnphns มีรายละเอียดทางคณิตศาสตร์มากมาย แต่ฉันคิดว่าคำถามเดิมตรงไปตรงมามาก: ทำไมเวกเตอร์การโหลดสำหรับ PC1 ของ (0.5, 0.5, 0.5, 0.5) หมายความว่าองค์ประกอบแรกคือ "สัดส่วนกับคะแนนเฉลี่ย "? คำตอบก็คือว่าการโหลดนั้นมีค่าสัมประสิทธิ์การผสมเชิงเส้นของตัวแปรดั้งเดิมที่ประกอบเป็น PC1 ดังนั้นพีซีแรกของคุณคือผลรวมของตัวแปรทั้งสี่คูณ 0.5 ซึ่งหมายความว่ามันเป็นสัดส่วนกับค่าเฉลี่ยของตัวแปรทั้งสี่ และคล้ายกับ PC2 ฉันคิดว่านี่เป็นคำตอบของคำถามดั้งเดิม
อะมีบาพูดว่า Reinstate Monica

@amoeba - คุณรู้ไหมว่ามันยากแค่ไหนที่จะเจอคำอธิบายง่ายๆของการโหลด อย่างใดทุกที่มันเต็มปากของศัพท์แสงน้ำดีทั่วฉันก่อนที่ฉันตัดสินใจที่จะไปยังคำอธิบายต่อไปใน Google ขอขอบคุณ!
MiloMinderbinder

คำตอบ:


13

การโหลด (ซึ่งไม่ควรสับสนกับ eigenvector) มีคุณสมบัติดังต่อไปนี้:

  1. ผลรวมกำลังสองของพวกเขาภายในแต่ละองค์ประกอบคือค่าลักษณะเฉพาะ (ความแปรปรวนของส่วนประกอบ)
  2. โหลดเป็นค่าสัมประสิทธิ์ในการรวมกันเชิงเส้นทำนายตัวแปรโดยส่วนประกอบ (มาตรฐาน)

A

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

ในกรณีนี้ค่าลักษณะเฉพาะทั้งสองเท่ากัน มันเป็นกรณีที่เกิดขึ้นได้ยากในโลกแห่งความเป็นจริงมันบอกว่า PC1 และ PC2 นั้นมี "ความแข็งแกร่ง" ที่อธิบายอย่างเท่าเทียมกัน

Nx2CX^=CAAX^

A4x4B=(A1)B=Adiag(eigenvalues)1=(A+)diag(eigenvalues)คือเมทริกซ์ทแยงมุมสี่เหลี่ยมจัตุรัสที่มีค่าลักษณะเฉพาะบนเส้นทแยงมุมและ+ตัวยกหมายถึง pseudoinverse ในกรณีของคุณ:

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

XNx4C=XBC

PC1 = 0.5 * X1 + 0.5 * X2 + 0.5 * X3 + 0.5 * X4 ~ (X1 + X2 + X3 + X4) / 4

"องค์ประกอบแรกเป็นสัดส่วนกับคะแนนเฉลี่ย"

PC2 = 0.5 * X1 + 0.5 * X2 - 0.5 * X3 - 0.5 * X4 = (0.5 * X1 + 0.5 * X2) - (0.5 * X3 + 0.5 * X4)

"องค์ประกอบที่สองวัดความแตกต่างระหว่างคะแนนคู่แรกกับคะแนนคู่ที่สอง"

B=A


บันทึกB=Adiag(eigenvalues)1B=R1ARเป็นเมทริกซ์ความแปรปรวนร่วม (หรือสหสัมพันธ์) ของตัวแปร สูตรหลังมาโดยตรงจากทฤษฎีการถดถอยเชิงเส้น สองสูตรนี้เทียบเท่ากันภายในบริบท PCA เท่านั้น ในการวิเคราะห์ปัจจัยพวกเขาไม่ได้และเพื่อคำนวณคะแนนปัจจัย (ซึ่งมักจะเป็นค่าประมาณใน FA) หนึ่งควรพึ่งพาสูตรที่สอง


คำตอบที่เกี่ยวข้องของฉัน:

รายละเอียดเพิ่มเติมเกี่ยวกับภาระ VS eigenvectors

คะแนนองค์ประกอบหลักและคะแนนปัจจัยคำนวณอย่างไร


2
หาก 2 ส่วนประกอบจาก 4 บัญชีมีความแปรปรวน 90% ทำไมค่าลักษณะเฉพาะของพวกเขาจึงรวมเป็น 2
Nick Cox

นิคฉันเชื่อว่านี่เป็นคำถามสำหรับ OP เขาไม่ได้ให้ข้อมูลหรือเมทริกซ์ความแปรปรวนร่วม / สหสัมพันธ์ ทั้งหมดที่เรามีจากเขาคือเมทริกซ์การโหลด (พีซีที่ค่อนข้างไม่สมจริง) ของพีซี 2 เครื่องแรก
ttnphns

3
4×44150%90%
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.