ข้อสรุปจากผลลัพธ์ของการวิเคราะห์องค์ประกอบหลัก


9

ฉันพยายามเข้าใจผลลัพธ์ของการวิเคราะห์องค์ประกอบหลักที่ดำเนินการดังนี้

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265

Rotation:
                    PC1         PC2        PC3        PC4
Sepal.Length  0.5210659 -0.37741762  0.7195664  0.2612863
Sepal.Width  -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length  0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width   0.5648565 -0.06694199 -0.6342727  0.5235971
> 
> summary(res)
Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000
> 

ฉันมักจะสรุปจากผลลัพธ์ด้านบน:

  1. สัดส่วนของความแปรปรวนระบุจำนวนความแปรปรวนทั้งหมดที่มีในความแปรปรวนขององค์ประกอบหลักที่เฉพาะเจาะจง ดังนั้นความแปรปรวนของ PC1 จึงอธิบายความแปรปรวนของข้อมูลได้ 73%

  2. ค่าการหมุนที่แสดงเป็นเช่นเดียวกับ 'การโหลด' ที่กล่าวถึงในคำอธิบายบางอย่าง

  3. เมื่อพิจารณาการหมุนของ PC1 เราสามารถสรุปได้ว่า Sepal.Length, Petal.Length และ Petal กว้างเกี่ยวข้องโดยตรงและพวกเขาทั้งหมดมีความสัมพันธ์ตรงกันข้ามกับ Sepal.Width (ซึ่งมีค่าลบในการหมุน PC1)

  4. อาจมีปัจจัยในพืช (ระบบการทำงานของสารเคมี / กายภาพบางอย่าง) ซึ่งอาจส่งผลกระทบต่อตัวแปรทั้งหมดเหล่านี้ (Sepal.Length, Petal.Length และ Petal ความกว้างในทิศทางเดียวและ Sepal กว้างในทิศทางตรงกันข้าม)

  5. หากฉันต้องการแสดงการหมุนทั้งหมดในกราฟเดียวฉันสามารถแสดงการสนับสนุนสัมพัทธ์ของพวกเขากับการเปลี่ยนแปลงทั้งหมดโดยการคูณแต่ละการหมุนตามสัดส่วนของความแปรปรวนขององค์ประกอบหลักนั้น ตัวอย่างเช่นสำหรับ PC1 การหมุนของ 0.52, -0.26, 0.58 และ 0.56 ทั้งหมดจะถูกคูณด้วย 0.73 (ความแปรปรวนแบบสัดส่วนสำหรับ PC1 ที่แสดงในเอาต์พุตสรุป (res)

ฉันถูกต้องเกี่ยวกับข้อสรุปข้างต้น?

แก้ไขเกี่ยวกับคำถามที่ 5: ฉันต้องการแสดงการหมุนทั้งหมดในบาร์โค้ดแบบง่ายดังต่อไปนี้: ป้อนคำอธิบายรูปภาพที่นี่

เนื่องจาก PC2, PC3 และ PC4 มีส่วนร่วมในการเปลี่ยนแปลงน้อยลงเรื่อย ๆ มันจะทำให้รู้สึกถึงการปรับ (ลด) การโหลดของตัวแปรที่มีหรือไม่


Re (5): สิ่งที่คุณเรียกว่า "การโหลด" ไม่ใช่การโหลด แต่เป็น eigenvectors ของเมทริกซ์ความแปรปรวนร่วม, ทิศทางของอาคาหลัก, อาคาแกนหลัก "การโหลด" เป็นค่า eigenvector คูณด้วยรากที่สองของค่าลักษณะเฉพาะของพวกเขาเช่นโดยรากที่สองของสัดส่วนของความแปรปรวนที่อธิบาย การโหลดมีคุณสมบัติที่ดีมากมายและมีประโยชน์สำหรับการตีความดูตัวอย่างหัวข้อนี้: การโหลด vs eigenvectors ใน PCA: ควรใช้เมื่อใด ใช่แล้วมันสมเหตุสมผลมากที่จะไต่ระดับผู้ชำนาญการของคุณเพียงใช้รากที่สองของความแปรปรวนที่อธิบาย
อะมีบา

@amoeba: อะไรคือพล็อตใน biplot ของ PCA, การหมุนหรือการโหลด?
rnso

บ่อยครั้งที่มีการวางแผนการโหลดโดยดูคำตอบของฉันที่นี่เพื่อสนทนาเพิ่มเติม
อะมีบา

คำตอบ:


9
  1. ใช่. นี่คือการตีความที่ถูกต้อง
  2. ใช่ค่าการหมุนระบุค่าการโหลดส่วนประกอบ นี่คือการยืนยันโดยprcomp เอกสารแต่ผมไม่แน่ใจว่าทำไมพวกเขาเป็นส่วนหนึ่งของป้ายด้าน "หมุน" นี้มันหมายถึงแรงที่ได้รับการหมุนโดยใช้ฉาก (น่าจะ) หรือเอียง (โอกาสน้อย) วิธีการบางอย่าง
  3. ในขณะที่มันดูเหมือนจะเป็นกรณีที่ Sepal.Length, Petal.Length และ Petal ความกว้างมีความสัมพันธ์เชิงบวกฉันจะไม่ใส่หุ้นมากในการโหลดเชิงลบขนาดเล็กของ Sepal.Width บน PC1; มันโหลดได้มากขึ้นอย่างมาก (โดยเฉพาะ) บน PC2 เพื่อความชัดเจน Sepal ความกว้างยังคงมีความสัมพันธ์เชิงลบกับตัวแปรอีกสามตัว แต่ดูเหมือนจะไม่เกี่ยวข้องอย่างยิ่งกับองค์ประกอบหลักการแรก
  4. จากคำถามนี้ฉันสงสัยว่าคุณจะได้รับบริการที่ดีขึ้นหรือไม่โดยใช้การวิเคราะห์ปัจจัยทั่วไป (CF) มากกว่าการวิเคราะห์องค์ประกอบหลัก (PCA) CF เป็นเทคนิคการลดข้อมูลที่เหมาะสมมากขึ้นเมื่อเป้าหมายของคุณคือการเปิดเผยมิติทางทฤษฎีที่มีความหมายเช่นปัจจัยพืชที่คุณตั้งสมมติฐานอาจส่งผลต่อ Sepal.Length, Petal.Length และ Petal.Width ฉันขอขอบคุณที่คุณมาจากวิทยาศาสตร์ชีวภาพบางประเภท - พฤกษศาสตร์ - แต่มีการเขียนที่ดีในด้านจิตวิทยาเกี่ยวกับความแตกต่างของ PCA v. CF โดย Fabrigar et al., 1999, Widaman, 2007 และอื่น ๆ ความแตกต่างหลักระหว่างทั้งสองคือ PCA ถือว่าความแปรปรวนทั้งหมดเป็นความแปรปรวนคะแนนจริง - ไม่มีข้อผิดพลาดจะถูกสันนิษฐาน - ในขณะที่ CF พาร์ทิชันความแปรปรวนคะแนนที่แท้จริงจากความแปรปรวนข้อผิดพลาดก่อนที่จะมีการแตกปัจจัย ท้ายที่สุดคุณอาจได้คำตอบที่ดูคล้ายกันซึ่งบางครั้งคนทำ - แต่เมื่อพวกเขาแยกแยะมันก็มักจะเป็นกรณีที่ PCA ประเมินค่าการโหลดสูงเกินไปและประเมินค่าสหสัมพันธ์ระหว่างองค์ประกอบต่ำเกินไป ข้อได้เปรียบเพิ่มเติมของวิธีการ CF คือคุณสามารถใช้การประเมินความน่าจะเป็นสูงสุดในการทดสอบค่าโหลดอย่างมีนัยสำคัญในขณะที่ยังได้รับดัชนีบางส่วนของวิธีแก้ปัญหาที่คุณเลือก (1 ปัจจัย 2 ปัจจัย 3 ปัจจัยหรือ 4 ปัจจัย) ข้อมูล.
  5. ฉันจะพล็อตค่าการโหลดปัจจัยตามที่คุณมีโดยไม่ต้องถ่วงน้ำหนักแท่งของพวกเขาตามสัดส่วนของความแปรปรวนสำหรับองค์ประกอบที่เกี่ยวข้อง ฉันเข้าใจสิ่งที่คุณต้องการแสดงโดยวิธีการดังกล่าว แต่ฉันคิดว่ามันอาจทำให้ผู้อ่านเข้าใจผิดเกี่ยวกับค่าการโหลดองค์ประกอบจากการวิเคราะห์ของคุณ อย่างไรก็ตามหากคุณต้องการวิธีที่แสดงภาพของความแปรปรวนเชิงสัมพัทธ์ที่คิดโดยส่วนประกอบแต่ละชิ้นคุณอาจพิจารณาจัดการกับความทึบของแถบกลุ่ม (ถ้าคุณใช้ggplot2ฉันเชื่อว่าสิ่งนี้ทำได้ด้วยalphaสุนทรียศาสตร์) ขึ้นอยู่กับสัดส่วนของความแปรปรวนที่อธิบายโดยแต่ละองค์ประกอบ (เช่นสีที่เป็นของแข็งมากขึ้น = อธิบายความแปรปรวนมากขึ้น) อย่างไรก็ตามจากประสบการณ์ของฉันตัวเลขของคุณไม่ใช่วิธีทั่วไปในการนำเสนอผลลัพธ์ของ PCA - ฉันคิดว่าหนึ่งหรือสองตาราง (การโหลด + ความแปรปรวนอธิบายในหนึ่งความสัมพันธ์ขององค์ประกอบในอีก) จะตรงไปตรงมามากขึ้น

อ้างอิง

Fabrigar, LR, Wegener, DT, MacCallum, RC, & Strahan, EJ (1999) การประเมินการใช้การวิเคราะห์ปัจจัยเชิงสำรวจในการวิจัยทางจิตวิทยา วิธีการทางจิตวิทยา , 4 , 272-299

Widaman, KF (2007) ปัจจัยร่วมกันเมื่อเทียบกับส่วนประกอบ: ผู้บริหารและหลักการข้อผิดพลาดและความเข้าใจผิด ใน R. Cudeck & RC MacCallum (บรรณาธิการ) การวิเคราะห์ปัจจัยที่ 100: พัฒนาการทางประวัติศาสตร์และทิศทางในอนาคต (หน้า 177-203) Mahwah, NJ: Lawrence Erlbaum


2
+1 และคะแนนที่ดีมากมายที่นี่ Re (2): eigenvectors ของเมทริกซ์ความแปรปรวนร่วมเรียกว่า "การหมุน" ที่นี่เนื่องจาก PCA นั้นเป็นการหมุนของระบบพิกัดซึ่งระบบพิกัดใหม่นั้นสอดคล้องกับ eigenvector สิ่งนี้ไม่เกี่ยวข้องกับ "การหมุนของมุมฉาก / เอียงของปัจจัย" ในการวิเคราะห์ปัจจัย Re (5): ฉันไม่แน่ใจว่าฉันเข้าใจสิ่งที่คุณหมายถึงที่นี่และฉันยังไม่เข้าใจว่า OP ต้องการ "แสดง" eigenvectors "ในกราฟเดียว" บางที OP มีบางสิ่งบางอย่างที่เหมือนกับสายโทรศัพท์ในใจ ใช่แล้ว, ไอเก็นผู้ประกอบการมักถูกปรับขนาดโดยค่าลักษณะเฉพาะ แต่ตามรากที่สองของพวกเขา
อะมีบา

แม้ว่าพล็อตที่ดีดอกไม้แกนสำหรับหัวข้อของคุณ @rnso :)
jsakaluk

1
  1. ไม่ไม่ใช่ความแปรปรวนรวมของข้อมูล ความแปรปรวนรวมของข้อมูลที่ให้คุณต้องการแสดงในองค์ประกอบหลัก 4 ตัว คุณสามารถค้นหาความแปรปรวนทั้งหมดได้ตลอดเวลาโดยการเพิ่มส่วนประกอบหลักการเพิ่มเติม แต่สิ่งนี้จะสลายตัวอย่างรวดเร็ว
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.