การวัดความสัมพันธ์ที่เหมาะสมของตัวแปรด้วยองค์ประกอบ PCA คืออะไร (บน biplot / plot plot)


17

ฉันกำลังใช้FactoMineRเพื่อลดชุดข้อมูลการวัดของฉันเป็นตัวแปรแฝง

! [ตัวแปรแผนที่] (http://f.cl.ly/items/071s190V1G3s1u0T0Y3M/pca.png)

แผนที่ตัวแปรด้านบนมีความชัดเจนสำหรับฉันในการตีความ แต่ฉันสับสนเมื่อมันมาถึงความสัมพันธ์ระหว่างตัวแปรและองค์ประกอบ 1 มองที่แผนที่ตัวแปรddpและcovอยู่ใกล้กับส่วนประกอบในแผนที่ddpAbsมากขึ้นอีกเล็กน้อย ไป แต่นี่ไม่ใช่สิ่งที่สหสัมพันธ์แสดง:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

จากนั้นมีsin2ปริมาณซึ่งเป็นความสูงสำหรับ rpvi(ตัวอย่าง) แต่การวัดนั้นไม่ใช่ตัวแปรที่ใกล้เคียงกับองค์ประกอบแรกเลย

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

ดังนั้นสิ่งที่ฉันควรดูเมื่อมันมาถึงความสัมพันธ์ระหว่างตัวแปรและองค์ประกอบแรก?


1
มีจุดอยู่บนแผนที่ของคุณ (ซึ่งดูเหมือนว่าเป็นพล็อตการโหลด) ฉันจะบอกว่าพล็อตตรงกับเอาต์พุต "correlations" อย่างดี "สหสัมพันธ์" นั้นเป็นพิกัดบน Dim1 การโหลดเป็นความสัมพันธ์ระหว่างปัจจัยและตัวแปร (เมื่อคุณอ้างอิง anaysis ของคุณกับข้อมูลที่ได้มาตรฐาน = ตามความสัมพันธ์กับตัวแปร b / w)
ttnphns

นอกจากคำตอบด้านล่างโปรดตรวจสอบอันนี้พร้อมลิงก์เพิ่มเติมที่นั่น
ttnphns

คำตอบ:


25

คำอธิบายพล็อตการโหลดของการวิเคราะห์ PCA หรือตัวประกอบ

พล็อตการโหลดแสดงตัวแปรเป็นจุดในพื้นที่ขององค์ประกอบหลัก (หรือปัจจัย) พิกัดของตัวแปรคือโดยทั่วไปแล้วการโหลด (หากคุณรวมพล็อตการโหลดเข้ากับแผนการกระจายข้อมูลที่สอดคล้องกันในพื้นที่องค์ประกอบเดียวกันนั่นจะเป็นแบบสองทาง)

ขอให้เรามี 3 ตัวแปรที่มีความสัมพันธ์อย่างใดV , , U เราอยู่ตรงกลางพวกเขาและดำเนินการPCAสกัด 2 องค์ประกอบหลักแรกออกจากที่สาม: F 1และF 2 เราใช้การโหลดเป็นพิกัดเพื่อทำพล็อตการโหลดด้านล่าง การโหลดเป็นองค์ประกอบของ eigenvector ที่ไม่ได้มาตรฐานนั่นคือ eigenvector endowed โดยความแปรปรวนขององค์ประกอบที่สอดคล้องกันหรือค่าลักษณะเฉพาะWUF1F2

enter image description here

กำลังโหลดพล็อตคือระนาบบนรูปภาพ ลองพิจารณาเพียงตัวแปรVลูกศรที่วาดเป็นประจำบนพล็อตการโหลดคือสิ่งที่มีป้ายกำกับว่าh Vhที่นี่; พิกัด1 , 2เป็นภาระของVกับF 1และF 2ตามลำดับ (โปรดทราบว่า terminologically ถูกต้องมากขึ้นที่จะพูดว่า "โหลดองค์ประกอบตัวแปร" ไม่ได้ในทางกลับกัน)a1a2VF1F2

Arrow คือการฉายภาพบนระนาบส่วนประกอบของเวกเตอร์hซึ่งเป็นตำแหน่งที่แท้จริงของตัวแปรVในช่องว่างของตัวแปรที่ครอบคลุมโดยV , W , UhhVVWU Uความยาวยกกำลังสองของเวกเตอร์, เป็นความแปรปรวนของV ในขณะที่h 2เป็นส่วนของความแปรปรวนที่อธิบายโดยส่วนประกอบทั้งสองh2aVh2

Loading, ความสัมพันธ์, ความสัมพันธ์ที่คาดการณ์ไว้ เนื่องจากตัวแปรศูนย์กลางสกัดก่อนส่วนประกอบเป็นความสัมพันธ์เพียร์สันระหว่างVและส่วนประกอบF 1 ที่ไม่ควรจะสับสนกับcos แอลฟาบนพล็อตในการโหลดซึ่งเป็นปริมาณที่อื่น: มันเป็นเพียร์สันความสัมพันธ์ระหว่างองค์ประกอบF 1และตัวแปรเวกเตอร์ที่นี่เช่นเอช ' ในฐานะที่เป็นตัวแปรh คือการทำนายของVโดยส่วนประกอบ (มาตรฐาน) ในการถดถอยเชิงเส้น (เปรียบเทียบกับการวาดของเรขาคณิตการถดถอยเชิงเส้นที่นี่cosϕVF1cosαF1hhV) โดยที่การโหลดคือสัมประสิทธิ์การถดถอย (เมื่อส่วนประกอบถูกเก็บไว้เป็นมุมฉากดังที่ได้แยก)a

ต่อไป เราอาจจำ (ตรีโกณมิติ) ที่1 = H cos φ มันสามารถเข้าใจได้ว่าเป็นผลคูณของสเกลาร์ระหว่างเวกเตอร์Vและเวกเตอร์ความยาวหน่วยF 1 : h 1 cos ϕa1=hcosϕVF1h1cosϕ φถูกตั้งค่าเวกเตอร์ความแปรปรวนของหน่วยนั้นเนื่องจากมันไม่มีความแปรปรวนของตัวเองนอกเหนือจากความแปรปรวนของVที่มันอธิบาย (ตามจำนวนh ): เช่นF 1F1VhF1เป็นข้อมูลที่แยกจาก V, W, U และไม่ใช่นิติบุคคลที่ได้รับเชิญจากภายนอก จากนั้นได้อย่างชัดเจน1 = a1=varVvarF1r=h1cosϕคือความแปรปรวนร่วมระหว่างกับค่ามาตรฐาน , หน่วยที่ปรับสเกลb (เพื่อตั้งค่าs 1 = Vb) ส่วนประกอบF1 ความแปรปรวนร่วมนี้เปรียบเทียบโดยตรงกับความแปรปรวนร่วมระหว่างตัวแปรอินพุต ตัวอย่างความแปรปรวนร่วมระหว่างVและWจะเป็นผลคูณของความยาวเวกเตอร์ของพวกเขาคูณด้วยโคไซน์ระหว่างพวกเขาs1=varF1=1F1VW

เพื่อสรุปผล: โหลด1สามารถมองเห็นเป็นความแปรปรวนระหว่างองค์ประกอบมาตรฐานและตัวแปรสังเกตที่เอช1 cos φa1h1cosϕหรือเท่ากันระหว่างองค์ประกอบมาตรฐานและอธิบาย (โดยส่วนประกอบทั้งหมดกำหนดพล็อต) ภาพของ ตัวแปร α นั่นcos αอาจจะเรียกว่า V-F1 ความสัมพันธ์ที่คาดการณ์ไว้ใน F1-F2 สเปซส่วนประกอบh1cosαcosα

ความสัมพันธ์ดังกล่าวระหว่างตัวแปรและส่วนประกอบจะเรียกว่ายังได้มาตรฐานหรือrescaled โหลด สะดวกในการตีความส่วนประกอบเนื่องจากอยู่ในช่วง [-1,1]cosϕ=a1/h

ความสัมพันธ์กับ eigenvectors โหลด rescaled ควรไม่ต้องวุ่นวายกับวิคเตอร์องค์ประกอบที่ - ที่เรารู้ว่ามัน - คือโคไซน์ของมุมระหว่างตัวแปรและองค์ประกอบหลักที่ จำได้ว่าการโหลดเป็นองค์ประกอบ eigenvector ปรับขนาดขึ้นตามค่าเอกพจน์ของส่วนประกอบ (sq. root ของ eigenvalue) เช่นสำหรับตัวแปรVของพล็อตของเรา: a 1 = e 1 s 1โดยที่s 1คือ st ค่าเบี่ยงเบน (ไม่ใช่1แต่เป็นค่าดั้งเดิมคือค่าเอกพจน์) ของF 1cosϕVa1=e1s1s11F1ตัวแปรแฝง แล้วมันก็มาถึงองค์ประกอบ eigenvector ไม่ใช่cosϕเอง ความสับสนรอบสองคำ "โคไซน์" จะหายไปเมื่อเราจำได้ว่าเราเป็นตัวแทนของพื้นที่ประเภทใดค่า Eigenvectorคือโคไซน์ของมุมการหมุนของตัวแปรเป็นแกนไปสู่ ​​pr องค์ประกอบที่เป็นแกนภายในพื้นที่ตัวแปร (aka มุมมอง scatterplot)เช่นที่นี่ ในขณะที่cosϕบนพล็อตการโหลดของเราคือการวัดความคล้ายคลึงโคไซน์ระหว่างตัวแปรเป็นเวกเตอร์และ pr องค์ประกอบเช่น ... และ .. เป็นเวกเตอร์ด้วยถ้าคุณชอบ (ถึงแม้ว่ามันจะถูกวาดเป็นแกนบนพล็อต) - เพราะตอนนี้เราอยู่ในพื้นที่เรื่องe1=a1s1=hs1cosϕcosϕcosϕ (พล็อตการโหลดคือ) โดยที่ตัวแปรที่สัมพันธ์กันเป็นแฟนของเวกเตอร์ - ไม่ใช่แกนฉากมุมฉาก - และมุมเวกเตอร์เป็นตัวชี้วัดความสัมพันธ์ - และไม่ใช่การหมุนของฐานอวกาศ

โดยที่การโหลดคือการวัดการเชื่อมโยงเชิงมุม (เช่นชนิดผลิตภัณฑ์สเกลาร์) ระหว่างตัวแปรและส่วนประกอบที่ปรับขนาดหน่วยและการโหลดที่มีการจัดโหลดเป็นการโหลดมาตรฐานที่ลดขนาดของตัวแปรเป็นหน่วยใดหน่วยหนึ่ง แต่สัมประสิทธิ์ eigenvector คือการโหลด องค์ประกอบคือ "overstandardized" กล่าวคือถูกนำไปสู่ระดับ (มากกว่า 1); หรืออาจคิดว่าเป็นการโหลดแบบ rescaled โดยที่สเกลของตัวแปรถูกนำไปที่h / s (แทนที่จะเป็น 1)1/sh/s

ดังนั้นความสัมพันธ์ระหว่างตัวแปรและองค์ประกอบคืออะไร? คุณสามารถเลือกสิ่งที่คุณชอบ มันอาจจะโหลด (แปรปรวนร่วมกับหน่วยปรับขนาด Component) ; การโหลดแบบ rescaled cos ϕ (= ความสัมพันธ์ของตัวแปร - องค์ประกอบ); ความสัมพันธ์ระหว่างภาพ (ทำนาย) และส่วนประกอบ (= ความสัมพันธ์ที่คาดการณ์cosa cosϕ ) คุณอาจเลือกค่าสัมประสิทธิ์eigenvector e = a / sหากคุณต้องการ (แม้ว่าฉันจะสงสัยว่าอะไรคือเหตุผล) หรือคิดค้นมาตรการของคุณเองcosαe=a/s

ค่า Eigenvector กำลังสองมีความหมายของการมีส่วนร่วมของตัวแปรใน pr ส่วนประกอบ Rescaled การโหลดกำลังสองมีความหมายของการมีส่วนร่วมของราคา องค์ประกอบเป็นตัวแปร

ความสัมพันธ์กับ PCA ตามสหสัมพันธ์ ถ้าเราวิเคราะห์ด้วย PCA ไม่เพียงแค่อยู่กึ่งกลาง แต่เป็นตัวแปรที่ได้มาตรฐาน (อยู่ตรงกลางแล้วปรับขนาดความแปรปรวนของหน่วย) แล้วเวกเตอร์สามตัวแปรที่ไม่ใช่เวกเตอร์ที่อยู่บนระนาบจะมีความยาวหน่วยเดียวกัน จากนั้นจะเป็นไปโดยอัตโนมัติว่าการโหลดนั้นสัมพันธ์กันไม่ใช่ความแปรปรวนร่วมระหว่างตัวแปรกับส่วนประกอบ แต่ความสัมพันธ์นั้นจะไม่เท่ากับเท่ากับ "โหลดมาตรฐาน" ของภาพข้างบน (ตามการวิเคราะห์ของตัวแปรเพียงศูนย์กลาง) เพราะ PCA ของตัวแปรมาตรฐาน (ความสัมพันธ์ตาม PCA) อัตราผลตอบแทนที่แตกต่างกันส่วนประกอบกว่า PCA ของตัวแปรศูนย์กลาง ( PCA ที่ใช้ covariances ใน PCA ตามความสัมพันธ์a 1cosϕ เพราะ H = 1แต่ส่วนประกอบหลักคือไม่ใช่พวกเดียวกันองค์ประกอบหลักที่เราได้รับจาก covariances ตาม PCA (อ่าน,อ่าน)a1=cosϕh=1

ในการวิเคราะห์ปัจจัยพล็อตการโหลดมีแนวคิดและการตีความเหมือนกับ PCA เท่านั้น ( แต่ที่สำคัญ ) ความแตกต่างคือสารของ ' ในการวิเคราะห์ปัจจัยh - เรียกว่า "ชุมชน" ของตัวแปร - เป็นส่วนของความแปรปรวนที่อธิบายโดยปัจจัยทั่วไปที่รับผิดชอบโดยเฉพาะสำหรับความสัมพันธ์ระหว่างตัวแปร ในขณะที่อยู่ใน PCA ส่วนที่อธิบายh hh hคือ "การผสม" ขั้นต้น - เป็นส่วนหนึ่งที่แสดงถึงสหสัมพันธ์และไม่เกี่ยวข้องบางส่วนในหมู่ตัวแปร ด้วยการวิเคราะห์ปัจจัยระนาบของการโหลดบนรูปภาพของเราจะวางแนวแตกต่างกัน (ที่จริงแล้วมันจะขยายพื้นที่ของตัวแปร 3 มิติของเราไปสู่มิติที่ 4 ซึ่งเราไม่สามารถวาดได้) ระนาบการโหลดจะไม่ใช่พื้นที่ย่อยของเรา พื้นที่ 3D ทอดและอีกสองตัวแปร) และการฉายชั่วโมง'จะมีความยาวอื่นและมีมุมมองอื่นα (ความแตกต่างทางทฤษฎีระหว่าง PCA และการวิเคราะห์ปัจจัยถูกอธิบายเชิงเรขาคณิตที่นี่ผ่านการแสดงพื้นที่ว่างและที่นี่ผ่านการแทนพื้นที่ว่าง)Vhα


การตอบกลับคำขอของ @Antoni Parellada ในความคิดเห็น มันเทียบเท่าว่าคุณต้องการพูดในแง่ของความแปรปรวนหรือในแง่ของการกระจาย(SS ของการเบี่ยงเบน): variance = scatter / (n-1)โดยที่nคือขนาดตัวอย่าง เนื่องจากเรากำลังจัดการกับหนึ่งชุดข้อมูลที่มีnเดียวกันค่าคงที่จึงไม่มีการเปลี่ยนแปลงในสูตร ถ้าXเป็นข้อมูล (กับตัวแปร V, W, U ศูนย์กลาง) แล้ว eigendecomposition ของ (ก) ความแปรปรวนเมทริกซ์ผลตอบแทนถัวเฉลี่ยค่าลักษณะเฉพาะเดียวกัน (องค์ประกอบความแปรปรวน) และ eigenvectors เป็น eigendecomposition ของ (B) กระจายเมทริกซ์ X ' Xa,b/(n1)nnXXXได้รับหลังจากการหารครั้งแรกของโดยXปัจจัย หลังจากนั้นในสูตรของโหลด (ดูส่วนตรงกลางของคำตอบ)1=Hs1cosφคำn1a1=hs1cosϕเป็นเซนต์ การเบี่ยงเบนh in (A) แต่การกระจายของรูท (เช่นปกติ)Vin (B) ระยะs1ซึ่งเท่ากับ1,เป็นมาตรฐานF1เซนต์ส่วนประกอบ การเบี่ยงเบนvarVVs11F1 in (A) แต่กระจายรากF1in (B) ในที่สุดcosϕ=rคือความสัมพันธ์ซึ่งไม่สำคัญต่อการใช้n-1ในการคำนวณ ดังนั้นเราเพียงแค่พูดแนวคิดเกี่ยวกับความแปรปรวน (A) หรือของสแคทเทอร์ (B) ในขณะที่ค่าตัวเองยังคงเหมือนเดิมในสูตรในทั้งสองกรณีvarF1F1cosϕ=rn1


This answer is great and has a lot of info, but I think the actual answer to the question would lie in "what does α mean?"
shadowtalker

@ssdecontrol, I added a line regarding that.
ttnphns

I have been reading your posts on the topic, and I'm stuck on seemingly the most obvious part, when you say... "clearly, a1=varVvarF1r=h1cosϕ. Since r=cosϕ and varF1=1, it follows that varV=h. However, h=V=x2, whereas varV=x2n1. What am I missing?
Antoni Parellada

1
@AntoniParellada, please check the footnote.
ttnphns

1
I read your addendum, and it is very illuminating. Thank you! Without picking out specific sentences, it would explain some of the transitions from unit-variance to unit norm scaling of F1 along the answer, which previously presented some difficulty (to me).
Antoni Parellada
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.