คำอธิบายพล็อตการโหลดของการวิเคราะห์ PCA หรือตัวประกอบ
พล็อตการโหลดแสดงตัวแปรเป็นจุดในพื้นที่ขององค์ประกอบหลัก (หรือปัจจัย) พิกัดของตัวแปรคือโดยทั่วไปแล้วการโหลด (หากคุณรวมพล็อตการโหลดเข้ากับแผนการกระจายข้อมูลที่สอดคล้องกันในพื้นที่องค์ประกอบเดียวกันนั่นจะเป็นแบบสองทาง)
ขอให้เรามี 3 ตัวแปรที่มีความสัมพันธ์อย่างใดV , , U เราอยู่ตรงกลางพวกเขาและดำเนินการPCAสกัด 2 องค์ประกอบหลักแรกออกจากที่สาม: F 1และF 2 เราใช้การโหลดเป็นพิกัดเพื่อทำพล็อตการโหลดด้านล่าง การโหลดเป็นองค์ประกอบของ eigenvector ที่ไม่ได้มาตรฐานนั่นคือ eigenvector endowed โดยความแปรปรวนขององค์ประกอบที่สอดคล้องกันหรือค่าลักษณะเฉพาะWUF1F2
กำลังโหลดพล็อตคือระนาบบนรูปภาพ ลองพิจารณาเพียงตัวแปรVลูกศรที่วาดเป็นประจำบนพล็อตการโหลดคือสิ่งที่มีป้ายกำกับว่าh ′Vh′ที่นี่; พิกัด1 , 2เป็นภาระของVกับF 1และF 2ตามลำดับ (โปรดทราบว่า terminologically ถูกต้องมากขึ้นที่จะพูดว่า "โหลดองค์ประกอบตัวแปร" ไม่ได้ในทางกลับกัน)a1a2VF1F2
Arrow คือการฉายภาพบนระนาบส่วนประกอบของเวกเตอร์hซึ่งเป็นตำแหน่งที่แท้จริงของตัวแปรVในช่องว่างของตัวแปรที่ครอบคลุมโดยV , W , Uh′hVVWU Uความยาวยกกำลังสองของเวกเตอร์, เป็นความแปรปรวนของV ในขณะที่h ′ 2เป็นส่วนของความแปรปรวนที่อธิบายโดยส่วนประกอบทั้งสองh2aVh′2
Loading, ความสัมพันธ์, ความสัมพันธ์ที่คาดการณ์ไว้ เนื่องจากตัวแปรศูนย์กลางสกัดก่อนส่วนประกอบเป็นความสัมพันธ์เพียร์สันระหว่างVและส่วนประกอบF 1 ที่ไม่ควรจะสับสนกับcos แอลฟาบนพล็อตในการโหลดซึ่งเป็นปริมาณที่อื่น: มันเป็นเพียร์สันความสัมพันธ์ระหว่างองค์ประกอบF 1และตัวแปรเวกเตอร์ที่นี่เช่นเอช ' ในฐานะที่เป็นตัวแปรh ′คือการทำนายของVโดยส่วนประกอบ (มาตรฐาน) ในการถดถอยเชิงเส้น (เปรียบเทียบกับการวาดของเรขาคณิตการถดถอยเชิงเส้นที่นี่cosϕVF1cosαF1h′h′V) โดยที่การโหลดคือสัมประสิทธิ์การถดถอย (เมื่อส่วนประกอบถูกเก็บไว้เป็นมุมฉากดังที่ได้แยก)a
ต่อไป เราอาจจำ (ตรีโกณมิติ) ที่1 = H ⋅ cos φ มันสามารถเข้าใจได้ว่าเป็นผลคูณของสเกลาร์ระหว่างเวกเตอร์Vและเวกเตอร์ความยาวหน่วยF 1 : h ⋅ 1 ⋅ cos ϕa1=h⋅cosϕVF1h⋅1⋅cosϕ φถูกตั้งค่าเวกเตอร์ความแปรปรวนของหน่วยนั้นเนื่องจากมันไม่มีความแปรปรวนของตัวเองนอกเหนือจากความแปรปรวนของVที่มันอธิบาย (ตามจำนวนh ′ ): เช่นF 1F1Vh′F1เป็นข้อมูลที่แยกจาก V, W, U และไม่ใช่นิติบุคคลที่ได้รับเชิญจากภายนอก จากนั้นได้อย่างชัดเจน1 = √a1=varV⋅varF1−−−−−−−−−−√⋅r=h⋅1⋅cosϕคือความแปรปรวนร่วมระหว่างกับค่ามาตรฐาน , หน่วยที่ปรับสเกลb (เพื่อตั้งค่าs 1 = √Vb) ส่วนประกอบF1 ความแปรปรวนร่วมนี้เปรียบเทียบโดยตรงกับความแปรปรวนร่วมระหว่างตัวแปรอินพุต ตัวอย่างความแปรปรวนร่วมระหว่างVและWจะเป็นผลคูณของความยาวเวกเตอร์ของพวกเขาคูณด้วยโคไซน์ระหว่างพวกเขาs1=varF1−−−−−√=1F1VW
เพื่อสรุปผล: โหลด1สามารถมองเห็นเป็นความแปรปรวนระหว่างองค์ประกอบมาตรฐานและตัวแปรสังเกตที่เอช⋅ 1 ⋅ cos φa1h⋅1⋅cosϕหรือเท่ากันระหว่างองค์ประกอบมาตรฐานและอธิบาย (โดยส่วนประกอบทั้งหมดกำหนดพล็อต) ภาพของ ตัวแปร α นั่นcos αอาจจะเรียกว่า V-F1 ความสัมพันธ์ที่คาดการณ์ไว้ใน F1-F2 สเปซส่วนประกอบh′⋅1⋅cosαcosα
ความสัมพันธ์ดังกล่าวระหว่างตัวแปรและส่วนประกอบจะเรียกว่ายังได้มาตรฐานหรือrescaled โหลด สะดวกในการตีความส่วนประกอบเนื่องจากอยู่ในช่วง [-1,1]cosϕ=a1/h
ความสัมพันธ์กับ eigenvectors โหลด rescaled ควรไม่ต้องวุ่นวายกับวิคเตอร์องค์ประกอบที่ - ที่เรารู้ว่ามัน - คือโคไซน์ของมุมระหว่างตัวแปรและองค์ประกอบหลักที่ จำได้ว่าการโหลดเป็นองค์ประกอบ eigenvector ปรับขนาดขึ้นตามค่าเอกพจน์ของส่วนประกอบ (sq. root ของ eigenvalue) เช่นสำหรับตัวแปรVของพล็อตของเรา: a 1 = e 1 s 1โดยที่s 1คือ st ค่าเบี่ยงเบน (ไม่ใช่1แต่เป็นค่าดั้งเดิมคือค่าเอกพจน์) ของF 1cosϕVa1=e1s1s11F1ตัวแปรแฝง แล้วมันก็มาถึงองค์ประกอบ eigenvector ไม่ใช่cosϕเอง ความสับสนรอบสองคำ "โคไซน์" จะหายไปเมื่อเราจำได้ว่าเราเป็นตัวแทนของพื้นที่ประเภทใดค่า Eigenvectorคือโคไซน์ของมุมการหมุนของตัวแปรเป็นแกนไปสู่ pr องค์ประกอบที่เป็นแกนภายในพื้นที่ตัวแปร (aka มุมมอง scatterplot)เช่นที่นี่ ในขณะที่cosϕบนพล็อตการโหลดของเราคือการวัดความคล้ายคลึงโคไซน์ระหว่างตัวแปรเป็นเวกเตอร์และ pr องค์ประกอบเช่น ... และ .. เป็นเวกเตอร์ด้วยถ้าคุณชอบ (ถึงแม้ว่ามันจะถูกวาดเป็นแกนบนพล็อต) - เพราะตอนนี้เราอยู่ในพื้นที่เรื่องe1=a1s1=hs1cosϕcosϕcosϕ (พล็อตการโหลดคือ) โดยที่ตัวแปรที่สัมพันธ์กันเป็นแฟนของเวกเตอร์ - ไม่ใช่แกนฉากมุมฉาก - และมุมเวกเตอร์เป็นตัวชี้วัดความสัมพันธ์ - และไม่ใช่การหมุนของฐานอวกาศ
โดยที่การโหลดคือการวัดการเชื่อมโยงเชิงมุม (เช่นชนิดผลิตภัณฑ์สเกลาร์) ระหว่างตัวแปรและส่วนประกอบที่ปรับขนาดหน่วยและการโหลดที่มีการจัดโหลดเป็นการโหลดมาตรฐานที่ลดขนาดของตัวแปรเป็นหน่วยใดหน่วยหนึ่ง แต่สัมประสิทธิ์ eigenvector คือการโหลด องค์ประกอบคือ "overstandardized" กล่าวคือถูกนำไปสู่ระดับ (มากกว่า 1); หรืออาจคิดว่าเป็นการโหลดแบบ rescaled โดยที่สเกลของตัวแปรถูกนำไปที่h / s (แทนที่จะเป็น 1)1/sh/s
ดังนั้นความสัมพันธ์ระหว่างตัวแปรและองค์ประกอบคืออะไร? คุณสามารถเลือกสิ่งที่คุณชอบ มันอาจจะโหลด (แปรปรวนร่วมกับหน่วยปรับขนาด Component) ; การโหลดแบบ rescaled cos ϕ (= ความสัมพันธ์ของตัวแปร - องค์ประกอบ); ความสัมพันธ์ระหว่างภาพ (ทำนาย) และส่วนประกอบ (= ความสัมพันธ์ที่คาดการณ์cosa cosϕ ) คุณอาจเลือกค่าสัมประสิทธิ์eigenvector e = a / sหากคุณต้องการ (แม้ว่าฉันจะสงสัยว่าอะไรคือเหตุผล) หรือคิดค้นมาตรการของคุณเองcosαe=a/s
ค่า Eigenvector กำลังสองมีความหมายของการมีส่วนร่วมของตัวแปรใน pr ส่วนประกอบ Rescaled การโหลดกำลังสองมีความหมายของการมีส่วนร่วมของราคา องค์ประกอบเป็นตัวแปร
ความสัมพันธ์กับ PCA ตามสหสัมพันธ์ ถ้าเราวิเคราะห์ด้วย PCA ไม่เพียงแค่อยู่กึ่งกลาง แต่เป็นตัวแปรที่ได้มาตรฐาน (อยู่ตรงกลางแล้วปรับขนาดความแปรปรวนของหน่วย) แล้วเวกเตอร์สามตัวแปรที่ไม่ใช่เวกเตอร์ที่อยู่บนระนาบจะมีความยาวหน่วยเดียวกัน จากนั้นจะเป็นไปโดยอัตโนมัติว่าการโหลดนั้นสัมพันธ์กันไม่ใช่ความแปรปรวนร่วมระหว่างตัวแปรกับส่วนประกอบ แต่ความสัมพันธ์นั้นจะไม่เท่ากับเท่ากับ "โหลดมาตรฐาน" ของภาพข้างบน (ตามการวิเคราะห์ของตัวแปรเพียงศูนย์กลาง) เพราะ PCA ของตัวแปรมาตรฐาน (ความสัมพันธ์ตาม PCA) อัตราผลตอบแทนที่แตกต่างกันส่วนประกอบกว่า PCA ของตัวแปรศูนย์กลาง ( PCA ที่ใช้ covariances ใน PCA ตามความสัมพันธ์a 1cosϕ เพราะ H = 1แต่ส่วนประกอบหลักคือไม่ใช่พวกเดียวกันองค์ประกอบหลักที่เราได้รับจาก covariances ตาม PCA (อ่าน,อ่าน)a1=cosϕh=1
ในการวิเคราะห์ปัจจัยพล็อตการโหลดมีแนวคิดและการตีความเหมือนกับ PCA เท่านั้น ( แต่ที่สำคัญ ) ความแตกต่างคือสารของ ' ในการวิเคราะห์ปัจจัยh ′ - เรียกว่า "ชุมชน" ของตัวแปร - เป็นส่วนของความแปรปรวนที่อธิบายโดยปัจจัยทั่วไปที่รับผิดชอบโดยเฉพาะสำหรับความสัมพันธ์ระหว่างตัวแปร ในขณะที่อยู่ใน PCA ส่วนที่อธิบายh ′h′h′ h′คือ "การผสม" ขั้นต้น - เป็นส่วนหนึ่งที่แสดงถึงสหสัมพันธ์และไม่เกี่ยวข้องบางส่วนในหมู่ตัวแปร ด้วยการวิเคราะห์ปัจจัยระนาบของการโหลดบนรูปภาพของเราจะวางแนวแตกต่างกัน (ที่จริงแล้วมันจะขยายพื้นที่ของตัวแปร 3 มิติของเราไปสู่มิติที่ 4 ซึ่งเราไม่สามารถวาดได้) ระนาบการโหลดจะไม่ใช่พื้นที่ย่อยของเรา พื้นที่ 3D ทอดและอีกสองตัวแปร) และการฉายชั่วโมง'จะมีความยาวอื่นและมีมุมมองอื่นα (ความแตกต่างทางทฤษฎีระหว่าง PCA และการวิเคราะห์ปัจจัยถูกอธิบายเชิงเรขาคณิตที่นี่ผ่านการแสดงพื้นที่ว่างและที่นี่ผ่านการแทนพื้นที่ว่าง)Vh′α
การตอบกลับคำขอของ @Antoni Parellada ในความคิดเห็น มันเทียบเท่าว่าคุณต้องการพูดในแง่ของความแปรปรวนหรือในแง่ของการกระจาย(SS ของการเบี่ยงเบน): variance = scatter / (n-1)โดยที่nคือขนาดตัวอย่าง เนื่องจากเรากำลังจัดการกับหนึ่งชุดข้อมูลที่มีnเดียวกันค่าคงที่จึงไม่มีการเปลี่ยนแปลงในสูตร ถ้าXเป็นข้อมูล (กับตัวแปร V, W, U ศูนย์กลาง) แล้ว eigendecomposition ของ (ก) ความแปรปรวนเมทริกซ์ผลตอบแทนถัวเฉลี่ยค่าลักษณะเฉพาะเดียวกัน (องค์ประกอบความแปรปรวน) และ eigenvectors เป็น eigendecomposition ของ (B) กระจายเมทริกซ์ X ' Xa,b/(n−1)nnXX′Xได้รับหลังจากการหารครั้งแรกของโดย√Xปัจจัย หลังจากนั้นในสูตรของโหลด (ดูส่วนตรงกลางของคำตอบ)1=H⋅s1⋅cosφคำn−1−−−−−√a1=h⋅s1⋅cosϕเป็นเซนต์ การเบี่ยงเบน √h in (A) แต่การกระจายของรูท (เช่นปกติ)‖V‖in (B) ระยะs1ซึ่งเท่ากับ1,เป็นมาตรฐานF1เซนต์ส่วนประกอบ การเบี่ยงเบน √varV−−−−√∥V∥s11F1 in (A) แต่กระจายราก‖F1‖in (B) ในที่สุดcosϕ=rคือความสัมพันธ์ซึ่งไม่สำคัญต่อการใช้n-1ในการคำนวณ ดังนั้นเราเพียงแค่พูดแนวคิดเกี่ยวกับความแปรปรวน (A) หรือของสแคทเทอร์ (B) ในขณะที่ค่าตัวเองยังคงเหมือนเดิมในสูตรในทั้งสองกรณีvarF1−−−−−√∥F1∥cosϕ=rn−1