Loadings vs eigenvectors ใน PCA: เมื่อใดควรใช้อย่างใดอย่างหนึ่ง


67

ในการวิเคราะห์องค์ประกอบหลัก (PCA) เราได้ค่า eigenvector (หน่วยเวกเตอร์) และค่าลักษณะเฉพาะ ตอนนี้ให้เรากำหนดภาระเป็น

Loadings=EigenvectorsEigenvalues.

ฉันรู้ว่า eigenvectors เป็นเพียงทิศทางและการโหลด (ตามที่ระบุไว้ข้างต้น) รวมถึงความแปรปรวนตามทิศทางเหล่านี้ แต่เพื่อความเข้าใจที่ดีขึ้นฉันอยากจะรู้ว่าฉันควรใช้การโหลดแทน eigenvector ตัวอย่างจะสมบูรณ์แบบ!

โดยทั่วไปฉันเคยเห็นคนใช้ eigenvectors แต่ทุกครั้งในขณะที่พวกเขาใช้การโหลด (ตามที่กำหนดไว้ด้านบน) และจากนั้นฉันก็รู้สึกว่าฉันไม่เข้าใจความแตกต่าง

คำตอบ:


66

ใน PCA คุณแบ่งเมทริกซ์ความแปรปรวนร่วม (หรือสหสัมพันธ์) เป็นส่วนมาตราส่วน (ค่าลักษณะเฉพาะ) และส่วนทิศทาง (eigenvectors) แล้วคุณอาจจะประสิทธิ์ประสาท eigenvectors กับขนาด: แรง ดังนั้นการโหลดจึงถูกเปรียบเทียบโดยขนาดด้วยความแปรปรวนร่วม / ความสัมพันธ์ที่สังเกตได้ระหว่างตัวแปร - เพราะสิ่งที่ดึงออกมาจากความแปรปรวนร่วมของตัวแปรตอนนี้กลับมา - ในรูปแบบของความแปรปรวนร่วมระหว่างตัวแปรและองค์ประกอบหลัก ที่จริงแรงเป็น covariances / การความสัมพันธ์ระหว่างตัวแปรเดิมและส่วนประกอบหน่วยปรับขนาด คำตอบนี้แสดงให้เห็นว่าการโหลดคืออะไรและสัมประสิทธิ์เชื่อมโยงส่วนประกอบกับตัวแปรใน PCA หรือการวิเคราะห์ปัจจัย

โหลด :

  1. ช่วยคุณตีความองค์ประกอบหรือปัจจัยหลัก เพราะพวกเขามีน้ำหนักรวมกันเชิงเส้น (ค่าสัมประสิทธิ์) โดยส่วนประกอบหน่วยปรับขนาดหรือปัจจัยกำหนดหรือ"โหลด" ตัวแปร

    (Eigenvector เป็นเพียงค่าสัมประสิทธิ์ของการแปลงมุมฉากหรือการฉายภาพมันไม่มีค่า "โหลด" ภายในค่าของมัน "โหลด" คือ (ข้อมูลจำนวน) ความแปรปรวนขนาดมาตราส่วนพีซีถูกดึงเพื่ออธิบายความแปรปรวนของตัวแปร ความแปรปรวนของ (= อธิบายได้ด้วย) เครื่องคอมพิวเตอร์. เมื่อเราคูณวิคเตอร์โดย sq.root ของ eivenvalue ที่เราโหลด "" ค่าสัมประสิทธิ์เปลือยโดยจำนวนของความแปรปรวน. อาศัยอำนาจตามที่เราทำให้ค่าสัมประสิทธิ์ที่จะเป็นตัวชี้วัดของสมาคม , ร่วม ความแปรปรวน.)

  2. บางครั้งการโหลดจะถูก"หมุน" (เช่น varimax) หลังจากนั้นเพื่อความสะดวกในการตีความ ( ดูเพิ่มเติม );

  3. มันคือการโหลดที่"คืนค่า"เมทริกซ์ความแปรปรวนร่วม / แบบเดิม (ดูหัวข้อนี้ที่พูดถึงความแตกต่างของ PCA และ FA ในแง่นั้น);

  4. ในขณะที่ใน PCA คุณสามารถคำนวณค่าของส่วนประกอบทั้งจาก eigenvectors และภาระในการวิเคราะห์ปัจจัยที่คุณคำนวณปัจจัยคะแนนจากแรง

  5. และเหนือสิ่งอื่นใดโหลดเมทริกซ์เป็นข้อมูล: ผลบวกของกำลังสองของแนวตั้งคือค่าลักษณะเฉพาะ, ความแปรปรวนขององค์ประกอบ

  6. การโหลดแบบRescaledหรือ Standardized คือการโหลดที่หารด้วย st ของตัวแปร ส่วนเบี่ยงเบน; มันคือความสัมพันธ์ (ถ้า PCA ของคุณเป็น PCA แบบอิงความสัมพันธ์การโหลดจะเท่ากับ rescaled หนึ่งเนื่องจาก PCA ที่สัมพันธ์กันคือ PCA สำหรับตัวแปรมาตรฐาน) การโหลดกำลังสอง rescaled มีความหมายของการมีส่วนร่วมของ pr องค์ประกอบเป็นตัวแปร ถ้าสูง (ใกล้ถึง 1) ตัวแปรจะถูกกำหนดอย่างดีโดยส่วนประกอบนั้นเพียงอย่างเดียว

ตัวอย่างของการคำนวณทำใน PCA และเอฟเอสำหรับคุณที่จะดู

Eigenvectorsเป็นการโหลดตามขนาดของหน่วย และพวกมันคือสัมประสิทธิ์ (การโคไซน์) ของการแปลงมุมฉาก (การหมุน) ของตัวแปรในองค์ประกอบหลักหรือหลัง ดังนั้นจึงเป็นเรื่องง่ายที่จะคำนวณค่าส่วนประกอบ (ไม่ได้มาตรฐาน) กับพวกเขา นอกจากนี้การใช้งานของพวกเขามี จำกัด Eigenvector value squaredมีความหมายของการมีส่วนร่วมของตัวแปรใน pr ส่วนประกอบ; ถ้ามันสูง (ใกล้ถึง 1) ส่วนประกอบนั้นถูกกำหนดไว้อย่างดีโดยตัวแปรนั้นเพียงอย่างเดียว

แม้ว่าeigenvectorและการโหลดเป็นเพียงสองวิธีที่แตกต่างกันในการทำให้ปกติพิกัดของจุดเดียวกันที่แสดงถึงคอลัมน์ (ตัวแปร) ของข้อมูลบนbiplotแต่ก็ไม่ควรผสมคำทั้งสองเข้าด้วยกัน คำตอบนี้อธิบายว่าทำไม ดูเพิ่มเติม


3
เป็นไปได้ไหมว่าที่นี่มีการประชุมที่แตกต่างกันในสาขาที่แตกต่างกัน? ฉันสะดุดกับคำถามนี้เพราะในสนามของฉัน (เคมีบำบัด) วิธีปกติคือการมีการโหลดแบบออร์โทไนซ์ กล่าวอีกนัยหนึ่งมาตราส่วน / ขนาด /จะเข้าสู่คะแนนไม่ใช่การโหลด การโหลดเท่ากับค่า inverse = transpose ของเมทริกซ์ eigenvector ฉันตรวจสอบสองครั้งนี้ด้วย "คู่มือเคมีและ Qualimetrics" และ "เคมีเภสัชศาสตร์ครบวงจร" ซึ่งฉันพิจารณางานอ้างอิงที่สำคัญที่สุด 2 อย่างสำหรับเคมีบำบัด eigenvalues
cbeleites

1
หมายเหตุด้านข้าง: ในวิชาเคมีการคำนวณคะแนนจากข้อมูลต้นฉบับมีความสำคัญอย่างยิ่งเนื่องจากโมเดลการทำนายจำนวนมากใช้การหมุน PCA (!) สำหรับการประมวลผลล่วงหน้าดังนั้นการใช้งานโหลด จำกัด จึงเป็น IMHO ที่เราใช้เป็นหลักสำหรับ PCA
cbeleites

2
@cbeleites มันเป็นไปไม่ได้ที่อนุสัญญาศัพท์เฉพาะทาง PCA / FA อาจแตกต่างกันในด้านต่าง ๆ (หรือในซอฟต์แวร์หรือหนังสืออื่น) - ฉันระบุว่าพวกเขาทำแตกต่างกัน ในจิตวิทยาและพฤติกรรมของมนุษย์ "การบรรทุก" มักเป็นสิ่งที่ฉันติดป้ายชื่อ (การบรรจุมีความสำคัญมากในทุ่งนาเหล่านี้เพราะการแปลความหมายของ latents กำลังรอดำเนินการในขณะที่คะแนนอาจลดลงมาตรฐานและไม่มีใครใส่ใจ) ในทางกลับกันRผู้ใช้หลายคนในไซต์นี้เรียกว่า "การโหลด" ของ PCA ซึ่งอาจมาจากเอกสารการทำงาน
ttnphns

(ต่อ) สิ่งที่แย่ที่สุดคือคำว่า "การโหลด" ถูกใช้ในเทคนิคอื่น (LDA, ความสัมพันธ์แบบแคนนอนและอื่น ๆ ) ไม่ได้มีความหมายเหมือนกับใน PCA ดังนั้นคำว่าถูกทำลาย ฉันเห็นด้วยกับ @amoeba ที่คิดว่ามันจะถูกทิ้งโดยสิ้นเชิงและถูกแทนที่ด้วยคำที่ถูกต้องทางสถิติเช่น "สหสัมพันธ์" หรือ "สัมประสิทธิ์" ในทางกลับกันดูเหมือนว่า "eigenvector" จะถูก จำกัด อยู่ที่การสลายตัวของ svd / eigen และวิธีการสลัวบางอย่าง การลดลงไม่ทำสิ่งเหล่านั้นเลยหรือในรูปแบบคลาสสิก
ttnphns

1
คุณจะต้องมั่ว เมื่อคุณคำนวณคะแนน PC อย่างถูกต้องด้วยความช่วยเหลือของการโหลดคุณท้ายด้วยส่วนประกอบมาตรฐานเพียง คุณไม่ต้องคำนวณคะแนนเหล่านี้ด้วยสูตรเดียวกับที่คุณใช้กับ eigenvector คุณควรใช้สูตรที่อธิบายไว้ในลิงก์ของ # 4 ของฉัน
ttnphns

3

ดูเหมือนจะมีความสับสนอย่างมากเกี่ยวกับการรับน้ำหนักสัมประสิทธิ์และค่าลักษณะเฉพาะ คำว่าโหลดมาจากการวิเคราะห์ปัจจัยและมันหมายถึงค่าสัมประสิทธิ์ของการถดถอยของเมทริกซ์ข้อมูลลงบนปัจจัย พวกเขาไม่ใช่ค่าสัมประสิทธิ์ที่กำหนดปัจจัย ดูตัวอย่าง Mardia, Bibby และ Kent หรือตำราสถิติหลายตัวแปรอื่น ๆ

ในช่วงไม่กี่ปีที่ผ่านมามีการใช้การโหลดคำเพื่อระบุค่าสัมประสิทธิ์ของพีซี ที่นี่ดูเหมือนว่ามันใช้เพื่อระบุค่าสัมประสิทธิ์คูณด้วย sqrt ของค่าลักษณะเฉพาะของเมทริกซ์ ไม่ใช่ปริมาณที่ใช้กันโดยทั่วไปใน PCA ส่วนประกอบหลักถูกกำหนดเป็นผลรวมของตัวแปรที่ถ่วงน้ำหนักด้วยค่าสัมประสิทธิ์นอร์มหน่วย ด้วยวิธีนี้พีซีมีค่ามาตรฐานเท่ากับค่าลักษณะเฉพาะที่สอดคล้องกันซึ่งจะเท่ากับความแปรปรวนที่อธิบายโดยองค์ประกอบ

มันอยู่ในการวิเคราะห์ปัจจัยที่ปัจจัยจะต้องมีหน่วยเป็นบรรทัดฐาน แต่ FA และ PCA นั้นแตกต่างกันอย่างสิ้นเชิง การหมุนค่าสัมประสิทธิ์ของพีซีนั้นทำได้ยากมากเพราะจะเป็นการทำลายประสิทธิภาพของส่วนประกอบต่างๆ

ใน FA ปัจจัยที่ไม่ได้กำหนดไว้อย่างเฉพาะเจาะจงและสามารถประเมินได้หลายวิธี ปริมาณที่สำคัญคือการรับน้ำหนัก (ของจริง) และชุมชนที่ใช้ในการศึกษาโครงสร้างของเมทริกซ์ความแปรปรวนร่วม ควรใช้ PCA หรือ PLS เพื่อประเมินส่วนประกอบ


2
คำตอบนี้ถูกต้องในด้านใดด้านหนึ่ง (+1) ซึ่งมองเห็นว่าทั้ง FA และ PCA สามารถมองเห็นได้และเปรียบเทียบได้ (แม้ว่าจะแตกต่างกัน) เป็นการคาดการณ์ตัวแปรรายการโดยปัจจัย / ส่วนประกอบ การโหลดเป็นค่าสัมประสิทธิ์ของการทำนายนั้น ดังนั้นการโหลดจะถูกใช้และเป็นคำที่ถูกต้องหมายถึงสิ่งเดียวกันทั้งใน FA และใน PCA
ttnphns

3
นอกจากนี้ก็เป็นที่น่าเสียดายที่บางแหล่ง (โดยเฉพาะเอกสาร R) ลวกโทร eigenvectorcoefficients "แรง" - พวกเขาไม่มีภาระในพวกเขา
ttnphns

เป็นเพียงว่า FA และ PCA กำลังประเมินรูปแบบที่แตกต่างกัน ใน FA ข้อผิดพลาดเป็นมุมฉากใน PCA พวกเขาไม่ได้ ฉันไม่เห็นจุดมากนักในการเปรียบเทียบผลลัพธ์ยกเว้นว่ามีใครเป็นนักตกปลาสำหรับแบบจำลอง loadings มีคอลัมน์ของเมทริกซ์Lที่ใช้ในการเขียนเมทริกซ์ความแปรปรวนเป็นS = LL' + Cที่Cเป็นเมทริกซ์ทแยงมุม พวกเขาไม่มีอะไรเกี่ยวข้องกับค่าสัมประสิทธิ์ของพีซี
Marco Stamazza

they have nothing to do with the PCs' coefficientsเราคำนวณการโหลดใน PCA เหมือนที่เราทำใน FA โมเดลมีความแตกต่างกัน แต่ความหมายของการโหลดมีความคล้ายคลึงกันในทั้งสองวิธี
ttnphns

0
In Factor Analysis (using PCA for extraction), we get orthonormal eigen vectors (unit vectors) and corresponding eigenvalues. Now, loadings are defined as 

Loadings = Orthonormal Eigenvectors ⋅สแควร์รูทของ (ค่า Eigen สัมบูรณ์) เวกเตอร์ orthonormal eigen (นั่นคือคำว่า Orthonormal Eigenvectors) ให้ทิศทางและคำสแควร์รูทของ (ค่า Absolute Eigen) ให้ค่า

โดยปกติแล้วคนมักจะบอกว่าสัญญาณในการโหลดนั้นไม่สำคัญ แต่ขนาดของมันนั้นสำคัญ แต่ถ้าเรากลับทิศทางของเวกเตอร์ไอจีไอหนึ่งอัน (เก็บเครื่องหมายของเวกเตอร์ไอเก็นอื่น ๆ ตามที่เป็น) แล้วคะแนนปัจจัยจะเปลี่ยนไป ดังนั้นการวิเคราะห์เพิ่มเติมจะได้รับผลกระทบอย่างมีนัยสำคัญ

ฉันไม่สามารถหาคำตอบที่น่าพอใจสำหรับความกำกวมนี้ได้


0

ดูเหมือนจะมีความสับสนเกี่ยวกับเรื่องนี้ดังนั้นฉันจะให้ข้อสังเกตและชี้ไปที่คำตอบที่ดีสามารถพบได้ในวรรณคดี

ประการแรก PCA และการวิเคราะห์ปัจจัย (เอฟเอ) มีความเกี่ยวข้องกัน โดยทั่วไปส่วนประกอบหลักมีมุมฉากตามคำนิยามในขณะที่ปัจจัย - เอนทิตีแบบอะนาล็อกใน FA - ไม่ใช่ เพียงแค่ใส่ส่วนประกอบหลักขยายพื้นที่ปัจจัยในทางที่เป็นประโยชน์ แต่ไม่จำเป็นต้องมีประโยชน์เนื่องจากพวกเขาได้มาจากการวิเคราะห์ข้อมูลอย่างแท้จริง ปัจจัยในอีกแง่หนึ่งเป็นตัวแทนของโลกแห่งความเป็นจริงซึ่งเป็นเพียงมุมฉาก (เช่น uncorrelated หรือเป็นอิสระ) โดยบังเอิญ

บอกว่าเราใช้sสังเกตจากแต่ละลิตรวิชา เหล่านี้สามารถจัดเป็นข้อมูลเมทริกซ์DมีsแถวและLคอลัมน์ Dสามารถย่อยสลายเป็นคะแนนเมทริกซ์Sและโหลดเมทริกซ์Lดังกล่าวว่าD = SL SจะมีsแถวและLจะมีLคอลัมน์มิติที่สองของแต่ละเป็นจำนวนของปัจจัยที่n วัตถุประสงค์ของการวิเคราะห์ปัจจัยคือการย่อยสลายDในลักษณะที่จะเปิดเผยคะแนนและปัจจัยพื้นฐาน ภาระในLบอกให้เราทราบสัดส่วนของแต่ละคะแนนที่ทำขึ้นสังเกตในD

ใน PCA, Lมีค่าลักษณะเฉพาะของความสัมพันธ์หรือเมทริกซ์ความแปรปรวนร่วมของDเป็นคอลัมน์ สิ่งเหล่านี้ถูกจัดเรียงตามอัตภาพตามลำดับจากมากไปน้อยของค่าลักษณะที่เกี่ยวข้อง ค่าของn - คือจำนวนขององค์ประกอบหลักที่สำคัญที่จะเก็บไว้ในการวิเคราะห์และด้วยเหตุนี้จำนวนแถวของL - จะถูกกำหนดโดยการใช้พล็อตหินกรวดของค่าลักษณะเฉพาะหรือหนึ่งในวิธีอื่น ๆ อีกมากมายที่จะพบได้ วรรณกรรม. คอลัมน์ของSในรูปแบบ PCA nนามธรรมองค์ประกอบหลักของตัวเอง ค่าของnคือมิติข้อมูลพื้นฐานของชุดข้อมูล

วัตถุประสงค์ของการวิเคราะห์ปัจจัยคือการแปลงส่วนประกอบที่เป็นนามธรรมมาเป็นปัจจัยที่มีความหมายผ่านการใช้การเปลี่ยนแปลงเมทริกซ์Tดังกล่าวว่าD = STT -1 L ( ST ) คือเมทริกซ์คะแนนที่ถูกแปลงและ ( T -1 L ) คือเมทริกซ์การโหลดที่ถูกแปลง

คำอธิบายข้างต้นประมาณดังนี้สัญกรณ์ของเอ๊ดมันด์อาร์ Malinowski จากเขายอดเยี่ยมการวิเคราะห์องค์ประกอบทางเคมี ฉันขอแนะนำบทเปิดให้รู้เบื้องต้นเกี่ยวกับเรื่องนี้


คำตอบนี้ดูเหมือนจะมีปัญหาหลายประการ ขั้นแรกตรวจสอบสูตรของคุณโปรดพวกเขาไม่ถูกต้อง ประการที่สองคุณพยายามพูดถึงความแตกต่างระหว่าง FA และ PCA เรามีเธรดที่ยาวแยกต่างหากสำหรับ CV ในขณะที่เธรดปัจจุบันเกี่ยวข้องกับการโหลดกับ eigenvectors ดังนั้นคำตอบจึงถูกวางผิดที่ ประการที่สามรูปภาพ FA ของคุณบิดเบี้ยวโดยเฉพาะในวลีเช่น "จุดประสงค์ของ FA คือการแยก D" หรือ "เป้าหมายของ FA คือเปลี่ยนองค์ประกอบนามธรรมให้เป็นปัจจัยที่มีความหมาย"
ttnphns

ฉันคิดว่าวัสดุที่ฉันโพสต์มีความเกี่ยวข้องกับการอภิปรายในหัวข้อนี้และมีคำอธิบายหนึ่งของความสัมพันธ์ระหว่างการโหลดและ eigenvectors
Matt Wenham

งานวิจัยของฉันเกี่ยวกับเรื่องนี้สรุปไว้ในบทความนี้: onlinelibrary.wiley.com/doi/10.1002/sia.740231303/full
Matt Wenham

ตกลงบางทีบัญชีของคุณอาจเป็นบัญชีพิเศษที่ยังใช้ได้อยู่ฉันไม่สามารถบอกได้ว่าไม่มีแหล่งข้อมูลที่คุณเสนอ กระนั้นฉันก็ยังกล่าวว่า "ความสัมพันธ์" ระหว่างการโหลดและ eigenvectors ใน PCA นั้นอยู่ในสูตรของคำถาม ดังนั้นจึงไม่มีอะไรที่จะ "อธิบาย" (อธิบายแล้วควรเป็นอรรถประโยชน์ที่แตกต่างกันของพวกเขา) อีกสิ่งหนึ่งที่ควรสังเกตคือ Q นั้นเกี่ยวกับ PCA ไม่ใช่ FA และท้ายที่สุดแล้วไม่ใช่ทุกวิธีของ FA ที่เกี่ยวข้องกับ eigenvector เลยในขณะที่มันจำเป็นต้องเกี่ยวข้องกับการโหลด
ttnphns

ขออภัยฉันไม่คิดว่าจะมีบทความในแบบของฉันที่เผยแพร่สู่สาธารณะแม้ว่าคุณจะสามารถเข้าถึงผ่าน Deepdyve.com ด้วยการทดลองสองสัปดาห์ บทแรกของหนังสือของ Malinowski นั้นหาได้จากลิงค์ด้านบน สิ่งนี้ครอบคลุมพื้นฐานโดยไม่ต้องเอ่ยถึงการวิเคราะห์ด้วยคลื่นเสียง ฉันต้องยอมรับว่าฉันไม่ได้ตระหนักว่าการวิเคราะห์ปัจจัยสามารถทำได้โดยไม่ต้องใช้การวิเคราะห์แบบอิเจนแนนเชียลไลเซชั่นเนื่องจากตัวแปรที่ฉันใช้ - การวิเคราะห์ปัจจัยเป้าหมาย - ทำได้
Matt Wenham

-1

ฉันสับสนเล็กน้อยจากชื่อเหล่านั้นและฉันค้นหาในหนังสือชื่อ "วิธีการทางสถิติในวิทยาศาสตร์บรรยากาศ" และทำให้ฉันได้สรุปคำศัพท์ที่หลากหลายของ PCA นี่คือภาพหน้าจอในหนังสือหวังว่ามันจะช่วยได้

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.