คะแนนองค์ประกอบหลักคืออะไร?


71

คะแนนองค์ประกอบหลักคืออะไร (คะแนน PC, คะแนน PCA)


เอลเชฟมีคำตอบที่ข้นกว่าที่นี่ -> stats.stackexchange.com/questions/146/... HTH
Roman Luštrik

คะแนน PC / คะแนนปัจจัยที่คำนวณได้มาตรฐานผ่านแรง
ttnphns


(มาตรฐาน) คะแนน PC (และคะแนนปัจจัยหลายชนิด)
ttnphns

คำตอบ:


66

ก่อนอื่นมากำหนดคะแนนกัน

John, Mike และ Kate ได้รับเปอร์เซ็นต์สำหรับการสอบในวิชาคณิตศาสตร์วิทยาศาสตร์ภาษาอังกฤษและดนตรีดังนี้:

      Maths    Science    English    Music    
John  80        85          60       55  
Mike  90        85          70       45
Kate  95        80          40       50

ในกรณีนี้มีทั้งหมด 12 คะแนน คะแนนแต่ละคะแนนแสดงถึงผลการสอบของแต่ละบุคคลในแต่ละวิชา คะแนนในกรณีนี้จึงเป็นเพียงการแสดงให้เห็นถึงการที่แถวและคอลัมน์ตัดกัน

ทีนี้เรามานิยามองค์ประกอบหลักอย่างไม่เป็นทางการกัน

ในตารางข้างต้นคุณสามารถพล็อตข้อมูลในกราฟ 2D ได้อย่างง่ายดายหรือไม่? ไม่เพราะมีวิชาสี่วิชา (ซึ่งหมายถึงตัวแปรสี่ตัว: คณิตศาสตร์วิทยาศาสตร์อังกฤษและดนตรี) เช่น:

  • คุณสามารถพล็อตสองวิชาในลักษณะเดียวกับที่และyประสานในกราฟ 2 มิติxy
  • xyz

แต่คุณจะพล็อตเรื่องที่ 4 ได้อย่างไร?

ในขณะนี้เรามีตัวแปรสี่ตัวซึ่งแต่ละตัวแทนเพียงหนึ่งเรื่อง ดังนั้นวิธีการเกี่ยวกับเรื่องนี้อาจจะรวมเรื่องเป็นบางทีอาจเป็นเพียงสองตัวแปรใหม่ซึ่งเราสามารถพล็อต นี้เรียกว่าการปรับหลายมิติ

การวิเคราะห์องค์ประกอบหลักเป็นรูปแบบของการปรับหลายมิติ มันคือการแปลงเชิงเส้นของตัวแปรไปสู่พื้นที่มิติที่ต่ำกว่าซึ่งเก็บข้อมูลจำนวนสูงสุดเกี่ยวกับตัวแปร ตัวอย่างเช่นนี่หมายความว่าเราสามารถดูประเภทวิชาที่นักเรียนแต่ละคนอาจเหมาะสมกว่า

องค์ประกอบหลักคือการรวมกันของตัวแปรเดิมหลังจากการแปลงเชิงเส้น ใน R นี่คือ:

DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)

ซึ่งจะให้สิ่งนี้กับคุณ (ส่วนประกอบหลักสองชิ้นแรกเท่านั้นเพื่อความเรียบง่าย):

                PC1         PC2
Maths    0.27795606  0.76772853 
Science -0.17428077 -0.08162874 
English -0.94200929  0.19632732 
Music    0.07060547 -0.60447104 

คอลัมน์แรกที่นี่แสดงค่าสัมประสิทธิ์ของการรวมเชิงเส้นที่กำหนดองค์ประกอบหลัก # 1 และคอลัมน์ที่สองแสดงค่าสัมประสิทธิ์สำหรับองค์ประกอบหลัก # 2

ดังนั้นคะแนนองค์ประกอบหลักคืออะไร?

เป็นคะแนนจากตารางท้ายบทความ (ดูด้านล่าง)

ผลลัพธ์ข้างต้นจาก R หมายความว่าเราสามารถวางแผนคะแนนของแต่ละคนในทุกวิชาในกราฟ 2D ได้ดังนี้ ก่อนอื่นเราต้องจัดวางตัวแปรดั้งเดิมไว้ที่คอลัมน์การลบของฉันซึ่งหมายถึง:

      Maths    Science    English    Music    
John  -8.33       1.66       3.33       5  
Mike   1.66       1.66      13.33      -5
Kate   6.66       -3.33    -16.66       0

จากนั้นสร้างชุดค่าผสมเชิงเส้นเพื่อรับคะแนน PC1 และ PC2 :

      x                                                    y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33  + 0.07*5   -0.77*8.33 + -0.08*1.66 + 0.19*3.33   + -0.60*5 
Mike 0.28*1.66  + -0.17*1.66 + -0.94*13.33 + -0.07*5   0.77*1.66 + -0.08*1.66 + 0.19*13.33  + -0.60*5
Kate 0.28*6.66  + 0.17*3.33  + 0.94*16.66  + 0.07*0    0.77*6.66 +  0.08*3.33 + -0.19*16.66 + -0.60*0

ซึ่งทำให้ง่ายต่อการ:

        x       y
John   -5.39   -8.90
Mike  -12.74    6.78
Kate   18.13    2.12

มีองค์ประกอบหลักหกคะแนนในตารางข้างต้น ตอนนี้คุณสามารถวางแผนคะแนนในกราฟ 2D เพื่อให้เข้าใจถึงประเภทของวิชาที่นักเรียนแต่ละคนอาจจะเหมาะสมกว่า

prcomp(DF, scale = FALSE)$xเอาท์พุทเดียวกันสามารถรับได้ในการวิจัยโดยการพิมพ์

แก้ไข 1: อืมฉันอาจจะคิดตัวอย่างที่ดีขึ้นและมีมากกว่านั้นกับสิ่งที่ฉันได้ใส่ที่นี่ แต่ฉันหวังว่าคุณจะได้รับความคิด

แก้ไข 2: เครดิตเต็ม @drpaulbrewer สำหรับความคิดเห็นของเขาในการปรับปรุงคำตอบนี้


10
ความพยายามน่ายกย่อง - แต่ - ทั้ง PC1 และ PC2 ไม่บอกคุณว่าใครทำได้ดีที่สุดในทุกวิชา ในการทำเช่นนั้นค่าสัมประสิทธิ์ของพีซีจะต้องเป็นค่าบวก PC1 มีน้ำหนักในเชิงบวกสำหรับคณิตศาสตร์และดนตรี แต่เป็นลบสำหรับวิทยาศาสตร์และภาษาอังกฤษ PC2 มีน้ำหนักในเชิงบวกสำหรับคณิตศาสตร์และภาษาอังกฤษ แต่เป็นลบสำหรับวิทยาศาสตร์และดนตรี สิ่งที่พีซีบอกคุณคือความแปรปรวนที่ใหญ่ที่สุดในชุดข้อมูล ดังนั้นโดยการให้น้ำหนักวิชาโดยสัมประสิทธิ์ใน PC1 และการใช้เพื่อทำคะแนนนักเรียนคุณจะได้รับความแปรปรวนหรือการแพร่กระจายที่ใหญ่ที่สุดในพฤติกรรมของนักเรียน สามารถจำแนกประเภท แต่ไม่ได้ประสิทธิภาพ
พอล

+1 ความคิดเห็นดีไชโย แน่นอนว่าคุณถูกต้องฉันควรจะเขียนให้ดีขึ้นและตอนนี้ได้แก้ไขบรรทัดที่ทำให้ขุ่นเคืองเพื่อให้ชัดเจนฉันหวังว่า
Tony Breyal

คุณสามารถสร้างมาตรฐานของ vars ได้ดังนั้นคำนวณผลรวมเพื่อดูว่าใครดีที่สุดหรือถ้าคุณต้องการใน R:apply(dtf, 1, function(x) sum(scale(x)))
aL3xa

2
@JohnPrior ตัวแปรสี่ตัว (คอลัมน์) คือคณิตศาสตร์วิทยาศาสตร์ภาษาอังกฤษและดนตรีและแถวต่างๆเป็นตัวแทนของแต่ละบุคคล คำว่า "หัวเรื่อง" ไม่ชัดเจนในบางครั้งเพราะเมื่อห้าปีก่อนฉันเลือกตัวอย่างที่น่ากลัวสำหรับคำตอบ
Tony Breyal

1
@ โทนี่ฉันไปข้างหน้าและแก้ไขคำตอบของคุณให้อยู่กึ่งกลางตัวแปรก่อนคำนวณคะแนน ตอนนี้คะแนนที่คำนวณได้เหมาะสมกับสิ่งที่prcompส่งออก ก่อนมันไม่ได้
อะมีบา

23

การวิเคราะห์องค์ประกอบหลัก (PCA) เป็นวิธีการหนึ่งที่ได้รับความนิยมในการวิเคราะห์ความแปรปรวนเมื่อคุณจัดการกับข้อมูลหลายตัวแปร คุณมีตัวแปรสุ่ม X1, X2, ... Xn ซึ่งสัมพันธ์กันทั้งหมด (บวกหรือลบ) ถึงองศาที่แตกต่างกันและคุณต้องการทำความเข้าใจกับสิ่งที่เกิดขึ้นให้ดีขึ้น PCA สามารถช่วยได้

PCA ให้อะไรคุณคือการเปลี่ยนแปลงของตัวแปรเป็น Y1, Y2, ... , Yn (เช่นจำนวนตัวแปรเดียวกัน) ซึ่งเป็นการรวมกันเชิงเส้นของ Xs ตัวอย่างเช่นคุณอาจมี Y1 = 2.1 X1 - 1.76 X2 + 0.2 X3 ...

คุณสมบัติที่ดีของแต่ละคนนั้นไม่มีความสัมพันธ์ซึ่งกันและกัน ยังดีกว่าคุณจะได้รับพวกเขาในการลดความแปรปรวน ดังนั้น Y1 "อธิบาย" อันยิ่งใหญ่ของความแปรปรวนของตัวแปรดั้งเดิม Y2 น้อยลงไปเรื่อย ๆ โดยปกติหลังจากสองสามปีแรกตัวแปรจะค่อนข้างไร้ความหมาย คะแนน PCA สำหรับ Xi ใด ๆ เป็นเพียงค่าสัมประสิทธิ์ในแต่ละปี ในตัวอย่างก่อนหน้าของฉันคะแนนสำหรับ X2 ในองค์ประกอบหลักแรก (Y1) คือ 1.76

วิธีที่ PCA ใช้ทำเวทย์มนตร์นี้ก็คือการคำนวณ eigenvector ของเมทริกซ์ความแปรปรวนร่วม

เพื่อยกตัวอย่างที่เป็นรูปธรรมลองนึกภาพ X1, ... X10 เป็นการเปลี่ยนแปลงใน 1 ปี, 2 ปี, ... , 10 ปีอัตราผลตอบแทนพันธบัตรธนารักษ์ในบางช่วงเวลา เมื่อคุณคำนวณ PCA โดยทั่วไปคุณจะพบว่าองค์ประกอบแรกมีคะแนนสำหรับการเชื่อมโยงของเครื่องหมายเดียวกันและแต่ละเครื่องหมายเท่ากัน สิ่งนี้บอกคุณว่าความแปรปรวนของผลตอบแทนพันธบัตรส่วนใหญ่มาจากทุกสิ่งที่เคลื่อนไหวในลักษณะเดียวกัน: "การเลื่อนแบบขนาน" ขึ้นหรือลง องค์ประกอบที่สองมักจะแสดงให้เห็นถึง "steepening" และ "แบน" ของเส้นโค้งและมีเครื่องหมายตรงข้ามสำหรับ X1 และ X10


ค่า Y ที่สูงขึ้น "อธิบาย" ความแปรปรวนที่มากขึ้นได้อย่างไร เป็นวิธีคำนวณ PCA หรือไม่ ถ้าเป็นเช่นนั้นฉันคิดว่าฉันมีคำถามอีกหนึ่งข้อที่จะโพสต์;)
vrish88

1
ถูกต้อง - หากความแปรปรวนของพีซีพูด 3.5 แล้วพีซีนั้น "อธิบาย" ความผันแปรของ 3.5 ตัวแปรจากชุดเริ่มต้น เนื่องจากพีซีเป็นสารเติมแต่งPC1 > PC2 > ... > PCnและผลรวมของความแปรปรวนเท่ากับผลรวมของความแปรปรวนของชุดตัวแปรเริ่มต้นเนื่องจาก PCA ถูกคำนวณตามเมทริกซ์ความแปรปรวนร่วมเช่นตัวแปรจะได้มาตรฐาน (SD = 1, VAR = 1)
aL3xa

6

สมมติว่าคุณมีคลาวด์ที่มี N จุดใน, พูด, 3D (ซึ่งสามารถแสดงรายการในอาร์เรย์ 100x3) จากนั้นการวิเคราะห์องค์ประกอบหลัก (PCA) จะเข้ากันกับรูปวงรีเชิงพลในข้อมูล คะแนนองค์ประกอบหลักคือความยาวของเส้นผ่านศูนย์กลางของทรงรี

ในทิศทางที่เส้นผ่าศูนย์กลางมีขนาดใหญ่ข้อมูลจะแตกต่างกันมากในขณะที่ขนาดเส้นผ่าศูนย์กลางมีขนาดเล็กข้อมูลจะแตกต่างกันเล็กน้อย หากคุณต้องการฉายข้อมูล Nd ให้เป็นพล็อตกระจายแบบ 2 มิติคุณจะพล็อตพวกมันตามองค์ประกอบหลักที่ใหญ่ที่สุดสองประการเพราะด้วยวิธีการที่คุณแสดงความแปรปรวนส่วนใหญ่ในข้อมูล


จะมีประโยชน์ใด ๆ หรือคุณสามารถพล็อตพวกเขาในพล็อตกระจาย 3 มิติ?
vrish88

6

ฉันชอบคิดคะแนนองค์ประกอบหลักว่า "ไร้ความหมายโดยทั่วไป" จนกว่าคุณจะให้ความหมายบางอย่างแก่พวกเขา การตีความคะแนนพีซีในแง่ของ "ความจริง" เป็นธุรกิจที่ยุ่งยากและไม่มีทางที่จะทำเช่นนั้นได้ ขึ้นอยู่กับสิ่งที่คุณรู้เกี่ยวกับตัวแปรเฉพาะที่จะเข้าสู่ PCA และความสัมพันธ์ระหว่างกันในแง่ของการตีความ

เท่าที่คณิตศาสตร์ไปฉันชอบที่จะตีความคะแนน PC เป็นพิกัดของแต่ละจุดที่เกี่ยวกับแกนองค์ประกอบหลัก ดังนั้นในตัวแปรดิบที่คุณมีxi =(x1i,x2i,,xpi)x1x1izi =(z1i,z2i,,zpi)=A(xix¯)Ap×px¯

ดังนั้นคุณสามารถคิดถึง eigenvectors ว่าอธิบายว่า "เส้นตรง" ซึ่งอธิบายถึงพีซีนั้นอยู่ที่ไหน จากนั้นคะแนนองค์ประกอบหลักจะอธิบายตำแหน่งของจุดข้อมูลแต่ละจุดบนเส้นตรงแต่ละเส้นซึ่งสัมพันธ์กับ "centriod" ของข้อมูล นอกจากนี้คุณยังสามารถคิดถึงคะแนน PC ร่วมกับ weights / eigenvectors เป็นชุดการทำนายอันดับ 1 สำหรับแต่ละจุดข้อมูลดั้งเดิมซึ่งมีแบบฟอร์ม:

x^ji(k)=x¯j+zkiAkj

x^ji(k)ijk


4

ส่วนประกอบหลักของเมทริกซ์ข้อมูลคือคู่ค่าไอเกนวีคเตอร์ - ไอเกนค่าของเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วม ในสาระสำคัญพวกเขาเป็นชิ้นส่วนของความแปรปรวนที่เกี่ยวข้อง แต่ละคนเป็นการรวมกันเชิงเส้นของตัวแปรสำหรับการสังเกต - สมมติว่าคุณวัด w, x, y, z ในแต่ละวิชา พีซีเครื่องแรกของคุณอาจมีลักษณะคล้ายกัน

0.5w + 4x + 5y - 1.5z

โหลด (eigenvectors) ที่นี่คือ (0.5, 4, 5, -1.5) คะแนน (eigenvalue) สำหรับการสังเกตแต่ละครั้งเป็นค่าผลลัพธ์เมื่อคุณแทนที่การสังเกต (w, x, y, z) และคำนวณผลรวม

สิ่งนี้มีประโยชน์เมื่อคุณฉายสิ่งต่าง ๆ ลงบนส่วนประกอบหลักของพวกเขา (สำหรับ, พูด, การตรวจจับที่ผิดปกติ) เพราะคุณเพิ่งวางแผนคะแนนในแต่ละแบบที่คุณต้องการข้อมูลอื่น ๆ สิ่งนี้สามารถเปิดเผยข้อมูลของคุณได้มากมายหากความแปรปรวนส่วนใหญ่มีความสัมพันธ์กัน (== ในพีซีสองสามเครื่องแรก)


เพียงเพื่อความกระจ่างเมื่อคุณพูดว่า "ถ้าคุณวัด w, x, y, z ในแต่ละวิชา" คุณไม่ได้อ้างถึง "วิชา" จากคำตอบของ @TonyBreyal ข้างต้นใช่หรือไม่ คุณกำลังใช้คำว่า "วิชา" เพื่อให้ตรงกันกับ "การสังเกต" / "บันทึก" / "แถวข้อมูล" หรือไม่?
Ryan Chase

4

i=1,,Nj=1,,M

Zi,1=ci,1Yi,1+ci,2Yi,2+...+ci,MYi,M

cY

Z1=(Z1,1,...,ZN,1

เอาต์พุตจากRบน PCA (ตัวอย่างปลอม) มีลักษณะเช่นนี้ PC1, PC2 ... เป็นส่วนประกอบหลัก 1, 2 ... ตัวอย่างด้านล่างแสดงเฉพาะส่วนประกอบหลัก 8 รายการแรก (จาก 17) คุณยังสามารถแยกองค์ประกอบอื่น ๆ จาก PCA เช่นการโหลดและคะแนน

Importance of components:
                          PC1    PC2    PC3    PC4    PC5    PC6    PC7    PC8
Standard deviation     1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion  0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129

1
ขออภัย แต่สิ่งที่โหลด (c ในสูตรของคุณ) และคุณจะกำหนดได้อย่างไร?
vrish88

@ vrish88 ฉันเชื่อว่า c คือ "การโหลด" ของ eigenvectors ความเข้าใจของฉันคือสิ่งเหล่านี้เป็นเพียงน้ำหนักที่คุณให้กับตัวแปรแต่ละตัว ทิมอธิบายเรื่องนี้ได้ดีในคำตอบของเขา
Ryan Chase

3

คะแนนองค์ประกอบหลักคือกลุ่มคะแนนที่ได้รับจากการวิเคราะห์องค์ประกอบหลัก (PCA) ใน PCA ความสัมพันธ์ระหว่างกลุ่มคะแนนจะถูกวิเคราะห์เพื่อให้มีการสร้างตัวแปร "จินตภาพ" ใหม่จำนวนเท่ากัน (องค์ประกอบหลักรู้จักกัน) ถูกสร้างขึ้น ตัวแปรจินตภาพแรกใหม่เหล่านี้มีความสัมพันธ์มากที่สุดกับกลุ่มของตัวแปรดั้งเดิมทั้งหมด สิ่งต่อไปนี้ค่อนข้างมีความสัมพันธ์กันน้อยลงเรื่อย ๆ จนถึงจุดที่ถ้าคุณใช้คะแนนองค์ประกอบหลักทั้งหมดเพื่อทำนายตัวแปรที่กำหนดจากกลุ่มเริ่มต้นคุณจะสามารถอธิบายความแปรปรวนทั้งหมดได้ วิธีที่ PCA ดำเนินการนั้นซับซ้อนและมีข้อ จำกัด บางอย่าง ในบรรดาสิ่งเหล่านี้เป็นข้อ จำกัด ที่ความสัมพันธ์ระหว่างสององค์ประกอบหลัก (เช่นตัวแปรจินตภาพ) เป็นศูนย์; ดังนั้นมันจึงไม่ '

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.