คะแนนองค์ประกอบหลักคืออะไร (คะแนน PC, คะแนน PCA)
คะแนนองค์ประกอบหลักคืออะไร (คะแนน PC, คะแนน PCA)
คำตอบ:
ก่อนอื่นมากำหนดคะแนนกัน
John, Mike และ Kate ได้รับเปอร์เซ็นต์สำหรับการสอบในวิชาคณิตศาสตร์วิทยาศาสตร์ภาษาอังกฤษและดนตรีดังนี้:
Maths Science English Music
John 80 85 60 55
Mike 90 85 70 45
Kate 95 80 40 50
ในกรณีนี้มีทั้งหมด 12 คะแนน คะแนนแต่ละคะแนนแสดงถึงผลการสอบของแต่ละบุคคลในแต่ละวิชา คะแนนในกรณีนี้จึงเป็นเพียงการแสดงให้เห็นถึงการที่แถวและคอลัมน์ตัดกัน
ทีนี้เรามานิยามองค์ประกอบหลักอย่างไม่เป็นทางการกัน
ในตารางข้างต้นคุณสามารถพล็อตข้อมูลในกราฟ 2D ได้อย่างง่ายดายหรือไม่? ไม่เพราะมีวิชาสี่วิชา (ซึ่งหมายถึงตัวแปรสี่ตัว: คณิตศาสตร์วิทยาศาสตร์อังกฤษและดนตรี) เช่น:
แต่คุณจะพล็อตเรื่องที่ 4 ได้อย่างไร?
ในขณะนี้เรามีตัวแปรสี่ตัวซึ่งแต่ละตัวแทนเพียงหนึ่งเรื่อง ดังนั้นวิธีการเกี่ยวกับเรื่องนี้อาจจะรวมเรื่องเป็นบางทีอาจเป็นเพียงสองตัวแปรใหม่ซึ่งเราสามารถพล็อต นี้เรียกว่าการปรับหลายมิติ
การวิเคราะห์องค์ประกอบหลักเป็นรูปแบบของการปรับหลายมิติ มันคือการแปลงเชิงเส้นของตัวแปรไปสู่พื้นที่มิติที่ต่ำกว่าซึ่งเก็บข้อมูลจำนวนสูงสุดเกี่ยวกับตัวแปร ตัวอย่างเช่นนี่หมายความว่าเราสามารถดูประเภทวิชาที่นักเรียนแต่ละคนอาจเหมาะสมกว่า
องค์ประกอบหลักคือการรวมกันของตัวแปรเดิมหลังจากการแปลงเชิงเส้น ใน R นี่คือ:
DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)
ซึ่งจะให้สิ่งนี้กับคุณ (ส่วนประกอบหลักสองชิ้นแรกเท่านั้นเพื่อความเรียบง่าย):
PC1 PC2
Maths 0.27795606 0.76772853
Science -0.17428077 -0.08162874
English -0.94200929 0.19632732
Music 0.07060547 -0.60447104
คอลัมน์แรกที่นี่แสดงค่าสัมประสิทธิ์ของการรวมเชิงเส้นที่กำหนดองค์ประกอบหลัก # 1 และคอลัมน์ที่สองแสดงค่าสัมประสิทธิ์สำหรับองค์ประกอบหลัก # 2
ดังนั้นคะแนนองค์ประกอบหลักคืออะไร?
เป็นคะแนนจากตารางท้ายบทความ (ดูด้านล่าง)
ผลลัพธ์ข้างต้นจาก R หมายความว่าเราสามารถวางแผนคะแนนของแต่ละคนในทุกวิชาในกราฟ 2D ได้ดังนี้ ก่อนอื่นเราต้องจัดวางตัวแปรดั้งเดิมไว้ที่คอลัมน์การลบของฉันซึ่งหมายถึง:
Maths Science English Music
John -8.33 1.66 3.33 5
Mike 1.66 1.66 13.33 -5
Kate 6.66 -3.33 -16.66 0
จากนั้นสร้างชุดค่าผสมเชิงเส้นเพื่อรับคะแนน PC1 และ PC2 :
x y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33 + 0.07*5 -0.77*8.33 + -0.08*1.66 + 0.19*3.33 + -0.60*5
Mike 0.28*1.66 + -0.17*1.66 + -0.94*13.33 + -0.07*5 0.77*1.66 + -0.08*1.66 + 0.19*13.33 + -0.60*5
Kate 0.28*6.66 + 0.17*3.33 + 0.94*16.66 + 0.07*0 0.77*6.66 + 0.08*3.33 + -0.19*16.66 + -0.60*0
ซึ่งทำให้ง่ายต่อการ:
x y
John -5.39 -8.90
Mike -12.74 6.78
Kate 18.13 2.12
มีองค์ประกอบหลักหกคะแนนในตารางข้างต้น ตอนนี้คุณสามารถวางแผนคะแนนในกราฟ 2D เพื่อให้เข้าใจถึงประเภทของวิชาที่นักเรียนแต่ละคนอาจจะเหมาะสมกว่า
prcomp(DF, scale = FALSE)$x
เอาท์พุทเดียวกันสามารถรับได้ในการวิจัยโดยการพิมพ์
แก้ไข 1: อืมฉันอาจจะคิดตัวอย่างที่ดีขึ้นและมีมากกว่านั้นกับสิ่งที่ฉันได้ใส่ที่นี่ แต่ฉันหวังว่าคุณจะได้รับความคิด
แก้ไข 2: เครดิตเต็ม @drpaulbrewer สำหรับความคิดเห็นของเขาในการปรับปรุงคำตอบนี้
apply(dtf, 1, function(x) sum(scale(x)))
prcomp
ส่งออก ก่อนมันไม่ได้
การวิเคราะห์องค์ประกอบหลัก (PCA) เป็นวิธีการหนึ่งที่ได้รับความนิยมในการวิเคราะห์ความแปรปรวนเมื่อคุณจัดการกับข้อมูลหลายตัวแปร คุณมีตัวแปรสุ่ม X1, X2, ... Xn ซึ่งสัมพันธ์กันทั้งหมด (บวกหรือลบ) ถึงองศาที่แตกต่างกันและคุณต้องการทำความเข้าใจกับสิ่งที่เกิดขึ้นให้ดีขึ้น PCA สามารถช่วยได้
PCA ให้อะไรคุณคือการเปลี่ยนแปลงของตัวแปรเป็น Y1, Y2, ... , Yn (เช่นจำนวนตัวแปรเดียวกัน) ซึ่งเป็นการรวมกันเชิงเส้นของ Xs ตัวอย่างเช่นคุณอาจมี Y1 = 2.1 X1 - 1.76 X2 + 0.2 X3 ...
คุณสมบัติที่ดีของแต่ละคนนั้นไม่มีความสัมพันธ์ซึ่งกันและกัน ยังดีกว่าคุณจะได้รับพวกเขาในการลดความแปรปรวน ดังนั้น Y1 "อธิบาย" อันยิ่งใหญ่ของความแปรปรวนของตัวแปรดั้งเดิม Y2 น้อยลงไปเรื่อย ๆ โดยปกติหลังจากสองสามปีแรกตัวแปรจะค่อนข้างไร้ความหมาย คะแนน PCA สำหรับ Xi ใด ๆ เป็นเพียงค่าสัมประสิทธิ์ในแต่ละปี ในตัวอย่างก่อนหน้าของฉันคะแนนสำหรับ X2 ในองค์ประกอบหลักแรก (Y1) คือ 1.76
วิธีที่ PCA ใช้ทำเวทย์มนตร์นี้ก็คือการคำนวณ eigenvector ของเมทริกซ์ความแปรปรวนร่วม
เพื่อยกตัวอย่างที่เป็นรูปธรรมลองนึกภาพ X1, ... X10 เป็นการเปลี่ยนแปลงใน 1 ปี, 2 ปี, ... , 10 ปีอัตราผลตอบแทนพันธบัตรธนารักษ์ในบางช่วงเวลา เมื่อคุณคำนวณ PCA โดยทั่วไปคุณจะพบว่าองค์ประกอบแรกมีคะแนนสำหรับการเชื่อมโยงของเครื่องหมายเดียวกันและแต่ละเครื่องหมายเท่ากัน สิ่งนี้บอกคุณว่าความแปรปรวนของผลตอบแทนพันธบัตรส่วนใหญ่มาจากทุกสิ่งที่เคลื่อนไหวในลักษณะเดียวกัน: "การเลื่อนแบบขนาน" ขึ้นหรือลง องค์ประกอบที่สองมักจะแสดงให้เห็นถึง "steepening" และ "แบน" ของเส้นโค้งและมีเครื่องหมายตรงข้ามสำหรับ X1 และ X10
PC1 > PC2 > ... > PCn
และผลรวมของความแปรปรวนเท่ากับผลรวมของความแปรปรวนของชุดตัวแปรเริ่มต้นเนื่องจาก PCA ถูกคำนวณตามเมทริกซ์ความแปรปรวนร่วมเช่นตัวแปรจะได้มาตรฐาน (SD = 1, VAR = 1)
สมมติว่าคุณมีคลาวด์ที่มี N จุดใน, พูด, 3D (ซึ่งสามารถแสดงรายการในอาร์เรย์ 100x3) จากนั้นการวิเคราะห์องค์ประกอบหลัก (PCA) จะเข้ากันกับรูปวงรีเชิงพลในข้อมูล คะแนนองค์ประกอบหลักคือความยาวของเส้นผ่านศูนย์กลางของทรงรี
ในทิศทางที่เส้นผ่าศูนย์กลางมีขนาดใหญ่ข้อมูลจะแตกต่างกันมากในขณะที่ขนาดเส้นผ่าศูนย์กลางมีขนาดเล็กข้อมูลจะแตกต่างกันเล็กน้อย หากคุณต้องการฉายข้อมูล Nd ให้เป็นพล็อตกระจายแบบ 2 มิติคุณจะพล็อตพวกมันตามองค์ประกอบหลักที่ใหญ่ที่สุดสองประการเพราะด้วยวิธีการที่คุณแสดงความแปรปรวนส่วนใหญ่ในข้อมูล
ฉันชอบคิดคะแนนองค์ประกอบหลักว่า "ไร้ความหมายโดยทั่วไป" จนกว่าคุณจะให้ความหมายบางอย่างแก่พวกเขา การตีความคะแนนพีซีในแง่ของ "ความจริง" เป็นธุรกิจที่ยุ่งยากและไม่มีทางที่จะทำเช่นนั้นได้ ขึ้นอยู่กับสิ่งที่คุณรู้เกี่ยวกับตัวแปรเฉพาะที่จะเข้าสู่ PCA และความสัมพันธ์ระหว่างกันในแง่ของการตีความ
เท่าที่คณิตศาสตร์ไปฉันชอบที่จะตีความคะแนน PC เป็นพิกัดของแต่ละจุดที่เกี่ยวกับแกนองค์ประกอบหลัก ดังนั้นในตัวแปรดิบที่คุณมี
ดังนั้นคุณสามารถคิดถึง eigenvectors ว่าอธิบายว่า "เส้นตรง" ซึ่งอธิบายถึงพีซีนั้นอยู่ที่ไหน จากนั้นคะแนนองค์ประกอบหลักจะอธิบายตำแหน่งของจุดข้อมูลแต่ละจุดบนเส้นตรงแต่ละเส้นซึ่งสัมพันธ์กับ "centriod" ของข้อมูล นอกจากนี้คุณยังสามารถคิดถึงคะแนน PC ร่วมกับ weights / eigenvectors เป็นชุดการทำนายอันดับ 1 สำหรับแต่ละจุดข้อมูลดั้งเดิมซึ่งมีแบบฟอร์ม:
ส่วนประกอบหลักของเมทริกซ์ข้อมูลคือคู่ค่าไอเกนวีคเตอร์ - ไอเกนค่าของเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วม ในสาระสำคัญพวกเขาเป็นชิ้นส่วนของความแปรปรวนที่เกี่ยวข้อง แต่ละคนเป็นการรวมกันเชิงเส้นของตัวแปรสำหรับการสังเกต - สมมติว่าคุณวัด w, x, y, z ในแต่ละวิชา พีซีเครื่องแรกของคุณอาจมีลักษณะคล้ายกัน
0.5w + 4x + 5y - 1.5z
โหลด (eigenvectors) ที่นี่คือ (0.5, 4, 5, -1.5) คะแนน (eigenvalue) สำหรับการสังเกตแต่ละครั้งเป็นค่าผลลัพธ์เมื่อคุณแทนที่การสังเกต (w, x, y, z) และคำนวณผลรวม
สิ่งนี้มีประโยชน์เมื่อคุณฉายสิ่งต่าง ๆ ลงบนส่วนประกอบหลักของพวกเขา (สำหรับ, พูด, การตรวจจับที่ผิดปกติ) เพราะคุณเพิ่งวางแผนคะแนนในแต่ละแบบที่คุณต้องการข้อมูลอื่น ๆ สิ่งนี้สามารถเปิดเผยข้อมูลของคุณได้มากมายหากความแปรปรวนส่วนใหญ่มีความสัมพันธ์กัน (== ในพีซีสองสามเครื่องแรก)
เอาต์พุตจากRบน PCA (ตัวอย่างปลอม) มีลักษณะเช่นนี้ PC1, PC2 ... เป็นส่วนประกอบหลัก 1, 2 ... ตัวอย่างด้านล่างแสดงเฉพาะส่วนประกอบหลัก 8 รายการแรก (จาก 17) คุณยังสามารถแยกองค์ประกอบอื่น ๆ จาก PCA เช่นการโหลดและคะแนน
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
Standard deviation 1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion 0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129
คะแนนองค์ประกอบหลักคือกลุ่มคะแนนที่ได้รับจากการวิเคราะห์องค์ประกอบหลัก (PCA) ใน PCA ความสัมพันธ์ระหว่างกลุ่มคะแนนจะถูกวิเคราะห์เพื่อให้มีการสร้างตัวแปร "จินตภาพ" ใหม่จำนวนเท่ากัน (องค์ประกอบหลักรู้จักกัน) ถูกสร้างขึ้น ตัวแปรจินตภาพแรกใหม่เหล่านี้มีความสัมพันธ์มากที่สุดกับกลุ่มของตัวแปรดั้งเดิมทั้งหมด สิ่งต่อไปนี้ค่อนข้างมีความสัมพันธ์กันน้อยลงเรื่อย ๆ จนถึงจุดที่ถ้าคุณใช้คะแนนองค์ประกอบหลักทั้งหมดเพื่อทำนายตัวแปรที่กำหนดจากกลุ่มเริ่มต้นคุณจะสามารถอธิบายความแปรปรวนทั้งหมดได้ วิธีที่ PCA ดำเนินการนั้นซับซ้อนและมีข้อ จำกัด บางอย่าง ในบรรดาสิ่งเหล่านี้เป็นข้อ จำกัด ที่ความสัมพันธ์ระหว่างสององค์ประกอบหลัก (เช่นตัวแปรจินตภาพ) เป็นศูนย์; ดังนั้นมันจึงไม่ '