PCA และสัดส่วนของความแปรปรวนอธิบาย


90

โดยทั่วไปสิ่งที่มีความหมายโดยบอกว่าเศษส่วนของความแปรปรวนในการวิเคราะห์เช่น PCA อธิบายโดยองค์ประกอบหลักแรก ใครสามารถอธิบายสิ่งนี้อย่างสังหรณ์ใจ แต่ยังให้คำจำกัดความทางคณิตศาสตร์ที่แม่นยำของสิ่งที่ "แปรปรวนอธิบาย" หมายถึงในแง่ของการวิเคราะห์องค์ประกอบหลัก (PCA)?x

สำหรับการถดถอยเชิงเส้นอย่างง่าย r-squared ของเส้นพอดีที่ดีที่สุดจะถูกอธิบายเสมอตามสัดส่วนของความแปรปรวนที่อธิบาย แต่ฉันไม่แน่ใจว่าจะต้องทำอะไร สัดส่วนความแปรปรวนตรงนี้เป็นเพียงการขยายส่วนเบี่ยงเบนของคะแนนจากเส้นที่พอดีที่สุดหรือไม่?


คำตอบ:


103

ในกรณีของ PCA "แปรปรวน" หมายถึงความแปรปรวนปลายทางหรือความแปรปรวนหลายตัวแปรหรือความแปรปรวนโดยรวมหรือความแปรปรวนทั้งหมด ด้านล่างคือเมทริกซ์ความแปรปรวนร่วมของตัวแปร 3 ตัว ความแปรปรวนของพวกมันอยู่ในแนวทแยงมุมและผลรวมของ 3 ค่า (3.448) คือความแปรปรวนโดยรวม

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

ตอนนี้ PCA จะแทนที่ตัวแปรเดิมด้วยตัวแปรใหม่ที่เรียกว่าองค์ประกอบหลักซึ่งเป็นมุมฉาก (เช่นพวกเขามีศูนย์แปรปรวนร่วม) และมีความแปรปรวน (เรียกว่าค่าลักษณะเฉพาะ) ในลำดับที่ลดลง ดังนั้นเมทริกซ์ความแปรปรวนร่วมระหว่างองค์ประกอบหลักที่สกัดจากข้อมูลข้างต้นคือ:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

โปรดทราบว่าผลรวมเส้นทแยงมุมยังคงเป็น 3.448 ซึ่งบอกว่าส่วนประกอบทั้ง 3 นั้นมีความแปรปรวนหลายตัวแปรทั้งหมด องค์ประกอบหลักที่ 1 บัญชีหรือ "อธิบาย" 1.651 / 3.448 = 47.9% ของความแปรปรวนโดยรวม อันที่สองอธิบาย 1.220 / 3.448 = 35.4% ของมัน อันที่สามอธิบาย. 577 / 3.448 = 16.7% ของมัน

ดังนั้นพวกเขาหมายความว่าอย่างไรเมื่อพวกเขาพูดว่า " PCA เพิ่มความแปรปรวน " หรือ " PCA อธิบายความแปรปรวนสูงสุด " นั่นไม่ใช่แน่นอนว่ามันพบความแปรปรวนที่ใหญ่ที่สุดในสามค่า1.343730519 .619205620 1.485549631ไม่ใช่ PCA พบในพื้นที่ข้อมูลที่มิติ (ทิศทาง) กับความแปรปรวนที่ใหญ่ที่สุดออกมาจากภาพรวม1.343730519+.619205620+1.485549631 = 3.448ความแปรปรวน ความแปรปรวนที่ใหญ่ที่สุดนั้น1.651354285คือ จากนั้นก็จะพบมิติของความแปรปรวนที่ใหญ่เป็นอันดับสองมุมฉากกับอันที่หนึ่งออกมาจาก3.448-1.651354285ความแปรปรวนโดยรวมที่เหลืออยู่ มิติที่สองนั้นจะ1.220288343แปรปรวน และอื่น ๆ ส่วนที่เหลือสุดท้ายคือ.576843142ความแปรปรวน ดู "Pt3" ที่นี่และคำตอบที่ดีที่นี่ อธิบายวิธีการลงมือทำอย่างละเอียดยิ่งขึ้น

ในทางคณิตศาสตร์ PCA ดำเนินการผ่านฟังก์ชั่นพีชคณิตเชิงเส้นที่เรียกว่า eigen-decomposition หรือ svd-decomposition ฟังก์ชั่นเหล่านี้จะกลับคุณค่าลักษณะเฉพาะทั้งหมด1.651354285 1.220288343 .576843142(และ eigenvectors ที่สอดคล้องกัน) ในครั้งเดียว ( ดู , ดู )


1
คุณหมายถึงอะไร: "โปรดทราบว่าผลรวมเส้นทแยงมุมยังคงเป็น 3.448 ซึ่งบอกว่าส่วนประกอบทั้ง 3 นั้นมีความแปรปรวนหลายตัวแปรทั้งหมด" และความแตกต่างระหว่างวิธีการของคุณกับ PoV (สัดส่วนการเปลี่ยนแปลง) คืออะไร
kamaci

2
ฉันไม่แนะนำ "วิธีการ" ใด ๆ ฉันเพิ่งอธิบายว่าคอมพิวเตอร์ทุกเครื่องมีค่าความผันแปรเท่ากันกับตัวแปรดั้งเดิม
ttnphns

คุณช่วยตรวจสอบคำถามของฉันได้ที่: stats.stackexchange.com/questions/44464/…
kamaci

ฉันขอโทษ :-( ฉันไม่สามารถในขณะนี้มีความคิดเห็นมากเกินไปที่จะ
จูน

1
หากคุณเพิ่งอ่านคำถามก็เพียงพอแล้ว ไม่มีความคิดเห็นอะไร
kamaci

11

@ttnphns ให้คำตอบที่ดีบางทีฉันสามารถเพิ่มบางจุดได้ อันดับแรกฉันต้องการชี้ให้เห็นว่ามีคำถามที่เกี่ยวข้องกับประวัติย่อพร้อมคำตอบที่ดีจริง ๆ- คุณต้องการตรวจสอบแน่นอน ในสิ่งต่อไปนี้ฉันจะอ้างถึงแปลงที่แสดงในคำตอบนั้น

ทั้งสามแปลงแสดงข้อมูลเดียวกัน ขอให้สังเกตว่ามีความแปรปรวนในข้อมูลได้ทั้งแนวตั้งและแนวนอน แต่เราสามารถคิดของที่สุดของความแปรปรวนเป็นจริงเป็นเส้นทแยงมุม ในพล็อตที่สามเส้นทแยงมุมสีดำยาวนั้นเป็นไอเก็นเวกเตอร์ตัวแรก(หรือองค์ประกอบหลักตัวแรก) และความยาวขององค์ประกอบหลักนั้น (การแพร่กระจายของข้อมูลไปตามเส้นนั้น - ไม่ใช่ความยาวของเส้นตัวจริง ถูกวาดบนพล็อต) คือค่าเริ่มต้นแรก- คือจำนวนของความแปรปรวนที่คิดโดยองค์ประกอบหลักการแรก ถ้าคุณหาผลรวมความยาวนั้นกับความยาวขององค์ประกอบหลักการที่สอง (ซึ่งก็คือความกว้างของการแพร่กระจายของข้อมูลแบบ orthogonally ออกมาจากเส้นทแยงมุมนั้น) จากนั้นหารค่า eigenvalues ​​โดยรวมคุณจะได้เปอร์เซ็นต์ของความแปรปรวนคิดโดยองค์ประกอบหลักการที่สอดคล้องกัน

ในอีกทางหนึ่งเพื่อที่จะเข้าใจเปอร์เซ็นต์ของความแปรปรวนที่เกิดขึ้นในการถดถอยคุณสามารถดูพล็อตด้านบน ในกรณีดังกล่าวเส้นสีแดงคือเส้นการถดถอยหรือชุดของค่าที่ทำนายจากตัวแบบ ความแปรปรวนที่อธิบายสามารถเข้าใจได้ว่าเป็นอัตราส่วนของการแพร่กระจายในแนวดิ่งของเส้นถดถอย (เช่นจากจุดต่ำสุดบนบรรทัดไปยังจุดสูงสุดบนบรรทัด) กับการแพร่กระจายในแนวตั้งของข้อมูล (เช่นจากจุดข้อมูลต่ำสุด ไปยังจุดข้อมูลสูงสุด) แน่นอนว่าเป็นเพียงความคิดที่หลวมเพราะแท้จริงแล้วมันเป็นช่วงไม่ใช่ความแปรปรวน แต่นั่นจะช่วยให้คุณได้จุด

อย่าลืมอ่านคำถาม และถึงแม้ว่าฉันจะพูดถึงคำตอบยอดนิยม แต่คำตอบหลายข้อที่ให้นั้นยอดเยี่ยม มันคุ้มค่ากับเวลาที่จะอ่านพวกเขาทั้งหมด


3

มีคำตอบทางคณิตศาสตร์ที่ง่ายตรงและแม่นยำมากสำหรับคำถามต้นฉบับ

Y1Y2YpRi2

a1a2apPC1=a1Y1+a2Y2++apYpi=1pRi2(Yi|PC1)

ในแง่นี้คุณสามารถตีความพีซีเครื่องแรกว่าเป็น maximizer ของ "การอธิบายความแปรปรวน" หรือที่แม่นยำกว่านั้นคือ maximizer ของ "การแปรปรวนทั้งหมดอธิบาย"

bi=c×aic0

สำหรับการอ้างอิงถึงวรรณกรรมและส่วนขยายดั้งเดิมดู

Westfall, PH, Arias, AL และ Fulton, LV (2017) การสอนองค์ประกอบหลักโดยใช้สหสัมพันธ์การวิจัยเชิงพฤติกรรมหลายตัวแปร, 52, 648-660


0

Y=A+BYABYABYABvar(Y)=var(A)+var(B)+2cov(A,B)Ab0+b1XBeY=b0+b1X+eYb0+b1X

Y


คุณควรตรวจสอบสูตรของคุณสำหรับความแปรปรวนของ Y: มันไม่ถูกต้อง ที่สำคัญกว่านั้นความพยายามในการอธิบายการถดถอยนั้นไม่ได้อธิบายลักษณะของ PCA อย่างถูกต้องหรือวิธีการที่ผู้คนคิดเกี่ยวกับมันและใช้มัน
whuber

1
ไทแก้ไขข้อผิดพลาดในสูตร คำตอบของฉันคือส่วนที่สองของคำถามเกี่ยวกับสัดส่วนของความแปรปรวนที่อธิบายโดยเส้นถดถอย
Young
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.