สิ่งที่เข้าใจได้จากความแปรปรวนในหลายมิติ ("ความแปรปรวนรวม") เป็นเพียงผลรวมของความแปรปรวนในแต่ละมิติ ในทางคณิตศาสตร์มันเป็นร่องรอยของเมทริกซ์ความแปรปรวนร่วม: การติดตามเป็นเพียงผลรวมขององค์ประกอบในแนวทแยงทั้งหมด คำจำกัดความนี้มีคุณสมบัติที่ดีมากมายเช่นการติดตามไม่แปรเปลี่ยนภายใต้การแปลงเชิงเส้นแบบฉากฉากซึ่งหมายความว่าหากคุณหมุนแกนพิกัดของคุณความแปรปรวนทั้งหมดจะยังคงเหมือนเดิม
สิ่งที่ได้รับการพิสูจน์ในหนังสือของบิชอป (มาตรา 12.1.1) คือว่าไอเกนวีคเตอร์ชั้นนำของเมทริกซ์ความแปรปรวนร่วมทำให้ทิศทางของความแปรปรวนสูงสุด eigenvector ที่สองให้ทิศทางของความแปรปรวนสูงสุดภายใต้ข้อ จำกัด เพิ่มเติมว่ามันควรเป็นมุมฉากกับ eigenvector ตัวแรกและอื่น ๆ (ฉันเชื่อว่านี่เป็นแบบฝึกหัด 12.1) หากเป้าหมายคือการเพิ่มความแปรปรวนโดยรวมให้มากที่สุดในพื้นที่ย่อย 2D กระบวนการนี้เป็นการเพิ่มความโลภสูงสุด: ก่อนอื่นให้เลือกหนึ่งแกนที่เพิ่มความแปรปรวนสูงสุดและอีกอันหนึ่ง
คำถามของคุณคือ: ทำไมขั้นตอนโลภถึงได้มากที่สุดในโลก?
นี่เป็นอาร์กิวเมนต์ที่ดีที่ @whuber แนะนำในความคิดเห็น ให้เราจัดระบบพิกัดกับแกน PCA ก่อน เมทริกซ์ความแปรปรวนกลายเป็นเส้นทแยงมุม:lambda_i) เพื่อความง่ายเราจะพิจารณากรณี 2D เดียวกันนั่นคือระนาบที่มีความแปรปรวนรวมสูงสุดคืออะไร? เราต้องการพิสูจน์ว่ามันคือระนาบที่กำหนดโดยเวกเตอร์พื้นฐานสองตัวแรก (พร้อมความแปรปรวนทั้งหมด )Σ=diag(λi)λ1+λ2
พิจารณาเครื่องบินทอดสองมุมฉากเวกเตอร์และ{V} ความแปรปรวนทั้งหมดในระนาบนี้คือดังนั้นมันคือการรวมกันเชิงเส้นของค่าลักษณะเฉพาะมีค่าสัมประสิทธิ์ที่เป็นบวกทั้งหมดไม่เกิน (ดูด้านล่าง) และผลรวมไป2ถ้าเป็นเช่นนั้นก็เป็นที่ชัดเจนว่าเกือบสูงสุดถึงที่\uv
u⊤Σu+v⊤Σv=∑λiu2i+∑λiv2i=∑λi(u2i+v2i).
λi12λ1+λ2
มันเป็นเหลือเพียงแสดงให้เห็นว่าค่าสัมประสิทธิ์ไม่เกิน1ขอให้สังเกตว่าโดยที่เป็นเวกเตอร์พื้นฐาน th ปริมาณนี้เป็นความยาวยกกำลังสองของการประมาณการของบนเครื่องบินทอดและวี ดังนั้นมันจะต้องเล็กกว่าความยาวกำลังสองของซึ่งเท่ากับ , QED1u2k+v2k=(u⋅k)2+(v⋅k)2kkkuvk|k|2=1
ดูคำตอบของ @ cardinal ต่อฟังก์ชัน PCA เป้าหมายคืออะไร (เป็นไปตามตรรกะเดียวกัน)