ความสัมพันธ์ระหว่าง SVD และ PCA วิธีการใช้ SVD เพื่อทำ PCA

351

การวิเคราะห์องค์ประกอบหลัก (PCA) มักจะอธิบายผ่านการสลายตัวไอเก็นของเมทริกซ์ความแปรปรวนร่วม แต่ก็ยังสามารถดำเนินการผ่านการย่อยสลายมูลค่าเอกพจน์ (SVD) ของเมทริกซ์ข้อมูลXมันทำงานยังไง? การเชื่อมต่อระหว่างสองแนวทางนี้คืออะไร? ความสัมพันธ์ระหว่าง SVD และ PCA คืออะไร? $\mathbf X$

หรือกล่าวอีกนัยหนึ่งว่าจะใช้ SVD ของ data matrix เพื่อลดมิติข้อมูลได้อย่างไร?

— อะมีบา
แหล่งที่มา

ฉันเขียนคำถามสไตล์คำถามที่พบบ่อยนี้พร้อมกับคำตอบของฉันเองเพราะมันถูกถามบ่อยในรูปแบบต่าง ๆ แต่ไม่มีเธรดที่ยอมรับดังนั้นการปิดซ้ำจึงเป็นเรื่องยาก โปรดแสดงความคิดเห็นเมตาในเมตาดาต้าที่มาพร้อมกับนี้

— อะมีบา

stats.stackexchange.com/questions/177102/…

— kjetil b halvorsen

นอกจากคำตอบของอะมีบาที่ยอดเยี่ยมและมีรายละเอียดพร้อมลิงก์เพิ่มเติมแล้วฉันอาจแนะนำให้ตรวจสอบเรื่องนี้โดยที่ PCA ได้รับการพิจารณาโดยเทคนิคเทคนิค SVD อื่น ๆ การสนทนาที่นั่นนำเสนอพีชคณิตเกือบจะเหมือนกันกับอะมีบาด้วยความแตกต่างเพียงเล็กน้อยที่คำพูดที่นั่นในการอธิบาย PCA ไปเกี่ยวกับการสลายตัว svd ของ

[หรือ

X / \sqrt{n}

$\mathbf X/\sqrt{n}$

] แทนที่จะเป็น

- ซึ่งสะดวกสบายเพราะเกี่ยวข้องกับ PCA ที่ทำผ่าน eigendecomposition ของเมทริกซ์ความแปรปรวนร่วม

X / \sqrt{n - 1}

$\mathbf X/\sqrt{n-1}$

X

$\bf X$

— ttnphns

PCA เป็นกรณีพิเศษของ SVD PCA ต้องการข้อมูลที่ได้รับการปรับให้เป็นมาตรฐานและเป็นหน่วยเดียวกัน เมทริกซ์คือ nxn ใน PCA

— Orvar Korvar

@OrvarKorvar: คุณกำลังพูดถึง nxn matrix อะไร?

— Cbhihe

คำตอบ:

412

ให้ data matrix มีขนาดโดยที่คือจำนวนตัวอย่างและคือจำนวนของตัวแปร ขอให้เราสมมติว่ามันอยู่ตรงกลางนั่นคือลบคอลัมน์หมายความว่าและตอนนี้เท่ากับศูนย์ $\mathbf X$ $n \times p$ $n$ $p$

จากนั้นแปรปรวนเมทริกซ์จะได้รับจาก )มันเป็นเมทริกซ์สมมาตรและดังนั้นจึงสามารถ diagonalized: ที่เป็นเมทริกซ์ของ eigenvector (แต่ละคอลัมน์เป็น eigenvector) และเป็นเมทริกซ์ทแยงมุมที่มี eigenvalues ในลำดับลดลงในแนวทแยง . eigenvectors เรียกว่าแกนหลักหรือทิศทางหลัก $p \times p$ $\mathbf C$ $\mathbf C = \mathbf X^\top \mathbf X/(n-1)$

C = V L V^{⊤},

$\mathbf C = \mathbf V \mathbf L \mathbf V^\top,$

V

$\mathbf V$

L

$\mathbf L$

λ_{i}

$\lambda_i$ ของข้อมูล การคาดการณ์ของข้อมูลบนแกนหลักจะเรียกว่าองค์ประกอบหลักยังเป็นที่รู้จักคะแนนพีซี ; สิ่งเหล่านี้สามารถถูกมองว่าเป็นตัวแปรใหม่ที่เปลี่ยนแปลงได้

-th องค์ประกอบหลักจะได้รับจาก

คอลัมน์ -th ของ

พิกัดของ

จุดข้อมูล -th ในพื้นที่คอมพิวเตอร์เครื่องใหม่จะได้รับโดย

แถว -th ของ

j

$j$

j

$j$

X V

$\mathbf {XV}$

i

$i$

i

$i$

X V

$\mathbf{XV}$

ถ้าตอนนี้เราดำเนินการสลายตัวมูลค่าเอกพจน์เราได้รับการสลายตัวที่เป็นเมทริกซ์รวมและเป็นเมทริกซ์ทแยงมุมของค่าเอกพจน์ฉันจากที่นี่เราสามารถเห็นได้ว่า $\mathbf X$

X = U S V^{⊤},

$\mathbf X = \mathbf U \mathbf S \mathbf V^\top,$

U

$\mathbf U$

S

$\mathbf S$

s_{i}

$s_i$

หมายความว่าสิทธิเวกเตอร์เอกพจน์

คือเส้นทางหลักและค่าเอกพจน์ที่เกี่ยวข้องกับลักษณะเฉพาะของความแปรปรวนเมทริกซ์ผ่าน

)

ส่วนประกอบหลักจะได้รับจาก

C = V S U^{⊤} U S V^{⊤} / (n - 1) = V \frac{S^{2}}{n - 1} V^{⊤},

$\mathbf C = \mathbf V \mathbf S \mathbf U^\top \mathbf U \mathbf S \mathbf V^\top /(n-1) = \mathbf V \frac{\mathbf S^2}{n-1}\mathbf V^\top,$

V

$\mathbf V$

λ_{i} = s_{i}^{2} / (n - 1)

$\lambda_i = s_i^2/(n-1)$

X V = U S V^{⊤} V = U S

$\mathbf X \mathbf V = \mathbf U \mathbf S \mathbf V^\top \mathbf V = \mathbf U \mathbf S$

เพื่อสรุป:

ถ้าคอลัมน์ของคือทิศทาง / แกนหลัก $\mathbf X = \mathbf U \mathbf S \mathbf V^\top$ $\mathbf V$
$\mathbf {US}$
$\lambda_i = s_i^2/(n-1)$ $\lambda_i$
$\sqrt{n-1}\mathbf U$ $\mathbf V \mathbf S/\sqrt{n-1}$
$\mathbf X$ $\mathbf X^\top \mathbf X/(n-1)$
$\mathbf X$ $\mathbf U$ $\mathbf V$
$\mathbf X$
$p$ $k<p$ $k$ $\mathbf U$ $k\times k$ $\mathbf S$ $\mathbf U_k \mathbf S_k$ $n \times k$ $k$
$k$ $\mathbf V_k^\top$ $\mathbf X_k = \mathbf U_k^\vphantom \top \mathbf S_k^\vphantom \top \mathbf V_k^\top$ $n \times p$ $k$ $\mathbf X_k$ $k$
$\mathbf U$ $n\times n$ $\mathbf V$ $p \times p$ $n>p$ $n-p$ $\mathbf U$ $\mathbf S$ $\mathbf U$ $n\times p$ $n\gg p$ $\mathbf U$ จะเป็นอย่างอื่นที่ไม่จำเป็นขนาดใหญ่ เช่นเดียวกับสถานการณ์ตรงข้ามของพี $n\ll p$

ลิงค์เพิ่มเติม

ความสัมพันธ์ที่ใช้งานง่ายระหว่าง SVD และ PCA คืออะไร - ซึ่งเป็นที่นิยมมากและมีความคล้ายคลึงกันมากในวิชาคณิตศาสตร์
ทำไม PCA ของข้อมูลโดยใช้วิธี SVD ของข้อมูล - การอภิปรายเกี่ยวกับประโยชน์ของการทำ PCA ผ่าน SVD [คำตอบสั้น ๆ : เสถียรภาพเชิงตัวเลข]
การวิเคราะห์ PCA และสารบรรณที่เกี่ยวข้องกับ Biplot - PCA ในบริบทของเทคนิคที่ใช้กันอย่างแพร่หลายทั้งหมดนี้ใช้ SVD
มีข้อได้เปรียบของ SVD บน PCA หรือไม่? - คำถามที่ถามว่ามีประโยชน์ใดในการใช้ SVD แทน PCA [คำตอบสั้น ๆ : คำถามที่ไม่ถูกต้อง]
ทำให้รู้สึกถึงการวิเคราะห์องค์ประกอบหลัก, eigenvectors & ค่าลักษณะเฉพาะ - คำตอบของฉันให้คำอธิบายที่ไม่ใช่ด้านเทคนิคของ PCA เพื่อดึงดูดความสนใจฉันทำซ้ำหนึ่งรูปที่นี่:

— อะมีบา
แหล่งที่มา

⟨ (x_{i} - \bar{x}) (x_{i} - \bar{x})^{⊤} ⟩

$\langle (\mathbf x_i - \bar{\mathbf x})(\mathbf x_i - \bar{\mathbf x})^\top \rangle$

x_{i}

$\mathbf x_i$

X

$\mathbf X$

(X - \bar{X}) (X - \bar{X})^{⊤} / (n - 1)

$(\mathbf X - \bar{\mathbf X})(\mathbf X - \bar{\mathbf X})^\top/(n-1)$

X

$\mathbf X$

X X^{⊤} / (n - 1)

$\mathbf X \mathbf X^\top/(n-1)$

⟨ (x_{i} - \bar{x})^{2} ⟩

$\langle (x_i-\bar x)^2 \rangle$

\bar{x} = 0

$\bar x=0$

x_{i}^{2}

$x_i^2$

ตัวอย่างโค้ดสำหรับ PCA โดย SVD: stackoverflow.com/questions/3181593/…

— optimist

อะมีบาฉันมีหน้าที่รับผิดชอบในการเพิ่มอีกหนึ่งลิงก์ให้สอดคล้องกับลิงก์ที่คุณให้ หวังว่าคุณจะเหมาะสม

— ttnphns

S

$S$

λ_{i} = s_{i}^{2}

$\lambda_i = s_i^2$

@sera เพียงแค่เปลี่ยนเมทริกซ์ของคุณและกำจัดปัญหาของคุณ คุณจะสับสนอย่างอื่นเท่านั้น

— อะมีบา

ฉันเขียน Python & Numpy snippet ที่มาพร้อมกับคำตอบของ @ amoeba และฉันจะทิ้งไว้ที่นี่ในกรณีที่มันมีประโยชน์สำหรับใครบางคน ความคิดเห็นส่วนใหญ่นำมาจากคำตอบของ @ amoeba

import numpy as np
from numpy import linalg as la
np.random.seed(42)


def flip_signs(A, B):
    """
    utility function for resolving the sign ambiguity in SVD
    http://stats.stackexchange.com/q/34396/115202
    """
    signs = np.sign(A) * np.sign(B)
    return A, B * signs


# Let the data matrix X be of n x p size,
# where n is the number of samples and p is the number of variables
n, p = 5, 3
X = np.random.rand(n, p)
# Let us assume that it is centered
X -= np.mean(X, axis=0)

# the p x p covariance matrix
C = np.cov(X, rowvar=False)
print "C = \n", C
# C is a symmetric matrix and so it can be diagonalized:
l, principal_axes = la.eig(C)
# sort results wrt. eigenvalues
idx = l.argsort()[::-1]
l, principal_axes = l[idx], principal_axes[:, idx]
# the eigenvalues in decreasing order
print "l = \n", l
# a matrix of eigenvectors (each column is an eigenvector)
print "V = \n", principal_axes
# projections of X on the principal axes are called principal components
principal_components = X.dot(principal_axes)
print "Y = \n", principal_components

# we now perform singular value decomposition of X
# "economy size" (or "thin") SVD
U, s, Vt = la.svd(X, full_matrices=False)
V = Vt.T
S = np.diag(s)

# 1) then columns of V are principal directions/axes.
assert np.allclose(*flip_signs(V, principal_axes))

# 2) columns of US are principal components
assert np.allclose(*flip_signs(U.dot(S), principal_components))

# 3) singular values are related to the eigenvalues of covariance matrix
assert np.allclose((s ** 2) / (n - 1), l)

# 8) dimensionality reduction
k = 2
PC_k = principal_components[:, 0:k]
US_k = U[:, 0:k].dot(S[0:k, 0:k])
assert np.allclose(*flip_signs(PC_k, US_k))

# 10) we used "economy size" (or "thin") SVD
assert U.shape == (n, p)
assert S.shape == (p, p)
assert V.shape == (p, p)

— user115202
แหล่งที่มา

$\mu$ $x_i$

X = (\begin{array}{ccccc} x_{1}^{T} - μ^{T} \\ x_{2}^{T} - μ^{T} \\ ⋮ \\ x_{n}^{T} - μ^{T} \end{array}) .

$X = \left( \begin{array}{ccccc} && x_1^T - \mu^T && \\ \hline && x_2^T - \mu^T && \\ \hline && \vdots && \\ \hline && x_n^T - \mu^T && \end{array} \right)\,.$

เมทริกซ์ความแปรปรวนร่วม

S = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - μ) (x_{i} - μ)^{T} = \frac{1}{n - 1} X^{T} X

$S = \frac{1}{n-1} \sum_{i=1}^n (x_i-\mu)(x_i-\mu)^T = \frac{1}{n-1} X^T X$

$S$

S = V Λ V^{T} = \sum_{i = 1}^{r} λ_{i} v_{i} v_{i}^{T},

$S = V \Lambda V^T = \sum_{i = 1}^r \lambda_i v_i v_i^T \,,$

$v_i$ $i$ $\lambda_i$ $i$ $S$ $i$

PCA ของชุดข้อมูล Gaussian ที่สร้างแบบสุ่ม

$A = \left( \begin{array}{cc}1&2\\0&1\end{array} \right)$ $u_i$ $v_i$

SVD สำหรับตัวอย่าง 2x2

$A$ $\mathbb S$ $u_i$ $v_i$

$X$ $A = X$

X = \sum_{i = 1}^{r} σ_{i} u_{i} v_{j}^{T},

$X = \sum_{i=1}^r \sigma_i u_i v_j^T\,,$

$\{ u_i \}$ $\{ v_i \}$ $S$ $v_i$

u_{i} = \frac{1}{\sqrt{(n - 1) λ_{i}}} X v_{i},

$u_i = \frac{1}{\sqrt{(n-1)\lambda_i}} Xv_i\,,$

$\sigma_i$

σ_{i}^{2} = (n - 1) λ_{i} .

$\sigma_i^2 = (n-1) \lambda_i\,.$

$u_i$ $X$ $u_i$ $X$ $i$ $v_i$ $X$

ผมไปในรายละเอียดมากขึ้นและประโยชน์ของความสัมพันธ์ระหว่าง PCA และ SVD ในบทความนี้อีกต่อไป

— อังเดรพี
แหล่งที่มา

ขอบคุณสำหรับ anser Andre ของคุณ เพียงแค่การแก้ไขความผิดพลาดเล็ก ๆ สองประการ: 1. ในย่อหน้าสุดท้ายคุณจะสับสนไปทางซ้ายและขวา 2. ในสูตร (ตัวพิมพ์ใหญ่) สำหรับ X คุณใช้ v_j แทน v_i

— Alon