ส่วนประกอบ PCA ของข้อมูลแบบหลายตัวแปร Gaussian เป็นอิสระทางสถิติหรือไม่?


16

ส่วนประกอบ PCA (ในการวิเคราะห์องค์ประกอบหลัก) มีความเป็นอิสระทางสถิติหรือไม่หากข้อมูลของเรามีการกระจายหลายตัวแปรตามปกติ ถ้าเป็นเช่นนั้นสิ่งนี้สามารถแสดง / พิสูจน์ได้อย่างไร?

ฉันถามเพราะฉันเห็นโพสต์นี้ซึ่งคำตอบยอดนิยมระบุไว้:

PCA ไม่ได้ทำการตั้งสมมติฐาน Gaussianity ที่ชัดเจน พบว่าค่าไอเกนที่ผู้ใช้อธิบายความแปรปรวนสูงสุดในข้อมูล orthogonality ขององค์ประกอบหลักหมายความว่าจะพบส่วนประกอบที่ไม่เกี่ยวข้องมากที่สุดเพื่ออธิบายความแปรปรวนของข้อมูลให้มากที่สุด สำหรับการแจกแจงแบบเกาส์หลายตัวแปรความสัมพันธ์แบบไม่มีศูนย์ระหว่างส่วนประกอบหมายถึงความเป็นอิสระซึ่งไม่เป็นความจริงสำหรับการแจกแจงส่วนใหญ่

คำตอบจะถูกระบุโดยไม่มีการพิสูจน์และดูเหมือนจะบอกเป็นนัยว่า PCA ผลิตชิ้นส่วนที่เป็นอิสระหากข้อมูลเป็นตัวแปรปกติ

โดยเฉพาะกล่าวว่าข้อมูลของเราเป็นตัวอย่างจาก:

xN(μ,Σ)

เราใส่nตัวอย่างxเป็นแถวของเมทริกซ์ของตัวอย่างของเราXเพื่อให้Xเป็นn×mเมตร การคำนวณ SVD ของX (หลังจากศูนย์กลาง) ให้ผลตอบแทน

X=USVT

เราบอกได้ไหมว่าคอลัมน์ของUนั้นมีความเป็นอิสระทางสถิติแล้วก็แถวของVTโดยทั่วไปแล้วนี่เป็นเพียงแค่สำหรับxN(μ,Σ)หรือไม่เป็นความจริงเลย?


1
stats.stackexchange.com/q/110508/3277เป็นคำถามที่คล้ายกัน
ttnphns

1
ฉันไม่เห็นว่าพีซีอาจถูกพิจารณาว่าเป็น "อิสระทางสถิติ" ได้มากกว่าหนึ่งมิติ ท้ายที่สุดโดยคำจำกัดความแต่ละคนมีมุมฉากกับคนอื่น ๆ ; การพึ่งพาฟังก์ชั่นนี้สร้างการพึ่งพาทางสถิติที่แข็งแกร่งมาก
whuber

1
@amoeba ฉันหวังว่าฉันได้รับอย่างสม่ำเสมอที่ชัดเจนเช่นเดียวกับการซื่อสัตย์กับคำถามที่ฉันพบจะได้รับการระบุไว้อย่างชัดเจนและโปร่งใส: เนื่องจากข้อมูลจะสุ่มเพื่อให้มีรายการทั้งหมดในU ฉันใช้คำจำกัดความความเป็นอิสระทางสถิติกับพวกเขาแล้ว นั่นคือทั้งหมดที่ ปัญหาของคุณดูเหมือนจะเป็นไปได้ว่าคุณกำลังใช้คำว่า "ไม่มีความ" ในสองความรู้สึกที่แตกต่างกันมากโดยไม่ต้องดูเหมือนจะทราบว่ามัน: โดยอาศัยอำนาจตามวิธีคอลัมน์ของUจะสร้างพวกเขามีทางเรขาคณิตมุมฉากเป็นพาหะในR nแต่พวกเขาอยู่ด้วยกันไม่ หมายถึงเวกเตอร์สุ่มอิสระ! XUURn
whuber

1
@ amoeba คุณพูดถูก - การจำลองค่อนข้างน่าเชื่อถือแสดงให้เห็นถึงความสัมพันธ์ที่อาจเป็น (อย่างยิ่ง) ไม่ใช่ศูนย์ อย่างไรก็ตามฉันไม่ได้โต้แย้งว่า "องค์ประกอบ PCA ไม่มีการเชื่อมโยง" ในแง่ของ "สหสัมพันธ์" = "มุมฉาก" และฉันไม่ได้บอกว่าตำราเรียนใดไม่ถูกต้อง ข้อกังวลของฉันคือคำแถลงที่เข้าใจอย่างเหมาะสมนั้นไม่เกี่ยวข้องกับคำถามที่สิ่งที่มันสามารถทำได้ (และทำไปแล้ว) คือความสับสนอย่างกว้างขวางในบริบทปัจจุบัน
whuber

1
@ โฮเบอร์ฉันแน่ใจว่าคุณรอคอยคำตอบของฉันอีกฉบับ! นี่ไง ฉันรับทราบจุดของคุณอย่างชัดเจนเกี่ยวกับการพึ่งพาและทำให้คำสั่งที่คอลัมน์ของมีความอิสระเชิงเส้นเป็นจุดหลักของฉัน ที่นี่ "asymptotically" หมายถึงจำนวนnของการสังเกต (แถว) ฉันหวังเป็นอย่างยิ่งว่าเราจะสามารถเห็นด้วยกับเรื่องนี้! ฉันยังยืนยันว่าสำหรับn ที่เหมาะสมเช่นn = 100การพึ่งพาระหว่างคอลัมน์คือ "ไม่เกี่ยวข้องกับกลุ่ม" ฉันเดาว่านี่เป็นประเด็นที่ถกเถียงกันมากขึ้น แต่ฉันพยายามทำให้มันแม่นยำในคำตอบของฉัน Unnn=100
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


23

ฉันจะเริ่มต้นด้วยการสาธิตที่ใช้งานง่าย

ฉันสร้างการสังเกต (a) จากการแจกแจงแบบ 2 มิติที่ไม่ใช่แบบเกาส์อย่างรุนแรงและ (b) จากการแจกแจงแบบเกาส์ 2D ในทั้งสองกรณีผมเป็นศูนย์กลางข้อมูลและดำเนินการค่าการสลายตัวเอกพจน์X = U S V จากนั้นในแต่ละกรณีฉันทำโครงเรื่องของคอลัมน์สองคอลัมน์แรกของUต่ออีกคอลัมน์หนึ่ง โปรดทราบว่าโดยปกติจะเป็นคอลัมน์ของU Sที่เรียกว่า "ส่วนประกอบหลัก" (พีซี) คอลัมน์ของUคือขนาดพีซีที่มีหน่วยเป็นบรรทัดฐาน ยังคงอยู่ในคำตอบนี้ฉันกำลังมุ่งเน้นไปที่คอลัมน์ของU นี่คือแผนการกระจาย:n=100X=USVUUSUU

PCA of Gaussian and non-Gaussian data

ฉันคิดว่าข้อความเช่น "ส่วนประกอบ PCA ไม่มีการเชื่อมโยง" หรือ "ส่วนประกอบ PCA ขึ้นอยู่กับ / เป็นอิสระ" มักจะทำตัวอย่างเมทริกซ์หนึ่งตัวอย่างและอ้างอิงถึงสหสัมพันธ์ / การพึ่งพาข้ามแถว (ดูคำตอบของ @ ttnphns ที่นี่ ) PCA ให้ผลเมทริกซ์ข้อมูลที่ถูกแปลงUซึ่งแถวคือการสังเกตและคอลัมน์เป็นตัวแปร PC คือเราเห็นUเป็นตัวอย่างและถามว่าอะไรคือความสัมพันธ์ตัวอย่างระหว่างตัวแปร PC เมทริกซ์สหสัมพันธ์ตัวอย่างนี้เป็นของหลักสูตรโดยUU = IXUUUU=Iหมายถึงความสัมพันธ์ตัวอย่างระหว่างตัวแปร PC เป็นศูนย์ นี่คือสิ่งที่ผู้คนหมายถึงเมื่อพวกเขาพูดว่า "PCA diagonalizes เมทริกซ์ความแปรปรวนร่วม" เป็นต้น

สรุป 1: ในพิกัด PCA ข้อมูลใด ๆ ที่มีความสัมพันธ์เป็นศูนย์

นี่เป็นเรื่องจริงสำหรับทั้งสองแผนการกระจายด้านบน อย่างไรก็ตามเป็นที่ชัดเจนทันทีว่าตัวแปร PC สองตัวและyที่ scatterplot ทางซ้าย (ไม่ใช่แบบเกาส์) นั้นไม่เป็นอิสระ แม้จะมีศูนย์ความสัมพันธ์ที่พวกเขาจะขึ้นอยู่และในความเป็นจริงที่เกี่ยวข้องโดยY ( x - ) 2 และแน่นอนมันเป็นที่รู้จักกันดีว่าไม่มีความเป็นอิสระไม่ได้หมายความว่าxyya(xb)2

ในทางตรงกันข้ามตัวแปร PC สองตัวและyxyทางด้านขวา (Gaussian) scatterplot ดูเหมือนจะเป็น "ค่อนข้างอิสระ" การคำนวณข้อมูลร่วมกันระหว่างพวกเขา (ซึ่งเป็นตัวชี้วัดของการพึ่งพาทางสถิติ: ตัวแปรอิสระมีข้อมูลร่วมกันเป็นศูนย์) โดยอัลกอริทึมมาตรฐานใด ๆ ที่จะให้ค่าใกล้เคียงกับศูนย์ มันจะไม่เป็นศูนย์อย่างแน่นอนเพราะมันจะไม่เป็นศูนย์สำหรับขนาดตัวอย่าง จำกัด ใด ๆ (เว้นแต่จะมีการปรับจูน) นอกจากนี้ยังมีวิธีการต่าง ๆ ในการคำนวณข้อมูลร่วมกันของสองตัวอย่างให้คำตอบที่แตกต่างกันเล็กน้อย แต่เราสามารถคาดหวังได้ว่าวิธีการใด ๆ จะให้ข้อมูลประมาณการร่วมกันที่ใกล้เคียงกับศูนย์มาก

สรุป 2: ในพิกัด PCA ข้อมูล Gaussian นั้น "ค่อนข้างอิสระ" ซึ่งหมายความว่าการประเมินมาตรฐานการพึ่งพาจะอยู่ที่ประมาณศูนย์

อย่างไรก็ตามคำถามนั้นค่อนข้างยุ่งยากกว่าดังที่แสดงโดยสายความคิดเห็นที่ยาว แน่นอน @whuber ชี้ให้เห็นอย่างถูกต้องว่าตัวแปร PCA และy (คอลัมน์ของU ) จะต้องขึ้นอยู่กับสถิติ: คอลัมน์จะต้องมีความยาวของหน่วยและจะต้องเป็นมุมฉากและสิ่งนี้จะแนะนำการพึ่งพา เช่นถ้าค่าบางอย่างในคอลัมน์แรกมีค่าเท่ากับ1แล้วค่าที่สอดคล้องกันในคอลัมน์ที่สองจะต้องเป็น0xyU10

สิ่งนี้เป็นจริง แต่มีความเกี่ยวข้องในทางปฏิบัติสำหรับขนาดเล็กมากเช่นn = 3 (โดยที่n = 2หลังจากที่อยู่ตรงกลางจะมีเพียงพีซีเดียว) สำหรับขนาดตัวอย่างที่เหมาะสมเช่นn = 100 ที่แสดงในรูปของฉันด้านบนผลของการพึ่งพาจะเล็กน้อย คอลัมน์ของUคือการประมาณขนาดของข้อมูล Gaussian ดังนั้นจึงเป็น Gaussian ซึ่งทำให้เป็นไปไม่ได้เลยที่ค่าหนึ่งจะใกล้เคียงกับ1 (สิ่งนี้จะต้องใช้องค์ประกอบn - 1อื่น ๆ ที่ใกล้เคียง0ซึ่งแทบจะไม่ การกระจายแบบเกาส์)nn=3n=2n=100U1n10

Conclusion 3: strictly speaking, for any finite n, Gaussian data in PCA coordinates are dependent; however, this dependency is practically irrelevant for any n1.

We can make this precise by considering what happens in the limit of n. In the limit of infinite sample size, the sample covariance matrix is equal to the population covariance matrix Σ. So if the data vector X is sampled from XN(0,Σ), then the PC variables are Y=Λ1/2VX/(n1) (where Λ and V are eigenvalues and eigenvectors of Σ) and YN(0,I/(n1)). I.e. PC variables come from a multivariate Gaussian with diagonal covariance. But any multivariate Gaussian with diagonal covariance matrix decomposes into a product of univariate Gaussians, and this is the definition of statistical independence:

N(0,diag(σi2))=1(2π)k/2det(diag(σi2))1/2exp[xdiag(σi2)x/2]=1(2π)k/2(i=1kσi2)1/2exp[i=1kσi2xi2/2]=1(2π)1/2σiexp[σi2xi2/2]=N(0,σi2).

Conclusion 4: asymptotically (n) PC variables of Gaussian data are statistically independent as random variables, and sample mutual information will give the population value zero.

I should note that it is possible to understand this question differently (see comments by @whuber): to consider the whole matrix U a random variable (obtained from the random matrix X via a specific operation) and ask if any two specific elements Uij and Ukl from two different columns are statistically independent across different draws of X. We explored this question in this later thread.


Here are all four interim conclusions from above:

  • In PCA coordinates, any data have zero correlation.
  • In PCA coordinates, Gaussian data are "pretty much independent", meaning that standard estimates of dependency will be around zero.
  • Strictly speaking, for any finite n, Gaussian data in PCA coordinates are dependent; however, this dependency is practically irrelevant for any n1.
  • Asymptotically (n) PC variables of Gaussian data are statistically independent as random variables, and sample mutual information will give the population value zero.

You write "However, if the data are multivariate Gaussian, then they are indeed independent". 'They' being the principal components, and their coefficients? What do you mean by PCA diagonalizes the covariance matrix? Thank you for your response!
bill_e

"They" refers to principal components (which are projections of the data on the directions of maximal variance). PCA looks for directions of maximal variance; turns out that these directions are given by the eigenvectors of the covariance matrix. If you change the coordinates to the "PCA coordinates", then the covariance matrix will be diagonal, that is how eigendecomposition works. Equivalently, matrix S in the SVD from your question is a diagonal matrix. Also, matrix U is orthogonal, meaning that its covariance matrix is diagonal. All of that means that PCs have correlation zero.
amoeba says Reinstate Monica

Cool, thank you! The combination of your answer and this comment helps clear things up for me a lot. Can I edit your comment into your answer?
bill_e

I expanded the answer by incorporating the comment; see if you are happy with it now.
amoeba says Reinstate Monica

2
Interesting discussion! When I asked the question, my thought of statistical dependence was "if you know PC1, is it possible infer PC2?, etc." I will look more into independence tests based on mutual information now.
bill_e
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.