ฉันจะเริ่มต้นด้วยการสาธิตที่ใช้งานง่าย
ฉันสร้างการสังเกต (a) จากการแจกแจงแบบ 2 มิติที่ไม่ใช่แบบเกาส์อย่างรุนแรงและ (b) จากการแจกแจงแบบเกาส์ 2D ในทั้งสองกรณีผมเป็นศูนย์กลางข้อมูลและดำเนินการค่าการสลายตัวเอกพจน์X = U S V ⊤ จากนั้นในแต่ละกรณีฉันทำโครงเรื่องของคอลัมน์สองคอลัมน์แรกของUต่ออีกคอลัมน์หนึ่ง โปรดทราบว่าโดยปกติจะเป็นคอลัมน์ของU Sที่เรียกว่า "ส่วนประกอบหลัก" (พีซี) คอลัมน์ของUคือขนาดพีซีที่มีหน่วยเป็นบรรทัดฐาน ยังคงอยู่ในคำตอบนี้ฉันกำลังมุ่งเน้นไปที่คอลัมน์ของU นี่คือแผนการกระจาย:n=100X=USV⊤UUSUU
ฉันคิดว่าข้อความเช่น "ส่วนประกอบ PCA ไม่มีการเชื่อมโยง" หรือ "ส่วนประกอบ PCA ขึ้นอยู่กับ / เป็นอิสระ" มักจะทำตัวอย่างเมทริกซ์หนึ่งตัวอย่างและอ้างอิงถึงสหสัมพันธ์ / การพึ่งพาข้ามแถว (ดูคำตอบของ @ ttnphns ที่นี่ ) PCA ให้ผลเมทริกซ์ข้อมูลที่ถูกแปลงUซึ่งแถวคือการสังเกตและคอลัมน์เป็นตัวแปร PC คือเราเห็นUเป็นตัวอย่างและถามว่าอะไรคือความสัมพันธ์ตัวอย่างระหว่างตัวแปร PC เมทริกซ์สหสัมพันธ์ตัวอย่างนี้เป็นของหลักสูตรโดยU ⊤ U = IXUUU⊤U=Iหมายถึงความสัมพันธ์ตัวอย่างระหว่างตัวแปร PC เป็นศูนย์ นี่คือสิ่งที่ผู้คนหมายถึงเมื่อพวกเขาพูดว่า "PCA diagonalizes เมทริกซ์ความแปรปรวนร่วม" เป็นต้น
สรุป 1: ในพิกัด PCA ข้อมูลใด ๆ ที่มีความสัมพันธ์เป็นศูนย์
นี่เป็นเรื่องจริงสำหรับทั้งสองแผนการกระจายด้านบน อย่างไรก็ตามเป็นที่ชัดเจนทันทีว่าตัวแปร PC สองตัวและyที่ scatterplot ทางซ้าย (ไม่ใช่แบบเกาส์) นั้นไม่เป็นอิสระ แม้จะมีศูนย์ความสัมพันธ์ที่พวกเขาจะขึ้นอยู่และในความเป็นจริงที่เกี่ยวข้องโดยY ≈ ( x - ข) 2 และแน่นอนมันเป็นที่รู้จักกันดีว่าไม่มีความเป็นอิสระไม่ได้หมายความว่าxyy≈a(x−b)2
ในทางตรงกันข้ามตัวแปร PC สองตัวและyxyทางด้านขวา (Gaussian) scatterplot ดูเหมือนจะเป็น "ค่อนข้างอิสระ" การคำนวณข้อมูลร่วมกันระหว่างพวกเขา (ซึ่งเป็นตัวชี้วัดของการพึ่งพาทางสถิติ: ตัวแปรอิสระมีข้อมูลร่วมกันเป็นศูนย์) โดยอัลกอริทึมมาตรฐานใด ๆ ที่จะให้ค่าใกล้เคียงกับศูนย์ มันจะไม่เป็นศูนย์อย่างแน่นอนเพราะมันจะไม่เป็นศูนย์สำหรับขนาดตัวอย่าง จำกัด ใด ๆ (เว้นแต่จะมีการปรับจูน) นอกจากนี้ยังมีวิธีการต่าง ๆ ในการคำนวณข้อมูลร่วมกันของสองตัวอย่างให้คำตอบที่แตกต่างกันเล็กน้อย แต่เราสามารถคาดหวังได้ว่าวิธีการใด ๆ จะให้ข้อมูลประมาณการร่วมกันที่ใกล้เคียงกับศูนย์มาก
สรุป 2: ในพิกัด PCA ข้อมูล Gaussian นั้น "ค่อนข้างอิสระ" ซึ่งหมายความว่าการประเมินมาตรฐานการพึ่งพาจะอยู่ที่ประมาณศูนย์
อย่างไรก็ตามคำถามนั้นค่อนข้างยุ่งยากกว่าดังที่แสดงโดยสายความคิดเห็นที่ยาว แน่นอน @whuber ชี้ให้เห็นอย่างถูกต้องว่าตัวแปร PCA และy (คอลัมน์ของU ) จะต้องขึ้นอยู่กับสถิติ: คอลัมน์จะต้องมีความยาวของหน่วยและจะต้องเป็นมุมฉากและสิ่งนี้จะแนะนำการพึ่งพา เช่นถ้าค่าบางอย่างในคอลัมน์แรกมีค่าเท่ากับ1แล้วค่าที่สอดคล้องกันในคอลัมน์ที่สองจะต้องเป็น0xyU10
สิ่งนี้เป็นจริง แต่มีความเกี่ยวข้องในทางปฏิบัติสำหรับขนาดเล็กมากเช่นn = 3 (โดยที่n = 2หลังจากที่อยู่ตรงกลางจะมีเพียงพีซีเดียว) สำหรับขนาดตัวอย่างที่เหมาะสมเช่นn = 100 ที่แสดงในรูปของฉันด้านบนผลของการพึ่งพาจะเล็กน้อย คอลัมน์ของUคือการประมาณขนาดของข้อมูล Gaussian ดังนั้นจึงเป็น Gaussian ซึ่งทำให้เป็นไปไม่ได้เลยที่ค่าหนึ่งจะใกล้เคียงกับ1 (สิ่งนี้จะต้องใช้องค์ประกอบn - 1อื่น ๆ ที่ใกล้เคียง0ซึ่งแทบจะไม่ การกระจายแบบเกาส์)nn=3n=2n=100U1n−10
Conclusion 3: strictly speaking, for any finite n, Gaussian data in PCA coordinates are dependent; however, this dependency is practically irrelevant for any n≫1.
We can make this precise by considering what happens in the limit of n→∞. In the limit of infinite sample size, the sample covariance matrix is equal to the population covariance matrix Σ. So if the data vector X is sampled from X⃗ ∼N(0,Σ), then the PC variables are Y⃗ =Λ−1/2V⊤X⃗ /(n−1) (where Λ and V are eigenvalues and eigenvectors of Σ) and Y⃗ ∼N(0,I/(n−1)). I.e. PC variables come from a multivariate Gaussian with diagonal covariance. But any multivariate Gaussian with diagonal covariance matrix decomposes into a product of univariate Gaussians, and this is the definition of statistical independence:
N(0,diag(σ2i))=1(2π)k/2det(diag(σ2i))1/2exp[−x⊤diag(σ2i)x/2]=1(2π)k/2(∏ki=1σ2i)1/2exp[−∑i=1kσ2ix2i/2]=∏1(2π)1/2σiexp[−σ2ix2i/2]=∏N(0,σ2i).
Conclusion 4: asymptotically (n→∞) PC variables of Gaussian data are statistically independent as random variables, and sample mutual information will give the population value zero.
I should note that it is possible to understand this question differently (see comments by @whuber): to consider the whole matrix U a random variable (obtained from the random matrix X via a specific operation) and ask if any two specific elements Uij and Ukl from two different columns are statistically independent across different draws of X. We explored this question in this later thread.
Here are all four interim conclusions from above:
- In PCA coordinates, any data have zero correlation.
- In PCA coordinates, Gaussian data are "pretty much independent", meaning that standard estimates of dependency will be around zero.
- Strictly speaking, for any finite n, Gaussian data in PCA coordinates are dependent; however, this dependency is practically irrelevant for any n≫1.
- Asymptotically (n→∞) PC variables of Gaussian data are statistically independent as random variables, and sample mutual information will give the population value zero.