เงื่อนไขที่เพียงพอและจำเป็นสำหรับศูนย์ค่าเฉพาะของเมทริกซ์สหสัมพันธ์


11

ได้รับตัวแปรสุ่มกับการกระจายความน่าจะเป็น , เมทริกซ์สหสัมพันธ์เป็นบวกกึ่งแน่นอนเช่นค่าลักษณะเฉพาะของมัน เป็นบวกหรือเป็นศูนย์nXiP(X1,,Xn)Cij=E[XiXj]E[Xi]E[Xj]

ฉันสนใจในเงื่อนไขเกี่ยวกับที่จำเป็นและ / หรือเพียงพอสำหรับC ที่จะมี ค่าลักษณะเฉพาะศูนย์m ยกตัวอย่างเช่นเงื่อนไขที่เพียงพอคือการที่ตัวแปรสุ่มที่ไม่เป็นอิสระ: \ sum_i u_i x_i = 0สำหรับจำนวนจริงบางu_i ตัวอย่างเช่นถ้าP (X_1, \ ldots, X_n) = \ delta (X_1-X_2) p (X_2, \ ldots, X_n)ดังนั้น\ vec u = (1, -1,0, \ ldots, 0)คือ eigenvector ของC ที่มีค่าศูนย์ eigenvalue หากเรามีข้อ จำกัด เชิงเส้นอิสระเอ็มบนX_iของประเภทนี้มันจะแปลว่าค่าศูนย์เป็นค่าmPCmiuiXi=0uiP(X1,,Xn)=δ(X1X2)p(X2,,Xn)u=(1,1,0,,0)CmXim

มีเพิ่มเติม ( แต่น่ารำคาญ) อย่างน้อยหนึ่งเป็นไปได้เมื่อเป็นXa=E[Xa]สำหรับบาง(คือP (X_1 \ ldots, X_n) \ propto \ เดลต้า (X_a-E [X_a]) ) เนื่องจากในการที่ กรณีC_ {IJ}มีคอลัมน์และสายของศูนย์ A: C_ {} IA = C_ {} ai = 0 \, \ forall ฉัน เนื่องจากไม่น่าสนใจจริง ๆ ฉันจึงสันนิษฐานว่าการแจกแจงความน่าจะไม่ใช่แบบนั้นaP(X1,,Xn)δ(XaE[Xa])CijCia=Cai=0,i

คำถามของฉันคือข้อ จำกัด เชิงเส้นเป็นวิธีเดียวที่จะชักนำให้เกิดค่าลักษณะเฉพาะเป็นศูนย์ (ถ้าเราห้ามข้อยกเว้นเล็กน้อยที่ให้ไว้ข้างต้น) หรือข้อ จำกัด ที่ไม่ใช่เชิงเส้นในตัวแปรสุ่มยังสามารถสร้างศูนย์ค่าลักษณะเฉพาะของC ?


1
ตามคำนิยามคอลเลกชันของเวกเตอร์ที่มีศูนย์เวกเตอร์นั้นขึ้นอยู่กับแนวเส้นตรงดังนั้นความเป็นไปได้เพิ่มเติมของคุณไม่ใช่สิ่งใหม่หรือแตกต่าง คุณช่วยกรุณาอธิบายสิ่งที่คุณหมายถึง "มี eigenvalue"? นั่นดูเหมือนข้อผิดพลาดในการพิมพ์บางอย่าง m
whuber

@whuber: ใช่พิมพ์ผิด การแก้ไข ฉันคิดว่าทั้งสองเงื่อนไขแตกต่างกัน: หนึ่งเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรในขณะที่อื่น ๆ เกี่ยวกับความน่าจะเป็นของตัวแปรเท่านั้น (คือ ) p(Xa)=δ(XaE(Xa))
อดัม

การกำหนดคำถามของคุณสับสน มันมีลักษณะเหมือนทฤษฎีบทเบื้องต้นของพีชคณิตเชิงเส้น แต่อ้างอิงถึง "อิสระ" ตัวแปรสุ่มบอกว่ามันอาจจะเกี่ยวกับสิ่งอื่นทั้งหมด มันจะถูกต้องหรือไม่ที่จะเข้าใจว่าทุกครั้งที่คุณใช้ "อิสระ" คุณหมายถึงในแง่ของความเป็นอิสระเชิงเส้นและไม่ได้อยู่ในความหมายของตัวแปรสุ่มอิสระ (สถิติ) การอ้างอิงถึง "ข้อมูลที่หายไป" ของคุณยิ่งทำให้สับสนยิ่งขึ้นเพราะเป็นการแนะนำ "ตัวแปรสุ่ม" ของคุณซึ่งอาจหมายถึงแค่คอลัมน์ของเมทริกซ์ข้อมูล มันจะเป็นการดีถ้าได้เห็นความหมายเหล่านี้ชัดเจนขึ้น
whuber

@whuber: ฉันได้แก้ไขคำถาม หวังว่ามันจะชัดเจนขึ้น
อดัม

เงื่อนไขความเป็นอิสระiuiXi=0ไม่จำเป็นต้องเป็นศูนย์ (ค่าคงที่ใด ๆ จะทำ) เว้นแต่ว่าค่าเฉลี่ยของแต่ละXiเป็นศูนย์
Sextus Empiricus

คำตอบ:


6

บางทีการทำให้สัญลักษณ์ง่ายขึ้นเราสามารถนำความคิดที่จำเป็นออกมา ปรากฎว่าเราไม่จำเป็นต้องมีความคาดหวังหรือสูตรที่ซับซ้อนเพราะทุกอย่างเกี่ยวกับพีชคณิตล้วนๆ


ลักษณะทางพีชคณิตของวัตถุทางคณิตศาสตร์

ความสัมพันธ์ระหว่างความกังวลคำถาม (1) เมทริกซ์ความแปรปรวนของชุด จำกัด ของตัวแปรสุ่มX1,,Xnและ (2) การเชิงเส้นความสัมพันธ์ระหว่างตัวแปรเหล่านั้นถือว่าเป็นพาหะ

พื้นที่เวกเตอร์ในคำถามเป็นชุดของตัวแปรทั้งหมด จำกัด -แปรปรวนแบบสุ่ม (บนเป็นพื้นที่ใดก็ตาม(Ω,P) ) โมดูโลสเปซเกือบตัวแปรคงที่แน่นอนชี้แนะL2(Ω,P)/R. (นั่นคือเราพิจารณาตัวแปรสุ่มสองตัวXและYเป็นเวกเตอร์เดียวกันเมื่อมีโอกาสเป็นศูนย์ที่XYแตกต่างจากที่คาดไว้) เรากำลังจัดการกับพื้นที่เวกเตอร์ จำกัด ขนาดVสร้างโดยXi, ซึ่งเป็นสิ่งที่ทำให้ปัญหาพีชคณิตมากกว่าการวิเคราะห์

สิ่งที่เราต้องรู้เกี่ยวกับความแปรปรวน

Vเป็นมากกว่าปริภูมิเวกเตอร์: มันเป็นโมดูลกำลังสองเพราะมันมาพร้อมกับความแปรปรวน สิ่งที่เราต้องรู้เกี่ยวกับความแปรปรวนคือสองสิ่ง:

  1. ความแปรปรวนเป็นสเกลามูลค่าฟังก์ชั่นQกับทรัพย์สินที่Q(aX)=a2Q(X)สำหรับทุกเวกเตอร์XX.

  2. ความแปรปรวนคือไม่สร้าง

ประการที่สองต้องการคำอธิบายบางอย่าง Qกำหนด "ผลิตภัณฑ์ดอท" ซึ่งเป็นรูปสมมาตรของบิลิแนร์ที่กำหนดโดย

XY=14(Q(X+Y)Q(XY)).

(นี่คือแน่นอนไม่มีอะไรอื่นนอกเหนือจากความแปรปรวนของตัวแปรและY . ) เวกเตอร์XและYเป็นมุมฉากเมื่อคูณจุดของพวกเขาคือ0. orthogonal ประกอบชุดของเวกเตอร์ใด ๆVประกอบด้วยเวกเตอร์ทั้งหมดที่ตั้งฉากกับทุกองค์ประกอบ ของA ,เขียนXY.XY0.AVA,

A0={vVa.v=0 for all vV}.

มันชัดเจนว่าเป็นพื้นที่เวคเตอร์ เมื่อ , QคือnondegenerateV0={0}Q

ให้ฉันพิสูจน์ว่าความแปรปรวนนั้นไม่ได้สร้างขึ้นมาอย่างแน่นอนแม้ว่ามันจะดูชัดเจนก็ตาม สมมติว่าเป็นองค์ประกอบภัณฑ์ของV 0 นี่หมายถึงX Y = 0สำหรับY V ทั้งหมด ค่าเท่ากันXV0.XY=0YV;

Q(X+Y)=Q(XY)

สำหรับเวกเตอร์ทั้งหมดY การให้Y = Xให้Y.Y=X

4Q(X)=Q(2X)=Q(X+X)=Q(XX)=Q(0)=0

และทำให้ แต่เรารู้ (โดยใช้เซฟของความไม่เท่าเทียมกันบางที) ที่ตัวแปรสุ่มเพียงกับศูนย์แปรปรวนเกือบจะแน่นอนคงที่ซึ่งระบุพวกเขาด้วยเวกเตอร์ศูนย์ในV , QEDQ(X)=0.V,

การตีความคำถาม

กลับไปที่คำถามในสัญกรณ์ก่อนหน้าเมทริกซ์ความแปรปรวนร่วมของตัวแปรสุ่มเป็นเพียงอาร์เรย์ปกติของผลิตภัณฑ์ดอททั้งหมดของพวกเขา

T=(XiXj).

มีวิธีคิดที่ดีเกี่ยวกับ : มันกำหนดการแปลงเชิงเส้นบนR nในวิธีปกติโดยการส่งเวกเตอร์ใด ๆx = ( x 1 , , x n ) R nลงในเวกเตอร์T ( x ) = y = ( y ที่1 , ... , x n )ซึ่งฉันTHส่วนประกอบจะได้รับจากกฎการคูณเมทริกซ์TRnx=(x1,,xn)RnT(x)=y=(y1,,xn)ith

yi=j=1n(XiXj)xj.

เคอร์เนลของการเปลี่ยนแปลงเชิงเส้นนี้เป็นสเปซจะส่งไปยังศูนย์:

Ker(T)={xRnT(x)=0}.

สมการดังกล่าวข้างต้นแสดงให้เห็นว่าเมื่อทุกฉันxKer(T),i

0=yi=j=1n(XiXj)xj=Xi(jxjXj).

ตั้งแต่นี้เป็นจริงสำหรับทุกมันถือสำหรับเวกเตอร์ทั้งหมดทอดโดยX ฉัน : คือVตัวเอง ดังนั้นเมื่อx เคอร์( T ) ,เวกเตอร์ที่กำหนดโดยΣ J x เจเอ็กซ์เจโกหกในV 0 เนื่องจากความแปรปรวนเป็นแบบไม่สิ้นสุดนี่หมายถึงj x j X j = 0 นั่นคือxอธิบายการพึ่งพาเชิงเส้นระหว่างตัวแปรสุ่มแบบดั้งเดิมni,XiVxKer(T),jxjXjV0.jxjXj=0.xn

คุณสามารถตรวจสอบได้อย่างง่ายดายว่าการให้เหตุผลแบบนี้สามารถย้อนกลับได้:

อ้างอิงเชิงเส้นในหมู่เป็นพาหะอยู่ในหนึ่งต่อหนึ่งการติดต่อกับองค์ประกอบของเคอร์เนลของTXj T.

(โปรดจำไว้ว่าคำสั่งนี้ยังคงพิจารณาตามที่กำหนดไว้จนถึงการเปลี่ยนตำแหน่งคงที่นั่นคือเป็นองค์ประกอบของL 2 ( Ω , P ) / R -แทนที่จะเป็นเพียงตัวแปรสุ่ม)XjL2(Ω,P)/R

ในที่สุดโดยมีความหมายเป็นค่าเฉพาะของใด ๆ เกลาλที่มีอยู่ไม่ใช่ศูนย์เวกเตอร์xกับT ( x ) = λ x เมื่อλ = 0เป็นค่าเฉพาะพื้นที่ของ eigenvectors เกี่ยวข้องคือ (ชัด) เคอร์เนลของTTλxT(x)=λx.λ=0T.


สรุป

We have arrived at the answer to the questions: the set of linear dependencies of the random variables, qua elements of L2(Ω,P)/R, corresponds one-to-one with the kernel of their covariance matrix T. This is so because the variance is a nondegenerate quadratic form. The kernel also is the eigenspace associated with the zero eigenvalue (or just the zero subspace when there is no zero eigenvalue).


Reference

I have largely adopted the notation and some of the language of Chapter IV in

Jean-Pierre Serre, A Course In Arithmetic. Springer-Verlag 1973.


Whoa, that's great ! Just a question to be sure that I understand everything : when you write "Xj as vectors" you do not mean collecting the random variables in a vector (i.e. X=(X1,,Xn)), or do you ? If I'm right, I'm guessing that you are collecting the possible values of the random variable Xi into a vector, while the probability distribution is hidden into the definition of the variance, right ?
Adam

I think the main aspect that is not quite clear is the following (which might just show my lack of formal knowledge of probability theory) : you seem to show that if there is a 0 eigenvalue, then we have e.g. X1=X2. This constraint does not refer to the probability distribution P, which is hidden in Q (I think this is the clever point about this demonstration). But what does that mean to have X1=X2 without reference to P? Or does it just imply that Pδ(X1X2), but then how do we know that it must be a linear combination of X1 and X2 in the delta function?
Adam

I'm afraid I don't understand your use of a "delta function" in this context, Adam. That is partly because I see no need for it and partly because the notation is ambiguous: would that be a Kronecker delta or a Dirac delta, for instance?
whuber

It would be a Kronecker or a Dirac depending on the variables (discrete or continuous). These delta's could be part of the integration measure, e.g. I integrate over 2-by-2 matrices M (so four real variables X1, X2, X3 and X4, with some weight (say P=exp(tr(M.MT))), or I integrate over a sub-group. If it is symmetric matrices (implying for instance X2=X3), I can formally impose that by multiplying P by δ(X1X2). This would be a linear constraint. An example of non-linear constraint is given in the comments below Martijn Weterings's answer.
Adam

(continued) The question is : what can of non-linear constraints that I can add on my variables can induce a 0 eigenvalue. By your answers, it seems to be : only non-linear constraint that imply linear constraint (as exemplified in the comments below Martijn Weterings's answer). Maybe the problem is that my way of thinking of the problem is from a physicist point of view, and I struggle to explain it in a different language (I think here is the right place to ask this question, no physics.SE).
Adam

5

Linear independence is not just sufficient but also a neccesary condition

To show that the variance-covariance matrix has eigenvalues equal to zero if and only if the variables are not linearly independent, it only remains to be shown that "if the matrix has eigenvalues equal to zero then the variables are not linearly independent".

If you have a zero eigenvalue for Cij=Cov(Xi,Xj) then there is some linear combination (defined by the eigenvector v)

Y=i=1nvi(Xi)

such that

Cov(Y,Y)=i=1nj=1nvivjCov(Xi,Xj)=i=1nvij=1nvjCij=i=1nvi0=0

which means that Y needs to be a constant and thus the variables Xi have to add up to a constant and are either constants themselves (the trivial case) or not linearly independent.

- the first line in the equation with Cov(Y,Y) is due to the property of covariance

Cov(aU+bV,cW+dX)=acCov(U,W)+bcCov(V,W)+adCov(U,X)+bdCov(V,X)

- the step from the second to the third line is due to the property of a zero eigenvalue

j=1nvjCij=0


Non-linear constraints

So, since linear constraints are a necessary condition (not just sufficient), non-linear constraints will only be relevant when they indirectly imply a (necessary) linear constraint.

In fact, there is a direct correspondence between the eigenvectors associated with the zero eigenvalue and the linear constraints.

Cv=0Y=i=1nviXi=const

Thus non-linear constraints leading to a zero eigenvalue must, together combined, generate some linear constraint.


How can non-linear constraints lead to linear constraints

Your example in the comments can show this intuitively how non-linear constraints can lead to linear constraints by reversing the derivation. The following non-linear constraints

a2+b2=1c2+d2=1ac+bd=0adbc=1

can be reduced to

a2+b2=1c2+d2=1ad=0b+c=0

You could inverse this. Say you have non-linear plus linear constraints, then it is not strange to imagine how we can replace one of the linear constraints with a non-linear constraint, by filling the linear constraints into the non-linear constraints. E.g when we substitute a=d and b=c in the non-linear form a2+b2=1 then you can make another relationship adbc=1. And when you multiply a=d and c=b then you get ac=bd.


I guess this (and the answer by whuber) is an indirect answer to my question (which was : "is linear dependence the only way to obtain a zero eigenvalue") in this way : even if the dependence between the random variables is non-linear, it can always be rewritten as a linear dependence by just writing Y=iνiXi. Although I was really looking for way to characterize the possible non-linear constraints themselves, I guess it is nevertheless a useful result.
Adam

Yes, I know... what I'm saying is that if there is a non-linear dependence and there is a zero eigenvalue, then by your answer, it means that the non-linear dependence can be "factored" in some way into a linear dependence. It is a weaker version of what I was looking for, but still something.
Adam

Your a giving an example that does not work, which does not mean that it cannot be the case...
Adam

Here is a counter-example of what your saying (if you think it is not, then it might help us find what is wrong with my formulation of the problem :) ) : Take a 2-by-2 random matrix M, with the non-linear constraint M.MT=1 and detM=1. These 3 non-linear constraint can be rewritten in terms of 2 linear constraints, and one linear : meaning that the covariance matrix has two 0 eigenvector. Remove the constraint detM=1, and they disappear.
Adam

M11=X1, M12=X2, M21=X3 and M22=X4. The constraints are X12+X22=1, X32+X42=1, X1X3+X2X4=0 (only two are independent). They do not imply a zero eigenvalue. However, adding X1X4X2X3=1 does imply two eigenvectors with 0 eigenvalues.
Adam

2

Suppose C has an eigenvector v with corresponding eigenvalue 0, then var(vTX)=vTCv=0. Thus, by Chebyshev's inequality, vTX is almost surely constant and equal to vTE[X]. That is, every zero eigenvalue corresponds to a linear restriction, namely vTX=vTE[X]. There is no need to consider any special cases.

Thus, we conclude:

"are linear constraints the only way to induce zero eigenvalues [?]"

Yes.

"can non-linear constraints on the random variables also generate zero eigenvalues of C ?"

Yes, if they imply linear constraints.


I agree. I was hoping that one could be more specific on the kind of non-linear constraints, but I guess that it is hard to do better if we do not specify the constraints.
Adam

2

The covariance marix C of X is symmetric so you can diagnonalize it as C=QΛQT, with the eigenvalues in the diagonal matrix Λ. Rewriting this as Λ=QTCQ, the rhs is the covariance matrix of QTX, so zero eigenvalues on the lhs correspond to linear combinations of X with degenerate distributions.


This is a very nice concise description, but how could we make it more intuitive that QTCQ=cov(QTX)?
Sextus Empiricus
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.