เป็นตำแหน่งของความแปรปรวนเมทริกซ์ที่มากที่สุดทำไม


17

ตามที่ระบุในคำถามนี้อันดับสูงสุดของเมทริกซ์ความแปรปรวนร่วมคือn1โดยที่nคือขนาดตัวอย่างและดังนั้นหากมิติของเมทริกซ์ความแปรปรวนร่วมเท่ากับขนาดตัวอย่างมันจะเป็นเอกพจน์ ผมไม่เข้าใจว่าทำไมเราลบ1จากการจัดอันดับสูงสุดnความแปรปรวนร่วมเมทริกซ์


1
เพื่อให้ได้สัญชาตญาณคิดเกี่ยวกับn=2คะแนนในแบบ 3 มิติ มิติข้อมูลของพื้นที่ย่อยที่จุดเหล่านี้อยู่คืออะไร? คุณสามารถใส่มันลงในบรรทัด (พื้นที่ย่อย 1D) ได้หรือไม่? หรือคุณต้องการระนาบ (พื้นที่ย่อย 2D)
อะมีบาพูดว่า Reinstate Monica

คุณเข้าใจหรือไม่ว่าn=2นำไปสู่การจัดอันดับเมทริกซ์ความแปรปรวนร่วม 1 อันดับ? โอเคลองเปลี่ยนn=3คะแนน คุณเห็นหรือไม่ว่าคุณสามารถใส่มันลงในระนาบ 2D ได้ตลอดเวลา?
อะมีบาพูดว่า Reinstate Monica

4
@ amoeba ตัวอย่างของคุณชัดเจน แต่ฉันไม่เข้าใจความสัมพันธ์ระหว่าง hyper-plane ที่เหมาะสมในตัวอย่างของคุณกับเมทริกซ์ความแปรปรวนร่วมคืออะไร?
3070752

ขออภัยในความล่าช้า;)
3070752

คำตอบ:


20

ตัวประมาณความแปรปรวนร่วมของเมทริกซ์ความแปรปรวนร่วมตัวอย่างที่กำหนดให้จุดข้อมูลx iR dคือC = 1nxiRdที่ ˉ x =xi/nเป็นค่าเฉลี่ยของทุกจุด ขอให้เราแสดงว่า(xฉัน- ˉ x )เป็นZฉัน ที่1

C=1n1i=1n(xix¯)(xix¯),
x¯=xi/n(xix¯)ziปัจจัย n - 1ไม่เปลี่ยนอันดับและแต่ละคำในผลรวมมี (ตามคำนิยาม) อันดับ1ดังนั้นหลักของคำถามมีดังนี้:1n11

Why does zizi have rank n1 and not rank n, as it would seem because we are summing n rank-1 matrices?

The answer is that it happens because zi are not independent. By construction, zi=0. So if you know n1 of zi, then the last remaining zn is completely determined; we are not summing n independent rank-1 matrices, we are summing only n1 independent rank-1 matrices and then adding one more rank-1 matrix that is fully linearly determined by the rest. This last addition does not change the overall rank.

We can see this directly if we rewrite zi=0 as

zn=i=1n1zi,
and now plug it into the above expression:
i=1nzizi=i=1n1zizi+(i=1n1zi)zn=i=1n1zi(zizn).
Now there is only n1 terms left in the sum and it becomes clear that the whole sum can have at most rank n1.

This result, by the way, hints to why the factor in the unbiased estimator of covariance is 1n1 and not 1n.

The geometric intuition that I alluded to in the comments above is that one can always fit a 1D line to any two points in 2D and one can always fit a 2D plane to any three points in 3D, i.e. the dimensionality of the subspace is always n1; this only works because we assume that this line (and plane) can be "moved around" in order to fit our points. "Positioning" this line (or plane) such that it passes through x¯ is equivalent of centering in the algebraic argument above.


0

A bit shorter, I believe, explanation goes like this:

Let us define matrix n x m matrix x of sample data points where n is a number of variables and m is a number of samples for each variable. Let us assume that none of the variables are linearly dependent.

The rank of x is min(n,m).

Let us define matrix n x m matrix z of rowwise centered variables:

z=xE[x].

The rank of centered data becomes min(n,m1), because each data row is now subjected to constraint:

i=1mzi=0.

It basically means we can recreate the entire z matrix even if one of columns is removed.

The equation for sample covariance of x becomes:

cov(x,x)=1m1zzT

Clearly, the rank of covariance matrix is the rank(zzT).

By rank-nullity theorem: rank(zzT)=rank(z)=min(n,m1).

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.