ตามที่ระบุในคำถามนี้อันดับสูงสุดของเมทริกซ์ความแปรปรวนร่วมคือโดยที่คือขนาดตัวอย่างและดังนั้นหากมิติของเมทริกซ์ความแปรปรวนร่วมเท่ากับขนาดตัวอย่างมันจะเป็นเอกพจน์ ผมไม่เข้าใจว่าทำไมเราลบจากการจัดอันดับสูงสุดความแปรปรวนร่วมเมทริกซ์
ตามที่ระบุในคำถามนี้อันดับสูงสุดของเมทริกซ์ความแปรปรวนร่วมคือโดยที่คือขนาดตัวอย่างและดังนั้นหากมิติของเมทริกซ์ความแปรปรวนร่วมเท่ากับขนาดตัวอย่างมันจะเป็นเอกพจน์ ผมไม่เข้าใจว่าทำไมเราลบจากการจัดอันดับสูงสุดความแปรปรวนร่วมเมทริกซ์
คำตอบ:
ตัวประมาณความแปรปรวนร่วมของเมทริกซ์ความแปรปรวนร่วมตัวอย่างที่กำหนดให้จุดข้อมูลx i ∈ R dคือC = 1ที่ ˉ x =∑xi/nเป็นค่าเฉลี่ยของทุกจุด ขอให้เราแสดงว่า(xฉัน- ˉ x )เป็นZฉัน ที่1
Why does have rank and not rank , as it would seem because we are summing rank- matrices?
The answer is that it happens because are not independent. By construction, . So if you know of , then the last remaining is completely determined; we are not summing independent rank- matrices, we are summing only independent rank- matrices and then adding one more rank- matrix that is fully linearly determined by the rest. This last addition does not change the overall rank.
We can see this directly if we rewrite as
This result, by the way, hints to why the factor in the unbiased estimator of covariance is and not .
The geometric intuition that I alluded to in the comments above is that one can always fit a 1D line to any two points in 2D and one can always fit a 2D plane to any three points in 3D, i.e. the dimensionality of the subspace is always ; this only works because we assume that this line (and plane) can be "moved around" in order to fit our points. "Positioning" this line (or plane) such that it passes through is equivalent of centering in the algebraic argument above.
A bit shorter, I believe, explanation goes like this:
Let us define matrix x matrix of sample data points where is a number of variables and is a number of samples for each variable. Let us assume that none of the variables are linearly dependent.
The rank of is .
Let us define matrix x matrix of rowwise centered variables:
.
The rank of centered data becomes , because each data row is now subjected to constraint:
.
It basically means we can recreate the entire matrix even if one of columns is removed.
The equation for sample covariance of becomes:
Clearly, the rank of covariance matrix is the .
By rank-nullity theorem: .