มีการตีความ


107

สำหรับเมทริกซ์ข้อมูล (พร้อมตัวแปรในคอลัมน์และจุดข้อมูลในแถว) ดูเหมือนว่าA T Aมีบทบาทสำคัญในสถิติ ตัวอย่างเช่นมันเป็นส่วนสำคัญของโซลูชันการวิเคราะห์ของกำลังสองน้อยสุดธรรมดา หรือสำหรับ PCA eigenvector นั้นเป็นองค์ประกอบหลักของข้อมูลAATA

ฉันเข้าใจวิธีคำนวณแต่ฉันสงสัยว่ามีการตีความที่เข้าใจง่ายเกี่ยวกับความหมายของเมทริกซ์นี้หรือไม่ซึ่งนำไปสู่บทบาทที่สำคัญATA


2
บางคนอาจจะมีสัญชาตญาณ afforded โดยการวิเคราะห์ที่stats.stackexchange.com/a/66295/919
whuber

คำตอบ:


125

เรขาคณิตเมทริกซ์เรียกว่าเมทริกซ์ของผลิตภัณฑ์สเกลาร์ (= ผลิตภัณฑ์ดอท, = ผลิตภัณฑ์ชั้นใน) พีชคณิตเรียกว่าเมทริกซ์ผลรวมของสแควร์และครอสโปรดัคส์ ( SSCP )AA

ของ -th องค์ประกอบในแนวทแยงเท่ากับΣ 2 ( ฉัน)ที่( ฉัน)หมายถึงค่าในฉันคอลัมน์ -th ของและΣคือผลรวมทั่วแถว ฉันเจ -th ปิดเส้นทแยงมุมองค์ประกอบนั้นเป็นΣ ( ฉัน) ( J )ia(i)2a(i)iAija(i)a(j)

มีค่าสัมประสิทธิ์การเชื่อมโยงที่สำคัญจำนวนหนึ่งและเมทริกซ์จตุรัสของพวกเขาถูกเรียกว่าแองกูลาร์คล้ายคลึงกันหรือความคล้ายคลึงกันประเภท SSCP:

  • การหารเมทริกซ์ SSCP ด้วยขนาดตัวอย่างหรือจำนวนแถวของAคุณจะได้รับเมทริกซ์MSCP (mean-square-and-cross-product) สูตรจับคู่ของการวัดความสัมพันธ์นี้จึงx ynA (โดยมีเวกเตอร์xและyเป็นคู่คอลัมน์จากA)xynxyA

  • หากคุณอยู่ตรงกลางคอลัมน์ (ตัวแปร) ของดังนั้นA Aคือscatter (หรือ co-scatter, ถ้าจะเข้มงวด) เมทริกซ์และA A / ( n - 1 )คือเมทริกซ์ความแปรปรวนร่วม สูตรความแปรปรวนร่วมแบบ Pairwise คือc x c yAAAAA/(n1)มีcxและcyหมายถึงคอลัมน์กลางcxcyn1cxcy

  • ถ้าคุณ z- มาตรฐานคอลัมน์ของ (ลบค่าเฉลี่ยของคอลัมน์และหารด้วยค่าเบี่ยงเบนมาตรฐาน) ดังนั้นA A / ( n - 1 )คือเมทริกซ์ความสัมพันธ์แบบเพียร์สัน: ความสัมพันธ์เป็นความแปรปรวนร่วมสำหรับตัวแปรมาตรฐาน สูตรจากจำนวนความสัมพันธ์เป็นΣ Z x Z YAAA/(n1)มีzxและzyแสดงถึงคอลัมน์มาตรฐาน สหสัมพันธ์เรียกอีกอย่างว่าสัมประสิทธิ์ของความเป็นเชิงเส้นzxzyn1zxzy

  • หากคุณกำหนดขนาดคอลัมน์ของ (นำ SS, ผลบวกของกำลังสองไปเป็น 1) แล้วA Aคือเมทริกซ์ความคล้ายคลึงโคไซน์ สูตรคู่ที่เทียบเท่าจึงปรากฏเป็นu x u y = x yAAAกับuxและuyแสดงถึงคอลัมน์ที่ปรับให้เป็นมาตรฐาน L2 ความคล้ายคลึงกันของโคไซน์เรียกอีกอย่างหนึ่งว่าสัมประสิทธิ์ของสัดส่วนuxuy=xyx2y2uxuy

  • ถ้าคุณอยู่ตรงกลางแล้วคอลัมน์ขนาดหน่วยของดังนั้นA Aเป็นเมทริกซ์สหสัมพันธ์ของเพียร์สันอีกครั้งเนื่องจากความสัมพันธ์เป็นโคไซน์สำหรับตัวแปรที่มีศูนย์กลาง1 , 2 : c u x c u y = c x c yAAA1,2cuxcuy=cxcycx2cy2

นอกเหนือจากมาตรการการเชื่อมโยงหลักทั้งสี่นี้แล้วให้เราพูดถึงมาตรการอื่นที่อิงจากเพื่อกำจัดมัน พวกมันถูกมองว่าเป็นมาตรการทางเลือกที่คล้ายคลึงกับโคไซน์เพราะมันต่างจากการทำให้เป็นมาตรฐาน, ตัวส่วนในสูตร:AA

  • สัมประสิทธิ์ของตัวตน [Zegers & ten Berge, 1985] มีตัวส่วนในรูปของค่าเฉลี่ยเลขคณิตมากกว่าค่าเฉลี่ยทางเรขาคณิต: 2 มันสามารถเป็น 1 ถ้าหากว่าคอลัมน์การเปรียบเทียบของAนั้นเหมือนกันxy(x2+y2)/2A

  • ค่าสัมประสิทธิ์การใช้งานอื่น ๆ เช่นเรียกว่าอัตราส่วนความคล้ายคลึงกัน : 2xyx2+y2xy=xyxy+(xy)2

  • สุดท้ายหากค่าในเป็นค่าลบของพวกเขาและผลรวมภายในคอลัมน์ที่ 1 (เช่นพวกเขาเป็นสัดส่วน) แล้วAคือเมทริกซ์ของความเที่ยงตรงหรือสัมประสิทธิ์BhattacharyyaAA


วิธีหนึ่งในการคำนวณสหสัมพันธ์หรือเมทริกซ์ความแปรปรวนร่วมที่ใช้โดยชุดข้อมูลสถิติจำนวนมากข้ามข้อมูลที่อยู่กึ่งกลางและแยกออกจากเมทริกซ์ SSCP A Aด้วยวิธีนี้ ให้ sเป็นเวกเตอร์แถวของผลรวมคอลัมน์ Aในขณะที่ nคือจำนวนแถวในข้อมูล จากนั้น (1) คำนวณเมทริกซ์กระจายเป็น C = ' - s ' s / n [นั่น C / ( n - 1 )จะเป็นเมทริกซ์ความแปรปรวน]; (2) เส้นทแยงมุมของ C1AAsAnC=AAss/nC/(n1)Cคือผลรวมของการเบี่ยงเบนกำลังสอง, เวกเตอร์แถว ; (3) คำนวณเมทริกซ์สหสัมพันธ์R = C / d dR=C/dd

ผู้อ่านที่เฉียบแหลม แต่มีสถิติอาจพบว่าเป็นการยากที่จะปรับความสัมพันธ์ทั้งสองให้สอดคล้องกัน - ในฐานะ "ความแปรปรวนร่วม" (ซึ่งรวมถึงค่าเฉลี่ยโดยขนาดตัวอย่างการหารโดยdf= "n-1") และเป็น "โคไซน์" ค่าเฉลี่ยดังกล่าว) แต่ในความเป็นจริงแล้วไม่มีการหาค่าเฉลี่ยจริงในสูตรแรกของสหสัมพันธ์ สิ่งที่เป็นที่ ส่วนเบี่ยงเบนโดยที่ Z-มาตรฐานก็ประสบความสำเร็จได้รับการคำนวณในทางกลับกันที่มีการแบ่งโดยการเดียวกันกับที่DF; และอื่น ๆ ส่วนคำว่า "n-1" ในสูตรของความสัมพันธ์ตามที่แปรปรวนอย่างสิ้นเชิงถ้าคุณยกเลิกการแกะสูตร: สูตรจะกลายเป็นสูตรของโคไซน์ การคำนวณค่าความสัมพันธ์เชิงประจักษ์ที่คุณต้องการจริงๆไม่ได้ที่จะรู้ว่า n2n (ยกเว้นเมื่อคำนวณค่าเฉลี่ยไปยังกึ่งกลาง)



39

@NRH ให้คำตอบทางเทคนิคที่ดี

ATAA2


5
แม้ว่าคำตอบอื่น ๆ นั้นถูกต้องมากกว่า "เทคนิค" นี่เป็นคำตอบที่ง่ายที่สุด
CatsLoveJazz

3

AAm×nA:RnRmA

(AA):RnRn{e1,...,en}d1,,dk

(AA)(x1e1++xnen)=d1x1e1+...+dkxkek

(b) ช่วง (A) = Col (A), โดยคำจำกัดความของ Col (A) ดังนั้น A | Row (A) จะทำการแมป Row (A) เข้ากับ Col (A)

Av=0v is in Kernel(A)vis in orthogonal complement of Row(A)

A(Rn)=A(Row(A))A|Row(A):Row(A)Col(A)

Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.

[บังเอิญให้หลักฐานว่าอันดับแถว = อันดับคอลัมน์!]

A|:Col(A)=Row(A)Col(A')=Row(A)

AA(Rn)=Row(A)


2
LATEX

2

ATA

ATArowpATcolpAdot(rowp,colp)(p,p)ATA

pATkAdot(rowp,colk)(p,k)

(p,k)ATArowpcolkrowicoljrowicolj, และในทางกลับกัน.

Aiji

ป้อนคำอธิบายรูปภาพที่นี่


1

xE[x2]AATA

xxi

a=[x1x2xn]

x

x2¯=aan
ATA

σ2=E[x2]ATAATA

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.