ความคล้ายคลึงของ Pearson สหสัมพันธ์สำหรับ 3 ตัวแปร


17

ฉันสนใจว่า "ความสัมพันธ์" ของตัวแปรสามตัวเป็นอะไรหรือไม่และถ้าเป็นเช่นนั้นจะเป็นอย่างไร

ค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน

E{(XμX)(YμY)}Var(X)Var(Y)

ตอนนี้คำถามสำหรับ 3 ตัวแปร: คือ

E{(XμX)(YμY)(ZμZ)}Var(X)Var(Y)Var(Z)

อะไร?

ใน R ดูเหมือนว่าสิ่งที่ตีความได้:

> a <- rnorm(100); b <- rnorm(100); c <- rnorm(100)
> mean((a-mean(a)) * (b-mean(b)) * (c-mean(c))) / (sd(a) * sd(b) * sd(c))
[1] -0.3476942

ปกติแล้วเราจะดูความสัมพันธ์ระหว่าง 2 ตัวแปรที่กำหนดค่าคงที่ของตัวแปรที่สาม มีคนอธิบายไหม


2
1) ในสูตรเพียร์สัน bivariate ของคุณถ้า "E" (หมายถึงในรหัสของคุณ) หมายถึงการหารด้วยnแล้วเซนต์ การเบี่ยงเบนต้องขึ้นอยู่กับn (ไม่ใช่ n-1) 2) ให้ทั้งสามตัวแปรเป็นตัวแปรเดียวกัน ในกรณีนี้เราคาดว่าความสัมพันธ์จะเป็น 1 (เหมือนในกรณี bivariate) แต่อนิจจา ...
ttnphns

สำหรับการแจกแจงแบบปกติขนาดเล็กมันเป็นศูนย์โดยไม่คำนึงว่าสหสัมพันธ์นั้นคืออะไร
Ray Koopman

1
ฉันคิดว่าชื่อเรื่องจะได้รับประโยชน์จากการเปลี่ยนเป็น "Analogy of Pearson correlation สำหรับ 3 ตัวแปร" หรือคล้ายกัน - มันจะทำให้การเชื่อมโยงที่นี่ค่อนข้างมีข้อมูลมากกว่านี้
Silverfish

1
@ Silververfish ฉันเห็นด้วย! ฉันได้อัปเดตชื่อขอบคุณ
PascalVKooten

คำตอบ:


11

มันเป็นสิ่งที่แน่นอน เพื่อค้นหาเราจำเป็นต้องตรวจสอบสิ่งที่เรารู้เกี่ยวกับความสัมพันธ์ของตัวเอง

  1. เมทริกซ์สหสัมพันธ์ของตัวแปรสุ่มเวกเตอร์X=(X1,X2,,Xp)เป็นเมทริกซ์ความแปรปรวนความแปรปรวนหรือ "แปรปรวน" ของรุ่นมาตรฐานของXXนั่นคือแต่ละXiจะถูกแทนที่ด้วยเวอร์ชันที่ได้รับการปรับสภาพใหม่

  2. ความแปรปรวนร่วมของXiและXjคือความคาดหวังของผลิตภัณฑ์ของรุ่นที่มีศูนย์กลาง นั่นคือการเขียนXi=XiE[Xi]และXj=XjE[Xj]เรามี

    Cov(Xi,Xj)=E[XiXj].
  3. ความแปรปรวนของซึ่งฉันจะเขียนVar ( X )ไม่ใช่ตัวเลขเดียว มันเป็นอาร์เรย์ของค่า Var ( X ) ฉันJ = Cov ( X ฉัน , X J )XVar(X)

    Var(X)ij=Cov(Xi,Xj).
  4. วิธีการคิดของความแปรปรวนสำหรับลักษณะทั่วไปมีจุดมุ่งหมายคือการคิดว่ามันเป็นเมตริกซ์ นั่นหมายความว่าเป็นชุดของปริมาณทั้งหมด , จัดทำดัชนีโดยiและjตั้งแต่1ถึงpซึ่งค่าจะเปลี่ยนไปในวิธีที่คาดการณ์ได้ง่ายโดยเฉพาะเมื่อXผ่านการแปลงเชิงเส้น โดยเฉพาะให้Y = ( Y 1 , Y 2 , , Y q )เป็นตัวแปรสุ่มที่มีค่าเวกเตอร์อีกตัวที่กำหนดโดยvijij1pXY=(Y1,Y2,,Yq)

    Yi=j=1paijXj.

    ค่าคง (iและjเป็นindexes-jไม่ใช่พลัง) ก่อให้เกิดอาร์เรย์q×pA=(aaijijjq×p,J=1,...,Pและฉัน=1,...,Q เส้นตรงของความคาดหมายA=(aij)j=1,,pi=1,,q

    var(Y)ผมJ=ΣaผมkaJล.var(X)kล..

    ในสัญกรณ์เมทริกซ์

    Var(Y)=AVar(X)A.
  5. ส่วนประกอบทั้งหมดของจริงแล้วเป็นความแปรปรวนแบบไม่แปรเปลี่ยนเนื่องจากโพลาไรซ์เอกลักษณ์Var(X)

    4Cov(Xi,Xj)=Var(Xi+Xj)Var(XiXj).

    สิ่งนี้บอกเราว่าถ้าคุณเข้าใจความแปรปรวนของตัวแปรสุ่มที่ไม่แปรคุณจะเข้าใจความแปรปรวนร่วมของตัวแปรตัวแปรที่แปรผันกันแล้วพวกมันคือการรวมเชิงเส้นของความแปรปรวนเชิงเส้น


การแสดงออกในคำถามจะคล้ายคลึงอย่างสมบูรณ์แบบ: ตัวแปรได้รับมาตรฐานในขณะที่( 1 ) เราสามารถเข้าใจในสิ่งที่มันหมายถึงโดยพิจารณาสิ่งที่มันหมายถึงการใด ๆตัวแปรมาตรฐานหรือไม่ เราจะแทนที่X iแต่ละอันด้วยเวอร์ชันกึ่งกลางเช่นเดียวกับใน( 2 )และจัดรูปแบบปริมาณที่มีสามดัชนีXi(1)Xi(2)

μ3(X)ijk=E[XiXjXk].

เหล่านี้เป็นกลาง (หลายตัวแปร) ช่วงเวลาของการศึกษาระดับปริญญา3 3 เช่นเดียวกับในพวกเขาสร้างเมตริกซ์: เมื่อY = A Xแล้ว(4)Y=AX

μ3(Y)ijk=l,m,nailajmaknμ3(X)lmn.

ดัชนีอยู่ในช่วงสามจำนวนนี้กว่ารวมกันทั้งหมดของจำนวนเต็มจากผ่านหน้า1p

อะนาล็อกของโพลาไรเซชันเอกลักษณ์คือ

24μ3(X)ijk=μ3(Xi+Xj+Xk)μ3(XiXj+Xk)μ3(Xi+XjXk)+μ3(XiXjXk).

ทางด้านขวามือหมายถึงช่วงเวลาที่สาม (univariate) ตอนกลางที่สาม: ค่าที่คาดหวังของคิวบ์ของตัวแปรกึ่งกลาง เมื่อตัวแปรมีมาตรฐานในขณะนี้มักจะเรียกว่าเบ้ ดังนั้นเราอาจคิดว่าμ 3 ( X )ในฐานะที่เป็นเบ้หลายตัวแปรของX มันเป็นเมตริกซ์ของการจัดอันดับสาม (นั่นคือมีสามดัชนี) ที่มีค่าเป็นผลรวมเชิงเส้นของ skewnesses ของผลรวมที่หลากหลายและความแตกต่างของXฉัน ถ้าเราต้องแสวงหาการตีความเราก็จะคิดว่าองค์ประกอบเหล่านี้เป็นตัววัดในpμ3μ3(X)XXipมิติใดก็ตามที่ความเบ้วัดในมิติเดียว ในหลายกรณี,

  • ช่วงเวลาแรกทำการวัดตำแหน่งของการแจกแจง

  • ช่วงเวลาที่สอง (เมทริกซ์ความแปรปรวนแปรปรวน) วัดของการแพร่กระจาย ;

  • ช่วงเวลามาตรฐานที่สอง (ความสัมพันธ์) บ่งชี้ว่าการแพร่กระจายแตกต่างกันในพื้นที่ -dimensional อย่างไร และp

  • ช่วงเวลาที่สามและสี่ที่เป็นมาตรฐานจะถูกนำมาใช้เพื่อวัดรูปร่างของการแจกแจงที่สัมพันธ์กับการแพร่กระจาย

ในการอธิบายอย่างละเอียดเกี่ยวกับสิ่งที่รูปร่าง "หลายมิติ" อาจหมายถึงสังเกตว่าเราสามารถเข้าใจ PCA เป็นกลไกในการลดการกระจายหลายตัวแปรใด ๆ ให้เป็นรุ่นมาตรฐานซึ่งตั้งอยู่ที่จุดกำเนิดและกระจายอย่างเท่าเทียมกันในทุกทิศทาง หลังจากดำเนินการ PCA แล้วจะให้ตัวชี้วัดที่ง่ายที่สุดของรูปทรงหลายมิติของการแจกแจง แนวคิดเหล่านี้ใช้กับข้อมูลได้ดีพอ ๆ กับตัวแปรสุ่มเนื่องจากสามารถวิเคราะห์ข้อมูลในแง่ของการกระจายเชิงประจักษ์ได้เสมอμ3


การอ้างอิง

Alan Stuart & J. Keith Ord, ทฤษฎีขั้นสูงทางสถิติของเคนดัลล์ ฉบับที่ห้า, เล่มที่ 1: ทฤษฎีการกระจาย ; บทที่ 3 ช่วงเวลาและ Cumulants สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด (2530)


ภาคผนวก: หลักฐานการแสดงตนของโพลาไรเซชัน

ให้เป็นตัวแปรพีชคณิต มี2 nวิธีในการเพิ่มและลบทั้งหมดnของพวกเขา เมื่อเรายกแต่ละเหล่านี้จำนวนเงินและความแตกต่างให้กับn THอำนาจรับสัญญาณที่เหมาะสมสำหรับแต่ละผลลัพธ์เหล่านั้นและเพิ่มขึ้นเราจะได้รับหลายของx 1 x 2x nx1,,xn2nnnthx1x2xn

อีกอย่างเป็นทางการให้เป็นชุดของทั้งหมดn -tuples ของ± 1เพื่อให้องค์ประกอบใด ๆs Sเป็นเวกเตอร์s = ( s 1 , s 2 , ... , s n )ที่มี ค่าสัมประสิทธิ์มีทั้งหมด± 1 การเรียกร้องคือS={1,1}nn±1sSs=(s1,s2,,sn)±1

(1)2nn!x1x2xn=sSs1s2sn(s1x1+s2x2++snxn)n.

อันที่จริงทฤษฎีบท Multinomial ระบุว่าสัมประสิทธิ์ของ monomial (ที่i jเป็นจำนวนเต็ม nonnegative รวมถึงn ) ในการขยายตัวของคำใด ๆ ทางด้านขวามือคือx1i1x2i2xninijn

(ni1,i2,,in)s1i1s2i2snin.

ในผลรวมค่าสัมประสิทธิ์ที่เกี่ยวข้องกับx ฉัน1 1ปรากฏในคู่ที่หนึ่งของแต่ละคู่จะเกี่ยวข้องกับกรณีที่s 1 = 1มีค่าสัมประสิทธิ์สัดส่วนกับ s 1ครั้งs ฉัน1 1เท่ากับ1และอื่น ๆ ของ แต่ละคู่เกี่ยวข้องกับกรณีs 1 = - 1โดยมีค่าสัมประสิทธิ์เป็นสัดส่วน- 1ครั้ง( - 1 ) i 1เท่ากับ( - 1(1)x1i1s1=1s1s1i11s1=11(1)i1 1 พวกเขายกเลิกเป็นผลรวมเมื่อใดก็ตามที่ฉัน1 + 1เป็นเลขคี่ อาร์กิวเมนต์เดียวกันนี้ใช้กับ i 2 , , i n . ดังนั้นmonomials เท่านั้นที่เกิดขึ้นกับค่าสัมประสิทธิ์ภัณฑ์จะต้องมีอำนาจคี่ของทุก xฉัน monomial เพียงดังกล่าวเป็น x 1 x 2x n มันจะปรากฏขึ้นพร้อมค่าสัมประสิทธิ์ ( n(1)i1+1i1+1i2,,inxix1x2xnในเงื่อนไขทั้งหมด2nของผลรวม ดังนั้นค่าสัมประสิทธิ์ของมันคือ2nn! ,QED(n1,1,,1)=n!2n2nn!

เราจำเป็นต้องใช้เพียงครึ่งเดียวของแต่ละคู่ที่เกี่ยวข้องกับ : นั่นคือเราสามารถ จำกัด ด้านขวามือของ( 1 )กับเงื่อนไขด้วยs 1 = 1และลดสัมประสิทธิ์ทางซ้ายมือเป็น2 n - 1 n ! . นั่นให้โพลาไรเซชันเอกลักษณ์ทั้งสองที่ระบุอย่างแม่นยำในคำตอบนี้สำหรับเคสn = 2และn = 3 : 2 2 - 1 2 ! = 4และ2 3 - 1x1(1)s1=12n1n!n=2n=32212!=4 242313!=24

แน่นอน Polarization เอกลักษณ์สำหรับตัวแปรพีชคณิตทันทีหมายถึงมันสำหรับตัวแปรสุ่มขอให้แต่ละจะเป็นตัวแปรสุ่มXฉัน คาดหวังจากทั้งสองฝ่าย ผลลัพธ์จะเป็นไปตามเส้นตรงของความคาดหวังxiXi


ทำได้ดีมากในการอธิบายจนถึงตอนนี้! หลายตัวแปรความเบ้ทำให้รู้สึก คุณอาจเพิ่มตัวอย่างที่จะแสดงความสำคัญของความเบ้หลายตัวแปรนี้ได้หรือไม่? ไม่ว่าจะเป็นปัญหาในแบบจำลองทางสถิติหรืออาจจะน่าสนใจกว่านั้นกรณีชีวิตจริงอะไรที่จะต้องเกิดความเบ้หลายตัวแปร :)
PascalVKooten

3

อืมม ถ้าเราวิ่ง ...

a <- rnorm(100);
b <- rnorm(100);
c <- rnorm(100)
mean((a-mean(a))*(b-mean(b))*(c-mean(c)))/
  (sd(a) * sd(b) * sd(c))

ดูเหมือนว่าจะอยู่ตรงกลางที่ 0 (ฉันยังไม่ได้ทำการจำลองจริง) แต่เป็น @ttnphns alludes เรียกใช้สิ่งนี้ (ตัวแปรทั้งหมดเหมือนกัน)

a <- rnorm(100)
mean((a-mean(a))*(a-mean(a))*(a-mean(a)))/
  (sd(a) * sd(a) * sd(a))

ดูเหมือนว่าจะเน้นที่ 0 ซึ่งทำให้ฉันสงสัยว่าการใช้สิ่งนี้อาจเป็นเช่นไร


2
The nonsense apparently comes from the fact that sd or variance is a function of squaring, as is covariance. But with 3 variables, cubing occurs in the numerator while denominator remains based on originally squared terms
ttnphns

2
Is that the root of it (pun intended)? Numerator and denominator have the same dimensions and units, which cancel, so that alone doesn't make the measure poorly formed.
Nick Cox

3
@Nick That's right. This is simply one of the multivariate central third moments. It is one component of a rank-three tensor giving the full set of third moments (which is closely related to the order-3 component of the multivariate cumulant generating function). In conjunction with the other components it could be of some use in describing asymmetries (higher-dimensional "skewness") in the distribution. It's not what anyone would call a "correlation," though: almost by definition, a correlation is a second-order property of the standardized variable.
whuber

1

หากคุณจำเป็นต้องคำนวณ "ความสัมพันธ์" ระหว่างสามหรือมากกว่าตัวแปรคุณไม่สามารถใช้เพียร์สันเช่นเดียวกับในกรณีนี้มันจะแตกต่างกันสำหรับการสั่งซื้อที่แตกต่างกันของตัวแปรได้ดูที่นี่ หากคุณน่าสนใจในการพึ่งพาแบบเส้นตรงหรือว่าติดตั้งกับเส้น 3 มิติได้ดีแค่ไหนคุณอาจใช้ PCA รับความแปรปรวนที่อธิบายสำหรับพีซีเครื่องแรกเปลี่ยนแปลงข้อมูลของคุณและค้นหาความน่าจะเป็นซึ่งค่านี้อาจเป็นเหตุผลแบบสุ่ม ฉันพูดถึงสิ่งที่คล้ายกันที่นี่ (ดูรายละเอียดทางเทคนิคด้านล่าง)

รหัส Matlab

% Simulate our experimental data
x=normrnd(0,1,100,1);
y=2*x.*normrnd(1,0.1,100,1);
z=(-3*x+1.5*y).*normrnd(1,2,100,1);
% perform pca
[loadings, scores,variance]=pca([x,y,z]);
% Observed Explained Variance for first principal component
OEV1=variance(1)/sum(variance)
% perform permutations
permOEV1=[];
for iPermutation=1:1000
    permX=datasample(x,numel(x),'replace',false);
    permY=datasample(y,numel(y),'replace',false);
    permZ=datasample(z,numel(z),'replace',false);
    [loadings, scores,variance]=pca([permX,permY,permZ]);
    permOEV1(end+1)=variance(1)/sum(variance);
end

% Calculate p-value
p_value=sum(permOEV1>=OEV1)/(numel(permOEV1)+1)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.