การวัด“ ความแปรปรวน” จากเมทริกซ์ความแปรปรวนร่วม?


17

หากข้อมูลเป็น 1d ความแปรปรวนจะแสดงขอบเขตที่จุดข้อมูลแตกต่างกัน หากข้อมูลเป็นหลายมิติเราจะได้เมทริกซ์ความแปรปรวนร่วม

มีการวัดที่ให้จำนวนจุดข้อมูลแตกต่างกันโดยทั่วไปสำหรับข้อมูลหลายมิติหรือไม่?

ฉันรู้สึกว่าอาจมีวิธีแก้ไขมากมายอยู่แล้ว แต่ฉันไม่แน่ใจว่าคำที่ถูกต้องที่จะใช้ในการค้นหาพวกเขา

บางทีฉันอาจทำบางอย่างเช่นการเพิ่มค่าลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วมได้, นั่นฟังดูสมเหตุสมผลหรือไม่?


2
ปัจจัยกำหนดเมทริกซ์ความแปรปรวนร่วม ฉันจะโพสต์คำตอบที่มีเนื้อมากขึ้นในไม่ช้า
user603

5
การติดตามถูกใช้บ่อยมาก เช่นใน PCA เศษส่วนของความแปรปรวนที่อธิบายโดยแต่ละองค์ประกอบเป็นเศษส่วนของ "ความแปรปรวนรวม" ซึ่งถูกกำหนดให้เป็นร่องรอยของเมทริกซ์ความแปรปรวนร่วม @ user603 รอคำตอบของคุณ
อะมีบาพูดว่า Reinstate Monica

2
adding up the eigenvalues of the covariance matrixเท่ากับอะมีบาที่กล่าวถึงข้างต้น
ttnphns

จะใช้มาตรการอะไร /
HelloGoodbye

@HelloGoodbye สวัสดีจริง ๆ แล้วฉันมีข้อมูล [noisy] ที่มีป้ายกำกับและฉันคิดว่าจุดข้อมูล [true] ในหมวดหมู่เดียวกันไม่ควรแตกต่างกันมาก ฉันกำลังมองหาวิธีในการวัดระดับความแตกต่างของจุดข้อมูลในแต่ละหมวดหมู่เพื่อที่ฉันจะได้ทราบว่าข้อมูลนั้นมีเสียงดังในแต่ละหมวดหมู่อย่างไร
dontloo

คำตอบ:


16

(คำตอบด้านล่างเพียงแค่แนะนำและระบุทฤษฎีบทที่พิสูจน์ใน [0] ความงามในกระดาษนั้นคือข้อโต้แย้งส่วนใหญ่ทำในรูปของพีชคณิตเชิงเส้นพื้นฐานเพื่อตอบคำถามนี้มันจะเพียงพอที่จะระบุผลลัพธ์หลัก แต่ โดยทั้งหมดไปตรวจสอบแหล่งต้นฉบับ)

ในสถานการณ์ใด ๆ ที่รูปแบบหลายตัวแปรของข้อมูลสามารถอธิบายได้โดยการแจกแจงรูปไข่แบบตัวแปรการอนุมานเชิงสถิติจะตามคำนิยามลดปัญหาของการปรับ (และการหาลักษณะ) เวกเตอร์ตำแหน่งตัวแปร (พูด ) และ aโดย symmetric เมทริกซ์แน่นอนกึ่งบวก (พูด ) กับข้อมูล สำหรับเหตุผลที่ฉันอธิบายด้านล่าง (แต่ที่คุณถือว่าเป็นสถานที่) มันมักจะมีความหมายมากขึ้นในการย่อยสลายเป็นองค์ประกอบรูปร่าง (เมทริกซ์ SPSD ที่มีขนาดเดียวกับk θ k k Σ Σ Σ σ SkkθkkΣΣΣ) การบัญชีสำหรับรูปร่างของรูปทรงความหนาแน่นของการกระจายหลายตัวแปรของคุณและสเกลาร์แสดงขนาดของรูปทรงเหล่านี้σS

ใน univariate data ( ), , เมทริกซ์ความแปรปรวนร่วมของข้อมูลของคุณคือเซนต์ตส์และตามมาจากการสนทนาด้านล่างส่วนประกอบรูปร่างของเท่ากับ 1 เพื่อให้เท่ากับ องค์ประกอบสเกลของมันเสมอและไม่สามารถคลุมเครือได้Σ Σ Σ Σ = σ Sk=1ΣΣΣΣ=σS

ในข้อมูลหลายตัวแปรทางเลือกหลายฟังก์ชั่นการปรับที่เป็นไป หนึ่งในนั้น ( ) โดดเด่นในการมีความเหมาะสมที่สำคัญที่ต้องการ สิ่งนี้ควรทำให้มันเป็นตัวเลือกที่ต้องการของปัจจัยการปรับสเกลในบริบทของตระกูลรูปไข่σ S = | ΣσSσS=|ΣΣ|1/k


ปัญหามากมายในสถิติ MV เกี่ยวข้องกับการประมาณค่าของเมทริกซ์กระจายซึ่งนิยามเป็นฟังก์ชัน (อัล) สมมาตรกึ่งบวกแน่นอนแน่นอนในและน่าพอใจ:R k × kΣRk×k

A b

(0)Σ(AX+b)=AΣ(X)A
(สำหรับเมทริกซ์เอกพจน์ที่ไม่ใช่และเวกเตอร์ ) ตัวอย่างเช่นการประมาณค่าดั้งเดิมของความแปรปรวนร่วมเป็นไปตาม (0) แต่มันไม่ได้มีเพียงค่าเดียว Ab

ในการปรากฏตัวของข้อมูลการกระจายรูปไข่ที่ความหนาแน่นของรูปทรงเป็นรูปวงรีที่กำหนดโดยเมทริกซ์รูปร่างเดียวกันถึงการคูณด้วยสเกลาร์มันเป็นธรรมชาติที่จะพิจารณารุ่นปกติของของรูปแบบ:Σ

VS=Σ/S(Σ)

โดยที่คือฟังก์ชัน 1-honogenous ที่น่าพอใจ:S

(1)S(λΣ)=λS(Σ)

สำหรับทุก 0 จากนั้นเรียกว่าองค์ประกอบรูปร่างของเมทริกซ์กระจาย (ในเมทริกซ์รูปร่างสั้น) และเรียกว่าสเกลองค์ประกอบของเมทริกซ์กระจาย ตัวอย่างของปัญหาการประมาณค่าหลายตัวแปรที่ฟังก์ชันการสูญเสียขึ้นอยู่กับผ่านองค์ประกอบรูปร่างรวมถึงการทดสอบของทรงกลม PCA และ CCA ในกลุ่มอื่น ๆV S σ S = S 1 / 2 ( Σ )λ>0VSσS=S1/2(Σ)ΣVS

แน่นอนว่ามีฟังก์ชั่นการปรับขนาดที่เป็นไปได้มากมายดังนั้นสิ่งนี้ยังคงเปิดคำถามว่าอะไร (ถ้ามี) ของฟังก์ชั่นการปรับสภาพมาตรฐานหลายตัวเลือกในแง่ที่เหมาะสมที่สุด ตัวอย่างเช่น:S

  • S=tr(Σ)/k (ตัวอย่างที่เสนอโดย @amoeba ในความคิดเห็นของเขาใต้คำถามของ OP ดูเพิ่มเติมที่ [1], [2], [3])
  • S=|Σ|1/k ([4], [5], [6], [7], [8])
  • Σ11 (รายการแรกของเมทริกซ์ความแปรปรวนร่วม)
  • λ1(Σ) (ค่าลักษณะเฉพาะแรกของ )Σ

อย่างไรก็ตามเป็นฟังก์ชันการปรับขนาดเฉพาะซึ่งฟิชเชอร์ Information Information เมทริกซ์สำหรับการประมาณขนาดและรูปร่างที่สอดคล้องกันในครอบครัวปกติแบบไม่เชิงเส้นเป็นบล็อกขวาง (นั่นคือสเกล และองค์ประกอบรูปร่างของปัญหาการประมาณค่าคือมุมฉากเชิงเส้นกำกับ นี่หมายถึงเหนือสิ่งอื่นใดว่าสเกลการทำงานเป็นทางเลือกเดียวของที่ไม่ใช่คุณสมบัติของไม่ทำให้สูญเสียประสิทธิภาพเมื่อทำการอนุมานบนV_S S = | Σ | 1 / k S σ SS=|Σ|1/kS=|Σ|1/kSσSVS

ฉันไม่ทราบถึงคุณลักษณะการมองโลกในแง่ดีที่มีค่าเปรียบเทียบกับตัวเลือกที่เป็นไปได้มากมายที่เป็นไปตาม (1)S

  • [0] Paindaveine, D. , คำจำกัดความที่เป็นที่ยอมรับของรูปร่าง, สถิติ & ความน่าจะเป็นจดหมาย, เล่มที่ 78, ฉบับที่ 14, 1 ตุลาคม 2008, หน้า 2240-2247 ลิงก์ที่ไม่ได้บันทึก
  • [1] Dumbgen, L. (1998) เกี่ยวกับการทำงานของไทเลอร์ของการกระจายในมิติสูงแอน Inst statist คณิตศาสตร์. 50, 471–491
  • [2] Ollila, E. , TP Hettmansperger และ H. Oja (2004) เลียนแบบวิธีการลงนามหลายตัวแปร Preprint มหาวิทยาลัย Jyvaskyla
  • [3] Tyler, DE (1983) ความทนทานและคุณสมบัติเชิงประสิทธิภาพของเมทริกซ์กระจายกระจาย Biometrika 70, 411–420
  • [4] Dumbgen, L. และ DE Tyler (2005) ในคุณสมบัติการแยกส่วนของ M-Functionals แบบหลายตัวแปร, Scand J. นักสถิติ 32, 247–264
  • [5] Hallin, M. and D. Paindaveine (2008) การทดสอบตามระดับที่เหมาะสมที่สุดสำหรับความสม่ำเสมอของการกระจายแอน นักสถิติให้ปรากฏ
  • [6] Salibian-Barrera, M. , S. Van Aelst และ G. Willems (200 6) การวิเคราะห์ส่วนประกอบหลักขึ้นอยู่กับการประเมิน MM แบบหลายตัวแปรพร้อมบู๊ทบูตที่รวดเร็วและมีประสิทธิภาพ J. Amer statist รศ 101, 1198–1211
  • [7] Taskinen, S. , C. Croux, A. Kankainen, E. Ollila, และ H. O ja (2006) ฟังก์ชั่นที่มีอิทธิพลและประสิทธิภาพของการประมาณค่าความสัมพันธ์แบบแคนนอนและเวกเตอร์ตามเมทริกซ์กระจายและรูปร่าง, J. Multivariate Anal 97, 359–384
  • [8] Tatsuoka, KS และ DE Tyler (2000) เกี่ยวกับความเป็นเอกลักษณ์ของ S-Functionals และ M-functionals ภายใต้การแจกแจงแบบไม่ จำกัด , แอน statist 28, 1219–1243

1
นอกจากนี้เป็นตัวเลือกที่แปลกสำหรับส่วนประกอบมาตราส่วนเนื่องจากมันไม่ได้เป็นแบบหมุน ...Σ11
อะมีบาพูดว่า Reinstate Monica

ขอบคุณสำหรับคำตอบที่ตั้งใจ! มันจะพาฉันเวลาที่จะเข้าใจมันแม้ว่า :)
dontloo

@amoeba:มาประยุกต์ใช้กับX ฉันวาง ในคำตอบที่เหลือเพราะไม่มีความสับสน ผมเห็นว่ามันเป็นเงอะงะบิตดังนั้นตอนนี้ผมใช้X) ฉันเห็นด้วยกับความคิดเห็นที่สองของคุณ โดย tocken lambda_1 เดียวกันไม่คงที่เพื่อลดขนาด ในแง่นี้ข้อ จำกัด ความเป็นเนื้อเดียวกันที่วางไว้บนเป็นแถบที่ต่ำมาก XΣXXXXλ 1 ( Σ ) SΣ(XX)λ1(Σ)S
user603

รอ; ทำไมคนเราจึงต้องการหรือคาดหวังว่าส่วนประกอบของเครื่องชั่งจะคงที่เพื่อลดขนาด?
อะมีบาพูดว่า Reinstate Monica

ขออภัยฉันหมายถึงถ้าคุณใช้เป็นฟังก์ชันการปรับสเกลเมทริกซ์รูปร่างที่ได้จะไม่เท่ากับการลดขนาด λ1(Σ)
user603

11

ความแปรปรวนของตัวแปรสเกลาร์ถูกกำหนดให้เป็นความเบี่ยงเบนกำลังสองของตัวแปรจากค่าเฉลี่ย:

Var(X)=E[(XE[X])2]

การวางนัยทั่วไปหนึ่งให้กับความแปรปรวนที่มีค่าแบบสเกลาร์สำหรับตัวแปรสุ่มที่มีค่าเวกเตอร์สามารถรับได้โดยการตีความความเบี่ยงเบนเป็นระยะทางแบบยุคลิด :

Vars(X)=E[XE[X]22]

การแสดงออกนี้สามารถเขียนใหม่เป็น

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCii

โดยที่เป็นเมทริกซ์ความแปรปรวนร่วม ในที่สุดสิ่งนี้สามารถทำให้ง่ายขึ้นC

Vars(X)=tr(C)

ซึ่งเป็นร่องรอยของเมทริกซ์ความแปรปรวนร่วม


4

แม้ว่าการติดตามของเมทริกซ์ความแปรปรวนร่วมtr (C)จะให้การวัดความแปรปรวนทั้งหมด แต่ก็ไม่ได้คำนึงถึงความสัมพันธ์ระหว่างตัวแปร

หากคุณต้องการการวัดความแปรปรวนโดยรวมซึ่งมีขนาดใหญ่เมื่อตัวแปรของคุณเป็นอิสระจากกันและมีขนาดเล็กมากเมื่อตัวแปรมีความสัมพันธ์สูงคุณสามารถใช้ดีเทอร์มิแนนต์ของเมทริกซ์ความแปรปรวนร่วม, | C | .

โปรดอ่านบทความนี้เพื่อความกระจ่างชัดยิ่งขึ้น


4

หากคุณต้องการเพียงหนึ่งตัวเลขฉันขอแนะนำค่าไอเก็นที่ใหญ่ที่สุดของเมทริกซ์ความแปรปรวนร่วม นี่เป็นความแปรปรวนที่อธิบายได้ขององค์ประกอบหลักตัวแรกใน PCA มันบอกคุณว่าสามารถอธิบายความแปรปรวนรวมได้มากแค่ไหนถ้าคุณลดมิติของเวกเตอร์เป็นหนึ่ง ดูคำตอบนี้สำหรับคณิตศาสตร์ SE

แนวคิดนี้ทำให้คุณยุบเวกเตอร์เป็นมิติเดียวโดยรวมตัวแปรทั้งหมดเข้าเป็นชุดเดียว คุณจบลงด้วยปัญหา 1 วัน

ความแปรปรวนที่อธิบายสามารถรายงานเป็นคำศัพท์% ถึงความแปรปรวนทั้งหมด ในกรณีนี้คุณจะเห็นได้ทันทีว่ามีความสัมพันธ์เชิงเส้นระหว่างอนุกรมมากมาย ในบางแอปพลิเคชั่นหมายเลขนี้สามารถ 80% และสูงกว่าเช่นการสร้างแบบจำลองอัตราดอกเบี้ยในด้านการเงิน หมายความว่าคุณสามารถสร้างชุดค่าผสมเชิงเส้นของตัวแปรที่อธิบายความแปรปรวนได้ 80 ค่าของตัวแปรทั้งหมด


3

แนวคิดของเอนโทรปีจากทฤษฎีสารสนเทศดูเหมือนว่าเหมาะสมกับจุดประสงค์เนื่องจากเป็นการวัดความไม่แน่นอนของเนื้อหาข้อมูลซึ่งได้รับจาก

H(X)=p(x)logp(x)dx.

ถ้าเราสันนิษฐานว่าการแจกแจงแบบเกาส์หลายตัวแปรสำหรับมีค่าเฉลี่ยและความแปรปรวนร่วมมาจากข้อมูลตามวิกิพีเดียค่าเอนโทรปีที่ต่างกันก็คือ โดยที่คือจำนวนมิติ เนื่องจากตัวแปรแบบเกาส์หลายตัวแปรคือการแจกแจงที่เพิ่มความแตกต่างของเอนโทรปีสำหรับความแปรปรวนร่วมที่กำหนดสูตรนี้จึงให้ขอบเขตบนของเอนโทรปีสำหรับการแจกแจงที่ไม่ทราบค่าซึ่งมีความแปรปรวนที่กำหนดμ Σ H ( X ) = 1p(x)μΣn

H(X)=12log((2πe)ndet(Σ))
n

และขึ้นอยู่กับดีเทอร์มีแนนต์ของเมทริกซ์ความแปรปรวนร่วมตามที่ @ user603 แนะนำ


คำตอบนี้ดูเหมือนจะไม่เหมือนกับจิตวิญญาณของคำถาม ความแปรปรวนร่วมและความแปรปรวนเป็นคุณสมบัติของการแจกแจงใด ๆ (แม้ว่าพวกเขาอาจจะไม่สิ้นสุดหรือไม่ได้กำหนดในบางกรณี) ในขณะที่คำตอบนี้มุ่งเน้นไปที่กรณีพิเศษของการกระจายปกติหลายตัวแปร ดังนั้นจึงไม่มีผลกับสถานการณ์ส่วนใหญ่ที่คาดการณ์ไว้ในคำถามโดยปริยาย บางทีคุณอาจอธิบายรายละเอียดเกี่ยวกับคำตอบของคุณว่าเป็นคำแนะนำที่มีประโยชน์ในกรณีทั่วไปที่ข้อมูลไม่จำเป็นต้องเป็นปกติหรือไม่?
whuber

@whuber ขอบคุณสำหรับคำแนะนำฉันเดาบางทีฉันควรเขียน Gaussian เป็น "การกระจายที่เพิ่มเอนโทรปีให้ความแปรปรวน"? จากนั้นผลลัพธ์จะกลายเป็นขอบเขตบน คุณคิดอย่างไร?
dontloo

ฟังดูเหมือนว่ามันไปได้ทุกที่และมีประโยชน์มากกว่า
whuber

1
ฉันเดาว่ามีหลายวิธีในการสกินแมว;) ที่จริงผมสิ่งที่เชื่อมโยงระหว่างคำตอบของคุณและเหมืองมีความแข็งแรงมาก ฉันมีการพูดคลุมเครือเล็กน้อย ฉันคิดว่าดีเทอร์มิแนนต์มีคุณสมบัติ optimality บางอย่างสำหรับปัญหาที่คุณพยายามแก้ไข (และไม่จำเป็นต้องเลือกเพียงเพราะความคุ้นเคย) และฉันคิดว่าคุณสมบัติการเพิ่มประสิทธิภาพเหล่านี้ขยายเกินกว่าเมทริกซ์ความแปรปรวนร่วม เลือกและมีจำนวนมากออกมี) และขยายเกินกว่าการกระจายแบบเกาส์เซียน (ไปยังตระกูลวงรีทั้งหมด)
user603
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.