เมทริกซ์ความแปรปรวนแปรปรวนเชิงบวกที่ไม่แน่นอนบอกอะไรฉันได้บ้างเกี่ยวกับข้อมูลของฉัน


21

ฉันมีการสังเกตหลายตัวแปรหลายครั้งและต้องการประเมินความหนาแน่นของความน่าจะเป็นของตัวแปรทั้งหมด สันนิษฐานว่าเป็นข้อมูลที่กระจายตามปกติ ที่ตัวแปรจำนวนต่ำทุกอย่างทำงานได้ตามที่คาดหวัง แต่การย้ายไปหาจำนวนที่มากขึ้นส่งผลให้เมทริกซ์ความแปรปรวนร่วมแปรเปลี่ยนเป็นค่าบวกแน่นอน

ฉันได้ลดปัญหาใน Matlab ไปที่:

load raw_data.mat; % matrix number-of-values x number of variables
Sigma = cov(data);
[R,err] = cholcov(Sigma, 0); % Test for pos-def done in mvnpdf.

หากข้อผิดพลาด> 0 แสดงว่า Sigma ไม่ใช่ค่าบวกแน่นอน

มีอะไรที่ฉันสามารถทำได้เพื่อประเมินข้อมูลการทดลองของฉันในระดับที่สูงขึ้นหรือไม่ มันบอกฉันว่ามีอะไรที่เป็นประโยชน์เกี่ยวกับข้อมูลของฉันหรือไม่?

ฉันค่อนข้างเป็นผู้เริ่มต้นในพื้นที่นี้ดังนั้นจึงขออภัยถ้าฉันพลาดบางสิ่งที่ชัดเจน


ดูเหมือนว่าข้อมูลของคุณจะเบาบางเกินไปสำหรับการนำเสนอมิติสูง คุณวางแผนที่จะใช้ตัวแบบการถดถอยด้วยข้อมูลนี้หรือไม่?
Jonathan Thiele

คำตอบ:


30

เมทริกซ์ความแปรปรวนร่วมนั้นไม่แน่นอนแน่นอนเนื่องจากเป็นเอกพจน์ นั่นหมายความว่าอย่างน้อยหนึ่งในตัวแปรของคุณสามารถแสดงเป็นชุดค่าผสมเชิงเส้นของตัวแปรอื่น ๆ ได้ คุณไม่ต้องการตัวแปรทั้งหมดเนื่องจากสามารถกำหนดค่าอย่างน้อยหนึ่งค่าได้จากชุดย่อยของตัวแปรอื่น ฉันขอแนะนำให้เพิ่มตัวแปรตามลำดับและตรวจสอบเมทริกซ์ความแปรปรวนร่วมในแต่ละขั้นตอน หากตัวแปรใหม่สร้างความแปลกประหลาดให้วางลงและไปที่ตัวแปรถัดไป ในที่สุดคุณควรมีชุดย่อยของตัวแปรที่มีเมทริกซ์ความแปรปรวนร่วมที่แน่นอนภายหลัง


19
+1 นอกจากนี้ยังเป็นที่น่าสังเกตว่าเมทริกซ์ความแปรปรวนร่วมทั้งหมดเป็นค่าบวกแน่นอนและเมทริกซ์ค่าบวกแน่นอนทั้งหมดคือเมทริกซ์ความแปรปรวนร่วมของการแจกแจงหลายตัวแปรบางตัว ดังนั้นการพูดว่า "เมทริกซ์แปรปรวนแปรปรวนแบบไม่แน่นอนที่ไม่เป็นบวก" นั้นเป็นบิตของอออกซีโมรอน มันจะปรากฏ OP ถูกจริงๆเพียงแค่บอกว่าตัวอย่างเมทริกซ์ความแปรปรวนเป็นเอกพจน์ซึ่งสามารถเกิดขึ้นได้จากตรง collinearity (ตามที่คุณได้กล่าวว่า) หรือเมื่อจำนวนของการสังเกตคือน้อยกว่าจำนวนของตัวแปร
มาโคร

3
ซอฟต์แวร์สถิติบางอย่างสามารถถูกชักนำให้แก้ไขปัญหานี้ได้โดยอัตโนมัติ เช่นregressคำสั่งของ Stata จะวางตัวแปรพิเศษโดยอัตโนมัติเมื่อมี collinear (และสามารถบันทึกเอาต์พุตในรูปแบบที่ระบุตัวแปรเหล่านี้และทำเครื่องหมายชุดย่อยที่ไม่ใช่ collinear สำหรับใช้ในอนาคต) มีความซับซ้อนที่น่าจะเป็นแม้ว่าตัวแปรอาจไม่จำเป็นต้องเป็น collinear แต่อาจใกล้พอที่การแพร่กระจายของข้อผิดพลาดจุดลอยตัวในการสลายตัวของ Cholesky ทำให้เกิดการประมาณค่าเชิงลบเชิงลบทำให้ตัวแปร collinear สำหรับการใช้งานจริงทั้งหมด
whuber

1
@whuber มีฟังก์ชั่นที่คล้ายกันRเช่นกัน - แบบจำลองการถดถอยจะปล่อยตัวแปรโดยอัตโนมัติจากตัวทำนายเชิงเส้นหากมีการจับคู่ที่แน่นอน
มาโคร

2
@ โฮเบอร์มันค่อนข้างแฮ็ค แต่คุณสามารถทำกลอุบายที่คล้ายกันได้ หากgเป็นโมเดลเชิงเส้นของคุณคุณcolnames(model.matrix(g))[-which(is.na(coef(g))==TRUE)][-1]ควรส่งคืนชื่อของตัวทำนายที่ป้อนลงในโมเดลที่ไม่ใช่ collinear สิ่งนี้ทำงานได้โดยการตรวจสอบว่าสัมประสิทธิ์ใดNA(นั่นเป็นวิธีที่Rบ่งบอกถึงตัวแปรที่หายไป) และค้นหาชื่อคอลัมน์ที่สอดคล้องกันของแบบจำลองเมทริกซ์ (การลบคอลัมน์สกัดกั้น) โดยวิธีการที่จะไม่ทำงานหากไม่มีเงื่อนไข collinear ดังนั้นถ้าคำสั่งให้ตรวจสอบว่าwhich(is.na(coef(g))==TRUE)ไม่ว่างจะต้อง :)
มาโคร

8
@Macro เมทริกซ์ความแปรปรวนร่วมทั้งหมดเป็นค่ากึ่งบวกแน่นอน เมื่อพวกมันเอกพจน์พวกมันจะไม่เป็นบวกแน่นอนเพราะ x'Ax> 0 สำหรับเวกเตอร์ทั้งหมด x สำหรับเมทริกซ์ A ให้เป็นบวกแน่นอน ในกรณีเอกพจน์ x'Ax = 0 เกิดขึ้นสำหรับบาง x
Michael R. Chernick

0

มันเป็นผลลัพธ์ที่ถูกต้อง ค่าประมาณสำหรับองค์ประกอบของเมทริกซ์ความแปรปรวนร่วมนั้นเป็นศูนย์ซึ่งอาจเป็นจริงได้! มันสามารถนำไปสู่ความยากลำบากในการคำนวณ แต่อัลกอริทึมบางอย่างใน R (ฉันไม่รู้เกี่ยวกับ Matlab) สามารถจัดการสิ่งนี้ได้ ฉันไม่เข้าใจว่าทำไมผู้คนถึงรู้สึกไม่พอใจเกี่ยวกับเรื่องนี้


-1

ประเด็นหนึ่งที่ฉันไม่คิดว่าจะกล่าวถึงข้างต้นคือมันเป็นไปได้ที่จะคำนวณเมทริกซ์ความแปรปรวนร่วมแบบไม่แน่นอนที่เป็นบวกจากข้อมูลเชิงประจักษ์แม้ว่าตัวแปรของคุณจะไม่เกี่ยวข้องกันเป็นเส้นตรงอย่างสมบูรณ์ หากคุณมีข้อมูลไม่เพียงพอ (โดยเฉพาะอย่างยิ่งถ้าคุณกำลังพยายามสร้างเมทริกซ์ความแปรปรวนร่วมแบบมิติสูงจากการเปรียบเทียบแบบคู่จำนวนมาก) หรือหากข้อมูลของคุณไม่เป็นไปตามการแจกแจงแบบปกติหลายตัวแปรคุณสามารถจบลงด้วยความสัมพันธ์แบบขัดแย้ง ระหว่างตัวแปรเช่น cov (A, B)> 0; COV (A, C)> 0; COV (B, C) <0

ในกรณีเช่นนี้เราไม่สามารถใส่ PDF ปกติหลายตัวแปรได้เนื่องจากไม่มีการแจกแจงปกติหลายตัวแปรที่ตรงตามเกณฑ์เหล่านี้ - cov (A, B)> 0 และ cov (A, C)> 0 จำเป็นต้องหมายความว่า cov (B, C )> 0

ทั้งหมดนี้คือการบอกว่าเมทริกซ์ที่ไม่เป็นบวกแน่นอนไม่ได้หมายความว่าคุณจะรวมถึงตัวแปร collinear นอกจากนี้ยังอาจแนะนำว่าคุณกำลังพยายามสร้างแบบจำลองความสัมพันธ์ซึ่งเป็นไปไม่ได้เนื่องจากโครงสร้างแบบพารามิเตอร์ที่คุณเลือก


1
คำตอบของคุณผิดในหลาย ๆ ระดับ อย่างไรก็ตามพิจารณาเมทริกซ์ความแปรปรวนร่วมกับ 1 ของบนเส้นทแยงมุมและ 1/2 สำหรับ cov (องค์ประกอบที่ 1 และ 2), 1/2 สำหรับ cov (ส่วนประกอบที่ 1 และ 3) และ -1/2 สำหรับ cov (ส่วนประกอบที่ 2 และ 3d) . เมทริกซ์ความแปรปรวนร่วมมีค่าลักษณะเฉพาะประมาณ 0.15, 1.35, 1.50 แสดงตัวอย่างการยืนยันในย่อหน้าที่ 2 ของคุณ
Mark L. Stone

@ MarkL.Stone คุณพูดถูกเกี่ยวกับย่อหน้าที่ 2 แต่ฉันสงสัยว่าบางอย่างนี้ไม่ชัดเจนและสามารถบันทึกได้ภายใต้การตีความที่กว้างขวาง เช่นฉันสงสัยว่าในย่อหน้าที่ 1 "ไม่มีข้อมูลเพียงพอ ... พยายามสร้างเมทริกซ์ความแปรปรวนร่วมแบบมิติสูงจากการเปรียบเทียบแบบเป็นคู่" หมายถึงมีข้อมูลที่ขาดหายไปจำนวนมากและใช้การสังเกตแบบสมบูรณ์แบบคู่ เพื่อคำนวณแต่ละองค์ประกอบในเมทริกซ์ความแปรปรวนร่วม
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.