พิสูจน์ความสัมพันธ์ระหว่างระยะทาง Mahalanobis กับ Leverage ได้หรือไม่?


12

ฉันเคยเห็นสูตรในWikipedia ที่เกี่ยวข้องกับระยะทางและ Mahalanobis Leverage:

ระยะทาง Mahalanobis มีความสัมพันธ์อย่างใกล้ชิดกับสถิติการใช้ประโยชน์แต่มีระดับที่แตกต่าง:h

D2=(N1)(h1N).

ในบทความที่มีการเชื่อมโยง Wikipedia อธิบายในเงื่อนไขเหล่านี้h

ในโมเดลการถดถอยเชิงเส้นคะแนนความสามารถในการใช้ประโยชน์สำหรับหน่วยข้อมูลถูกกำหนดเป็น:องค์ประกอบส่วนของเมทริกซ์หมวกโดยที่หมายถึงเมทริกซ์ทรานสดิวเซอร์ith

hii=(H)ii,
ithH=X(XX)1X

ฉันไม่สามารถหาหลักฐานได้ทุกที่ ฉันพยายามเริ่มจากคำจำกัดความ แต่ฉันไม่สามารถก้าวหน้าได้ ทุกคนสามารถให้คำใบ้ได้บ้าง

คำตอบ:


11

คำอธิบายของระยะ Mahalanobis ของฉันที่ด้านล่างถึงด้านบนคำอธิบายของระยะ Mahalanobis? รวมผลลัพธ์ที่สำคัญสองรายการ:

  1. ตามคำนิยามมันจะไม่เปลี่ยนแปลงเมื่อ regressors ถูกเปลี่ยนอย่างสม่ำเสมอ

  2. ระยะทาง Mahalanobis กำลังสองระหว่างเวกเตอร์และได้รับจาก โดยที่คือความแปรปรวนร่วมของข้อมูลxy

    D2(x,y)=(xy)Σ1(xy)
    Σ

(1) ช่วยให้เราสามารถสันนิษฐานว่า regressors นั้นเป็นศูนย์ทั้งหมด มันยังคงอยู่ในการคำนวณh_iอย่างไรก็ตามเพื่อให้การอ้างสิทธิ์เป็นจริงเราจำเป็นต้องเพิ่มข้อสมมติฐานอีกหนึ่งข้อ:hi

โมเดลต้องมีการสกัดกั้น

เพื่อให้สามารถนี้ให้มี regressors และข้อมูลการเขียนค่าของ regressorสำหรับการสังเกตเป็น{IJ} ให้เวกเตอร์คอลัมน์เหล่านี้ค่า regressorเขียนและเวกเตอร์แถวของเหล่าค่าสำหรับการสังเกตจะเขียน\จากนั้นเมทริกซ์โมเดลคือk0njixijnjx,jkixi

X=(1x11x1k1x21x2k1xn1xnk)

และตามคำจำกัดความเมทริกซ์ของหมวกคือ

H=X(XX)1X,

เข้ามาตามเส้นทแยงมุมที่ไหนi

(1)hi=hii=(1;xi)(XX)1(1;xi).

ไม่มีอะไรที่จะช่วยได้นอกจากการหาเมทริกซ์กลางผกผัน - แต่โดยอาศัยผลลัพธ์หลักแรกมันง่ายโดยเฉพาะอย่างยิ่งเมื่อเราเขียนมันในรูปแบบบล็อกเมทริกซ์:

XX=n(100C)

โดยที่และ0=(0,0,,0)

Cjk=1ni=1nxijxik=n1nCov(xj,xk)=n1nΣjk.

(ฉันได้เขียนสำหรับเมทริกซ์ความแปรปรวนร่วมตัวอย่างของ regressors) เนื่องจากนี่คือบล็อกแนวทแยงมุม, การผกผันของมันสามารถพบได้ง่ายๆโดยการสลับบล็อก:Σ

(XX)1=1n(100C1)=(1n001n1Σ1).

จากคำจำกัดความเราได้รับ(1)

hi=(1;xi)(1n001n1Σ1)(1;xi)=1n+1n1xiΣ1xi=1n+1n1D2(xi,0).

แก้สำหรับยืดยาว MahalanobisอัตราผลตอบแทนDi2=D2(xi,0)

Di2=(n1)(hi1n),

QED

มองย้อนกลับไปเราอาจติดตามระยะสารเติมแต่งกับการปรากฏตัวของการสกัดกั้นที่นำคอลัมน์ของคนที่เข้ามาในรูปแบบเมทริกซ์Xคำพหุคูณปรากฏขึ้นหลังจากสมมติว่าระยะทาง Mahalanobis จะถูกคำนวณโดยใช้การประมาณความแปรปรวนร่วมตัวอย่าง (ซึ่งหารผลบวกของกำลังสองและผลิตภัณฑ์ด้วย ) แทนที่จะเป็นเมทริกซ์ความแปรปรวนร่วมของข้อมูล (ซึ่งหารผลรวมของกำลังสองและ ผลิตภัณฑ์โดย )1/nXn1n - 1 nn1n


ค่านิยมหลักของการวิเคราะห์นี้คือการให้การตีความทางเรขาคณิตแก่เลเวอเรจซึ่งวัดการเปลี่ยนแปลงของการตอบสนองต่อการสังเกตที่จะเปลี่ยนค่าที่เหมาะสมในการสังเกตการณ์นั้น: การสำรวจด้วยเรเวอเรจสูงนั้น ของ regressors เหมือนกับคันโยกที่มีประสิทธิภาพเชิงกลไกทำงานในระยะทางไกลจากจุดศูนย์กลางi


รหัส R เพื่อแสดงให้เห็นว่าความสัมพันธ์ถือ:

x <- mtcars

# Compute Mahalanobis distances
h <- hat(x, intercept = TRUE); names(h) <- rownames(mtcars)
M <- mahalanobis(x, colMeans(x), cov(x))

# Compute D^2 of the question
n <- nrow(x); D2 <- (n-1)*(h - 1/n)

# Compare.
all.equal(M, D2)               # TRUE
print(signif(cbind(M, D2), 3))

คำตอบที่ยอดเยี่ยมกลมกลืนเป็นอย่างดีกับความแม่นยำและสัญชาตญาณ ไชโย!
cgrudz

ขอบคุณสำหรับการโพสต์ @whuber! สำหรับการตรวจสอบสตินี่คือรหัส R ที่แสดงว่ามีความสัมพันธ์ที่แน่นอน: x <- mtcars rownames (x) <- ชื่อเล่น NULL (x) <- NULL n <- nrow (x) h <- หมวก (x, T) mahalanobis (x, colMeans (x), cov (x)) (n-1) * (h - 1 / n) all.equal (mahalanobis (x, colMeans (x), cov (x)), (n-1 ) * (h - 1 / n))
Tal Galili

1
@Tal ฉันไม่คิดว่าฉันต้องการตรวจสุขภาพ - แต่ขอบคุณสำหรับรหัส :-) ฉันได้ทำการปรับเปลี่ยนเพื่อชี้แจงและให้ผลลัพธ์เล็กน้อย
whuber

1
@ โฮเบอร์ฉันต้องการตัวอย่างที่แสดงให้เห็นว่าจะทำให้ความเท่าเทียมทำงานได้อย่างไร ฉันได้ขยายรายการ Wiki ที่เกี่ยวข้องด้วย: en.wikipedia.org/wiki/… (รู้สึกอิสระที่จะใช้มันที่นั่นตามที่เห็นสมควร :))
Tal Galili
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.