ความสัมพันธ์ระหว่างค่า ph, Matthews และ Pearson สัมประสิทธิ์สหสัมพันธ์


13

ค่าสัมประสิทธิ์สหสัมพันธ์ของพีและแมทธิวเป็นแนวคิดเดียวกันหรือไม่? พวกมันเกี่ยวข้องกันอย่างไรหรือเทียบเท่ากับสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันสำหรับตัวแปรไบนารีสองตัว? ฉันคิดว่าค่าไบนารีเป็น 0 และ 1


ความสัมพันธ์ของเพียร์สันระหว่างตัวแปรสุ่มสองเบอร์นูลลี่และคือ:yxy

ρ=E[(xE[x])(yE[y])]Var[x]Var[y]=E[xy]E[x]E[y]Var[x]Var[y]=n11nn1n1n0n1n0n1

ที่ไหน

E[x]=n1nVar[x]=n0n1n2E[y]=n1nVar[y]=n0n1n2E[xy]=n11n

พีค่าสัมประสิทธิ์จากวิกิพีเดีย:

ในสถิติค่าสัมประสิทธิ์พี (หรือเรียกอีกอย่างว่า "ค่าเฉลี่ยสัมประสิทธิ์ฉุกเฉินหมายถึง" และแสดงโดยหรือ ) เป็นการวัดความสัมพันธ์สำหรับตัวแปรไบนารีสองตัวที่แนะนำโดย Karl Pearson มาตรการนี้คล้ายกับสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันในการตีความ อันที่จริงค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันที่ประมาณไว้สำหรับตัวแปรไบนารีสองตัวจะคืนค่าสัมประสิทธิ์พี ...ϕrϕ

ถ้าเรามีตาราง 2 × 2 สำหรับตัวแปรสุ่มสองตัวและyxy

ป้อนคำอธิบายรูปภาพที่นี่

ค่าสัมประสิทธิ์พีที่อธิบายการเชื่อมโยงของและคือ y ϕ = n 11 n 00 - n 10 n 01xy

ϕ=n11n00n10n01n1n0n0n1

สัมประสิทธิ์สหสัมพันธ์ของแมทธิวจากวิกิพีเดีย:

สัมประสิทธิ์สหสัมพันธ์แมตทิวส์ (MCC) สามารถคำนวณโดยตรงจากเมทริกซ์ความสับสนโดยใช้สูตร:

MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

ในสมการนี้ TP คือจำนวนของผลบวกจริงจำนวน TN ของจำนวนจริงลบจำนวน FP ของผลบวกปลอมและ FN จำนวนจำนวนลบจริง หากหนึ่งในสี่ของผลรวมในส่วนนั้นเป็นศูนย์ตัวส่วนสามารถตั้งค่าเป็นหนึ่งโดยพลการ ผลลัพธ์นี้มีสัมประสิทธิ์สหสัมพันธ์ของแมตทิวส์เป็นศูนย์ซึ่งสามารถแสดงให้เห็นว่าเป็นค่า จำกัด ที่ถูกต้อง

คำตอบ:


14

ใช่พวกเขาเหมือนกัน สัมประสิทธิ์สหสัมพันธ์ของแมตทิวส์เป็นเพียงแอปพลิเคชันเฉพาะของสัมประสิทธิ์สหสัมพันธ์เพียร์สันกับตารางความสับสน

ตารางฉุกเฉินเป็นเพียงบทสรุปของข้อมูลพื้นฐาน คุณสามารถแปลงกลับจากจำนวนที่แสดงในตารางฉุกเฉินเป็นหนึ่งแถวต่อการสังเกต

ลองพิจารณาตัวอย่างความสับสนของเมทริกซ์ที่ใช้ในบทความ Wikipedia ที่มีผลบวก 5 ข้อ, เชิงลบ 17 ข้อ, ผลบวกปลอม 2 ตัวและผลลบปลอม 3 ตัว

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000

ขอบคุณปีเตอร์! ในทางคณิตศาสตร์เหตุใด phi และ Mathew จึงเทียบเท่ากับ Pearson สำหรับตัวแปรสุ่มสองตัว
ทิม

ถ้าคุณใช้คำจำกัดความของความสัมพันธ์ของเพียร์สันและจัดการมันดังนั้นมันหมายถึงการนับมากกว่าที่จะรวมความแตกต่างระหว่างการสังเกตแต่ละบุคคลและวิธีการที่คุณได้รับสูตรแมตทิวส์ ฉันไม่ได้ทำสิ่งนี้จริง ๆ แต่มันต้องตรงไปตรงมาพอสมควร
ปีเตอร์เอลลิส

2

ประการแรกมีข้อผิดพลาดที่พิมพ์ผิดในคำถาม:ไม่ใช่แต่ค่อนข้างE[xy]n1n1n2

n11n×1×1+n10n×1×0+n01n×0×1+n00n×0×0=n11n

ประการที่สองกุญแจสำคัญในการแสดงว่าคือρ=ϕ

n11nn1n1=n11(n01+n10+n11+n00)(n11+n10)(n11+n01)=n11n00n10n01
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.