คุณช่วยอธิบายความขัดแย้งของ Simpson ด้วยสมการแทนที่จะเป็นตารางฉุกเฉินได้ไหม


14

ฉันอาจไม่ได้มีความเข้าใจที่ชัดเจนของความขัดแย้งซิมป์สัน ฉันรู้ว่าค่าเฉลี่ยของการตอบสนอง Y1 ซึ่งจัดกลุ่มตามระดับของปัจจัย A ที่เป็นไปได้ทั้งหมดอาจสูงกว่าค่าเฉลี่ยของการตอบสนอง Y2 ในทุกระดับของ A แม้ว่าค่าเฉลี่ยของ Y1 สำหรับแต่ละระดับของ A (แต่ละกลุ่ม) คือ น้อยกว่าค่าเฉลี่ยของ Y2 ที่สอดคล้องกันเสมอ ฉันได้อ่านตัวอย่าง แต่ฉันก็ยังประหลาดใจในแต่ละครั้งที่ฉันเห็นอาจเป็นเพราะฉันไม่ได้เรียนรู้อย่างดีจากตัวอย่างที่เฉพาะเจาะจง: ฉันมีปัญหาในการพูดคุยทั่วไป ฉันเรียนรู้ได้ดีที่สุดและอยากจะเห็นคำอธิบายในสูตร คุณช่วยอธิบายความขัดแย้งที่อาศัยสมการแทนที่จะเป็นตารางนับได้ไหม

นอกจากนี้ฉันคิดว่าเหตุผลที่ทำให้ฉันประหลาดใจก็คือฉันอาจตั้งสมมติฐานบางอย่างเกี่ยวกับค่าเฉลี่ยที่เกี่ยวข้องในความขัดแย้งซึ่งอาจไม่เป็นความจริงโดยทั่วไปโดยไม่รู้ตัว บางทีฉันอาจลืมน้ำหนักด้วยจำนวนตัวอย่างในแต่ละกลุ่ม? แต่จากนั้นฉันอยากเห็นสมการที่แสดงให้ฉันเห็นว่าการประเมินค่าเฉลี่ยโดยรวมมีความแม่นยำมากขึ้นถ้าฉันให้น้ำหนักแต่ละกลุ่มเฉลี่ยตามจำนวนตัวอย่างในแต่ละกลุ่มเพราะ (ถ้าเป็นจริง) จะไม่ชัดเจน ถึงฉันโดยทั่วไป อย่างไร้เดียงสาฉันคิดว่าการประมาณค่าของE[Y1]มีข้อผิดพลาดมาตรฐานที่ต่ำกว่าเมื่อฉันมีตัวอย่างมากขึ้นโดยไม่คำนึงถึงน้ำหนัก


1
ฉันมีการโพสต์ที่เกี่ยวข้องกันที่นี่ด้วยการจำลอง การจำลองอาจมีประโยชน์สำหรับคุณที่จะเข้าใจความขัดแย้งของซิมป์สัน
Haitao Du

นี่คือเครื่องจักรที่สร้างความขัดแย้งของซิมป์สันตามความต้องการ!
kjetil b halvorsen

คำตอบ:


11

นี่คือวิธีการทั่วไปในการทำความเข้าใจพีชคณิตของซิมป์สันเกี่ยวกับพีชคณิตสำหรับการนับข้อมูล

สมมติว่าเรามีข้อมูลการอยู่รอดสำหรับการเปิดรับและเราสร้างตารางฉุกเฉิน 2x2 เพื่อให้ง่ายขึ้นเราจะมีจำนวนเท่ากันในแต่ละเซลล์ เราสามารถผ่อนคลายสิ่งนี้ได้ แต่มันจะทำให้พีชคณิตค่อนข้างยุ่ง

เสียชีวิตรอดชีวิตมาได้อัตราการเสียชีวิตที่เปิดเผยXX0.5ยังไม่ได้ถ่ายXX0.5

ในกรณีนี้อัตราการตายจะเหมือนกันในทั้งกลุ่มที่ถูกเปิดเผยและไม่ได้รับการเปิดเผย

ตอนนี้ถ้าเราแบ่งข้อมูลออกเป็นกลุ่มหนึ่งสำหรับเพศหญิงและอีกกลุ่มสำหรับเพศชายเราจะได้รับ 2 ตารางโดยมีค่าต่อไปนี้:

เพศ:

เสียชีวิตรอดชีวิตมาได้อัตราการเสียชีวิตที่เปิดเผยXaXaa+ยังไม่ได้ถ่ายXXd+d

และสำหรับผู้หญิง:

DiedSurvivedDeath RateExposedX(a1)X(b1)a1a+b2UnexposedX(c1)X(d1)c1c+d2

โดยที่a,b,c,d[0,1]เป็นสัดส่วนของแต่ละเซลล์ในตารางข้อมูลรวมที่เป็นเพศชาย

ความขัดแย้งของซิมป์สันจะเกิดขึ้นเมื่ออัตราการเสียชีวิตของผู้ชายที่ถูกเปิดเผยมากกว่าอัตราการเสียชีวิตของผู้ชายที่ยังไม่ได้รับการชำระและอัตราการเสียชีวิตของผู้หญิงที่ถูกเปิดเผยนั้นมากกว่าอัตราการเสียชีวิตของผู้หญิงที่ยังไม่ได้เปิดรับ หรือจะเกิดขึ้นเมื่ออัตราการเสียชีวิตของผู้ชายที่ถูกเปิดเผยน้อยกว่าอัตราการเสียชีวิตของผู้ชายที่ไม่ได้รับการฉายรังสีและอัตราการตายสำหรับผู้หญิงที่ถูกเปิดเผยจะน้อยกว่าอัตราการตายสำหรับผู้หญิงที่ยังไม่ได้รับรังสี นั่นคือเมื่อ

(aa+b<cc+d) and (a1a+b2<c1c+d2)

Or 

(aa+b>cc+d) and (a1a+b2>c1c+d2)

เป็นตัวอย่างที่เป็นรูปธรรมให้X=100และ= 0.5 , B = 0.8 , C = 0.9 จากนั้นเราจะมีความขัดแย้งของ Simpson เมื่อ:a=0.5,b=0.8,c=0.9

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(9<d<1.44) and (0.96<d<1.1)

จากการที่เราสรุปได้ว่า d ต้องอยู่ใน(0.96,1]

อสมการชุดที่สองให้:

(0.50.8+0.9>0.90.9+d) and (0.510.5+0.82>0.910.9+d2)

(d<0.9 or d>1.44) and (0.96<d or d>1.44)

ซึ่งไม่มีทางออกสำหรับd[0,1]

ดังนั้นสำหรับค่าสามค่าที่เราเลือกสำหรับa,b,และcเพื่อเรียกให้เกิดความขัดแย้งของซิมป์สันdต้องมากกว่า 0.96 ในกรณีที่ค่าเป็น0.99เราจะได้รับอัตราตายสำหรับเพศผู้

0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group

และสำหรับผู้หญิง:

(0.51)/(0.5+0.82)=71% in the exposed group
(0.91)/(0.9+0.992)=91% in the unexposed group

ดังนั้นเพศชายจะมีอัตราการตายสูงกว่าในกลุ่มที่ไม่ได้รับรังสีมากกว่าในกลุ่มที่เปิดเผยและผู้หญิงก็มีอัตราการตายสูงกว่าในกลุ่มที่ยังไม่ได้รับการเปิดเผยมากกว่ากลุ่มที่สัมผัส แต่อัตราตายในข้อมูลรวม .


16

Suppose we have data on 2 variables, x and y, for 2 groups, A and B.

Data in group A are such that the fitted regression line is

y=11x

with mean values of 2 and 9 for x and y respectively.

Data in group B are such that the fitted regression line is

y=25x

with mean values of 11 and 14 for x and y respectively.

So the regression coefficient for x is 1 in both groups.

Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is (2,9) สำหรับกลุ่ม A และ (11,14) สำหรับกลุ่ม B จากนั้นจึงง่ายที่จะเห็นว่าความชันของเส้นการถดถอยโดยรวมจะต้องเป็น (14-9)/(11-2)=0.55 ซึ่งเป็นสัมประสิทธิ์การถดถอยโดยรวมสำหรับ x. ดังนั้นเราจึงเห็นการกระทำที่ขัดแย้งของ Simpson - เรามีความสัมพันธ์เชิงลบx กับ Yในแต่ละกลุ่มเป็นรายบุคคล แต่เป็นความสัมพันธ์เชิงบวกโดยรวมเมื่อมีการรวบรวมข้อมูล เราสามารถแสดงสิ่งนี้ได้อย่างง่ายดายใน R ดังนี้:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

enter image description here

จุดสีแดงและเส้นการถดถอยคือกลุ่ม A จุดสีฟ้าและเส้นการถดถอยคือกลุ่ม B และเส้นสีดำคือเส้นการถดถอยโดยรวม


สวัสดีขอบคุณสำหรับคำตอบ แต่นี่เป็นอีกตัวอย่างที่ชัดเจนของความขัดแย้งของซิมป์สัน ฉันถามเฉพาะบางอย่างในรูปแบบของทฤษฎีบทหรือชุดของสมการซึ่งเป็นวิธีที่เป็นนามธรรมและทั่วไปมากขึ้น อย่างไรก็ตามเนื่องจากไม่มีคำตอบอื่น ๆ ฉันจะศึกษาตัวอย่างของคุณและถ้าฉันรู้สึกว่ามันช่วยให้ฉันสามารถสรุปแนวคิดรวบยอดได้ฉันจะยอมรับคำตอบ
DeltaIV

3
@DeltaIV ฉันได้เขียนคำตอบใหม่โดยใช้อาร์กิวเมนต์เกี่ยวกับพีชคณิตล้วนๆ
Robert Long
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.