อธิบายการปรับโมเดลในภาษาอังกฤษแบบธรรมดา


14

การอ่านเกี่ยวกับวิธีการและผลลัพธ์ของการวิเคราะห์ทางสถิติโดยเฉพาะอย่างยิ่งในด้านระบาดวิทยาฉันมักได้ยินเกี่ยวกับการปรับหรือควบคุมโมเดล

คุณจะอธิบายเกี่ยวกับจุดประสงค์ของสิ่งที่ไม่ใช่นักสถิติได้อย่างไร? คุณตีความผลลัพธ์ของคุณหลังจากควบคุมตัวแปรบางตัวได้อย่างไร

การเดินผ่านเล็ก ๆ ใน Stata หรือ R หรือตัวชี้ไปยังหนึ่งออนไลน์จะเป็นอัญมณีที่แท้จริง

คำตอบ:


29

ง่ายที่สุดในการอธิบายผ่านตัวอย่าง:

ลองนึกภาพการศึกษาพบว่าคนที่ดูฟุตบอลโลกรอบสุดท้ายมีแนวโน้มที่จะเป็นโรคหัวใจวายในระหว่างการแข่งขันหรือใน 24 ชั่วโมงต่อมากว่าผู้ที่ไม่ได้ดูมัน รัฐบาลควรแบนฟุตบอลจากทีวีหรือไม่? แต่ผู้ชายมีแนวโน้มที่จะดูฟุตบอลมากกว่าผู้หญิงและผู้ชายก็มีแนวโน้มที่จะมีอาการหัวใจวายมากกว่าผู้หญิง ดังนั้นความสัมพันธ์ระหว่างการดูฟุตบอลและโรคหัวใจอาจอธิบายได้จากปัจจัยที่สามเช่นเพศที่มีผลต่อทั้งคู่ (นักสังคมวิทยาจะแยกแยะที่นี่ระหว่างเพศโครงสร้างทางวัฒนธรรมที่เกี่ยวข้องกับการดูฟุตบอลและเพศหมวดหมู่ทางชีวภาพที่เกี่ยวข้องกับการเกิดโรคหัวใจวาย แต่ทั้งสองมีความสัมพันธ์กันอย่างชัดเจนมากดังนั้นฉันจะไม่สนใจความแตกต่างสำหรับความเรียบง่ายนั้น)

สถิติและโดยเฉพาะอย่างยิ่งนักระบาดวิทยาโทรดังกล่าวเป็นปัจจัยที่สามปัจจัยรบกวนและปรากฏการณ์รบกวน วิธีที่ชัดเจนที่สุดในการขจัดปัญหาคือดูที่ความสัมพันธ์ระหว่างการดูฟุตบอลและการเกิดอาการหัวใจวายในผู้ชายและผู้หญิงแยกกันหรือในศัพท์แสงเพื่อแบ่งชั้นเพศ หากเราพบว่าสมาคม (หากยังมีอยู่) มีความคล้ายคลึงกันในทั้งสองเพศเราอาจเลือกที่จะรวมการประมาณความสัมพันธ์ทั้งสองของทั้งสองเพศเข้าด้วยกัน การประเมินผลลัพธ์ของความสัมพันธ์ระหว่างการดูฟุตบอลและการเกิดอาการหัวใจวายนั้นถูกกล่าวเพื่อปรับหรือควบคุมเพศ

เราอาจต้องการควบคุมปัจจัยอื่นด้วยวิธีเดียวกัน อายุเป็นอีกสิ่งหนึ่งที่เห็นได้ชัด (ในความจริงแล้วนักระบาดวิทยาแบ่งชั้นหรือปรับ / ควบคุมเกือบทุกสมาคมตามอายุและเพศ) ชนชั้นทางสังคมและเศรษฐกิจอาจเป็นอีกระดับหนึ่ง คนอื่น ๆ อาจจะมีเล่ห์เหลี่ยมเช่นเราควรจะปรับการบริโภคเบียร์ในขณะที่ดูการแข่งขันไหม? อาจจะใช่ถ้าเราสนใจผลของความเครียดจากการดูการแข่งขันคนเดียว แต่อาจจะไม่ถ้าเรากำลังพิจารณาที่จะห้ามการออกอากาศฟุตบอลโลกและนั่นจะช่วยลดการบริโภคเบียร์ ไม่ว่าตัวแปรที่กำหนดนั้นจะเป็นสิ่งที่ทำให้สับสนหรือไม่นั้นขึ้นอยู่กับคำถามที่เราต้องการจะพูดถึงอย่างแม่นยำและสิ่งนี้อาจต้องใช้ความคิดที่รอบคอบและมีความซับซ้อน

เห็นได้ชัดว่าเราอาจต้องการที่จะปรับ / ควบคุมปัจจัยหลายอย่างซึ่งบางอย่างอาจถูกวัดในหลายหมวดหมู่ (เช่นชั้นทางสังคม) ในขณะที่คนอื่นอาจจะต่อเนื่อง (เช่นอายุ) เราสามารถจัดการกับคนที่ต่อเนื่องได้โดยแยกออกเป็นกลุ่ม (อายุ -) ดังนั้นเปลี่ยนพวกเขาเป็นกลุ่มที่มีการจัดหมวดหมู่ สมมติว่าเรามี 2 เพศ, 5 กลุ่มสังคมและ 7 กลุ่มอายุ ตอนนี้เราสามารถดูความสัมพันธ์ระหว่างการดูฟุตบอลและอุบัติการณ์หัวใจวายใน 2 × 5 × 7 = 70 ชั้น แต่ถ้าการศึกษาของเรามีขนาดค่อนข้างเล็กดังนั้นบางส่วนของคนเหล่านี้มีน้อยมากเราจะพบปัญหากับวิธีการนี้ และในทางปฏิบัติเราอาจต้องการปรับให้เข้ากับตัวแปรหนึ่งโหลหรือมากกว่านั้น อีกทางเลือกหนึ่งของการปรับ / ควบคุมตัวแปรที่มีประโยชน์อย่างยิ่งเมื่อมีหลาย ๆ ตัวถูกจัดเตรียมโดยการวิเคราะห์การถดถอยกับตัวแปรตามหลาย ๆ บางครั้งเรียกว่าการวิเคราะห์การถดถอยหลายตัวแปร (มีรูปแบบการถดถอยที่แตกต่างกันขึ้นอยู่กับประเภทของตัวแปรผลลัพธ์: การถดถอยกำลังสองน้อยที่สุดการถดถอยโลจิสติกส์อันตรายจากสัดส่วน (Cox) การถดถอย ... ) ในการศึกษาเชิงสังเกตซึ่งตรงข้ามกับการทดลองเราเกือบจะต้องการปรับเปลี่ยนสำหรับคนที่อาจเกิดขึ้นได้หลายคนดังนั้นในการปรับ / ควบคุมการปฏิบัติสำหรับคนที่สับสนก็มักจะทำโดยการวิเคราะห์การถดถอยแม้ว่าจะมีทางเลือกอื่นเช่นกัน การจับคู่คะแนน ...


3
+1 (แม้ว่าจะสมควรอย่างน้อย +3) - ครอบคลุมและครอบคลุมมาก ทำให้ปัญหาทั้งหมดชัดเจนขึ้นสำหรับฉัน ขอบคุณ!
radek

"ทางเลือกในการปรับเปลี่ยน / ควบคุมตัวแปรที่มีประโยชน์โดยเฉพาะอย่างยิ่งเมื่อมีหลาย ๆ ตัวนั้นได้มาจากการวิเคราะห์การถดถอยพร้อมกับตัวแปรหลายตัวซึ่งบางครั้งเรียกว่าการวิเคราะห์การถดถอยหลายตัวแปร" ที่ควรจะเป็น "อิสระ" หรือฉันเข้าใจผิด? และศัพท์แสงทั่วไปสำหรับเรื่องนี้ "การถดถอยหลายครั้ง"? (ฉันรู้ว่ามันเป็นปัญหา)
Richard DiSalvo

10

Onestop อธิบายได้ค่อนข้างดีฉันจะให้ตัวอย่าง R ง่ายๆกับข้อมูลที่สร้างขึ้น พูดว่า x คือน้ำหนักและ y คือส่วนสูงและเราต้องการทราบว่ามีความแตกต่างระหว่างเพศชายหรือเพศหญิงหรือไม่:

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

คุณจะเห็นว่าไม่มีการควบคุมน้ำหนัก (ใน anova (lm1)) มีความแตกต่างกันเล็กน้อยระหว่างเพศ แต่เมื่อรวมน้ำหนักเป็น covariate (ควบคุมสำหรับใน lm2) จากนั้นความแตกต่างจะชัดเจนยิ่งขึ้น

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.