สัมประสิทธิ์การถดถอยแบบลอจิสติกเปลี่ยนแปลงเปลี่ยนแปลงหรือไม่?


34

ถ้าฉันมีชุดข้อมูลที่มีคลาสบวกที่หายากมากและฉันลบกลุ่มตัวอย่างที่เป็นลบจากนั้นทำการถดถอยโลจิสติกฉันต้องปรับค่าสัมประสิทธิ์การถดถอยเพื่อสะท้อนความจริงที่ว่าฉันเปลี่ยนความชุกของคลาสบวกหรือไม่

ตัวอย่างเช่นสมมติว่าฉันมีชุดข้อมูลที่มีตัวแปร 4 ตัวคือ Y, A, B และ C Y, A และ B เป็นเลขฐานสอง, C เป็นแบบต่อเนื่อง สำหรับการสังเกต 11,100 Y = 0 และสำหรับ 900 Y = 1:

set.seed(42)
n <- 12000
r <- 1/12
A <- sample(0:1, n, replace=TRUE)
B <- sample(0:1, n, replace=TRUE)
C <- rnorm(n)
Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1)

ฉันพอดีกับการถดถอยโลจิสติกในการทำนาย Y, ให้ A, B และ C

dat1 <- data.frame(Y, A, B, C)
mod1 <- glm(Y~., dat1, family=binomial)

อย่างไรก็ตามเพื่อประหยัดเวลาฉันสามารถลบการสังเกตแบบ non-Y ได้ 10,200 ครั้งโดยให้ 900 Y = 0 และ 900 Y = 1:

require('caret')
dat2 <- downSample(data.frame(A, B, C), factor(Y), list=FALSE)
mod2 <- glm(Class~., dat2, family=binomial)

ค่าสัมประสิทธิ์การถดถอยจาก 2 รุ่นมีลักษณะคล้ายกันมาก:

> coef(summary(mod1))
              Estimate Std. Error   z value     Pr(>|z|)
(Intercept) -127.67782  20.619858 -6.191983 5.941186e-10
A           -257.20668  41.650386 -6.175373 6.600728e-10
B            -13.20966   2.231606 -5.919353 3.232109e-09
C           -127.73597  20.630541 -6.191596 5.955818e-10
> coef(summary(mod2))
              Estimate  Std. Error     z value    Pr(>|z|)
(Intercept) -167.90178   59.126511 -2.83970391 0.004515542
A           -246.59975 4059.733845 -0.06074284 0.951564016
B            -16.93093    5.861286 -2.88860377 0.003869563
C           -170.18735   59.516021 -2.85952165 0.004242805

ซึ่งทำให้ฉันเชื่อว่าการสุ่มตัวอย่างไม่ส่งผลกระทบต่อค่าสัมประสิทธิ์ อย่างไรก็ตามนี่เป็นเพียงตัวอย่างเดียวที่วางแผนไว้และฉันก็อยากจะรู้แน่นอน


8
การสกัดกั้นคุณกำลังประมาณค่าพารามิเตอร์ประชากรแบบเดียวกันเมื่อคุณสุ่มตัวอย่าง แต่มีความแม่นยำน้อยกว่ายกเว้นการสกัดกั้นซึ่งคุณสามารถประเมินได้เมื่อคุณทราบถึงความชุกของการตอบสนองของประชากร ดู Hosmer & Lemeshow (2000), Logistic Regression ที่ใช้แล้ว , Ch 6.3 สำหรับการพิสูจน์ บางครั้งคุณสามารถแนะนำการแยกได้แม้ว่าจะไม่ใช่โดยทั่วไปในขณะที่คุณสุ่มตัวอย่างการตอบกลับส่วนใหญ่
Scortchi - Reinstate Monica

@Scortchi โพสต์ความคิดเห็นของคุณเป็นคำตอบ - ดูเหมือนว่าเพียงพอสำหรับคำถามของฉัน ขอบคุณสำหรับการอ้างอิง
ซัค

@Scortchi และซัค: ตามรูปแบบ downsampled ( mod2) Pr(>|z|)สำหรับAเป็นเกือบ 1 เราไม่สามารถปฏิเสธสมมติฐานที่ว่าค่าสัมประสิทธิ์Aคือ 0 mod1ดังนั้นเราจึงมีการสูญเสียตัวแปรร่วมซึ่งจะใช้ใน นี่ไม่ใช่ความแตกต่างที่สำคัญใช่หรือไม่
Zhubarb

@Zhubarb: ดังที่ฉันได้กล่าวไว้คุณอาจแนะนำการแยกทำให้การประเมินข้อผิดพลาดมาตรฐานของ Wald ไม่น่าเชื่อถืออย่างสมบูรณ์
Scortchi - Reinstate Monica

คำตอบ:


28

การสุ่มตัวอย่างลงนั้นเทียบเท่ากับการออกแบบตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ในสถิติทางการแพทย์ - คุณกำลังกำหนดจำนวนการตอบสนองและการสังเกตรูปแบบโควาเรียต (ตัวทำนาย) บางทีการอ้างอิงที่สำคัญคือ Prentice & Pyke (1979), "แบบจำลองอุบัติการณ์โรคโลจิสติกและการศึกษา - การควบคุมกรณี", Biometrika , 66 , 3

พวกเขาใช้ทฤษฎีบทของเบย์เพื่อเขียนแต่ละเทอมในโอกาสที่จะเกิดความน่าจะเป็นของรูปแบบโควารีเอตตามเงื่อนไขในการเป็นกรณีหรือการควบคุมเป็นสองปัจจัย หนึ่งที่แสดงถึงการถดถอยโลจิสติกสามัญ (ความน่าจะเป็นของกรณีหรือการควบคุมเงื่อนไขในรูปแบบ covariate), และอื่น ๆ ที่เป็นตัวแทนของความน่าจะเป็นขอบของรูปแบบ covariate พวกเขาแสดงให้เห็นว่าการเพิ่มความเป็นไปได้โดยรวมให้มากที่สุดภายใต้ข้อ จำกัด ที่ความน่าจะเป็นของการเป็นกรณีหรือการควบคุมได้รับการแก้ไขโดยโครงการการสุ่มตัวอย่างให้ประมาณการอัตราต่อรองเช่นเดียวกับการเพิ่มปัจจัยแรก .

การสกัดกั้นสำหรับประชากรสามารถประมาณได้จากการสกัดกั้นกรณีและการควบคุมหากทราบความแพร่หลายของประชากร :β 0 πβ0β^0π

β^0=β^0log(1ππn1n0)

โดยที่ &เป็นจำนวนตัวอย่างและตัวควบคุมตามลำดับn 1n0n1

แน่นอนโดยการทิ้งข้อมูลที่คุณได้ไปสู่ปัญหาในการรวบรวมแม้ว่าจะเป็นส่วนที่มีประโยชน์น้อยที่สุด แต่คุณกำลังลดความแม่นยำของการประมาณการของคุณ ข้อ จำกัด เกี่ยวกับทรัพยากรการคำนวณเป็นเพียงเหตุผลที่ดีที่ฉันรู้ในการทำสิ่งนี้ แต่ฉันพูดถึงมันเพราะบางคนดูเหมือนจะคิดว่า "ชุดข้อมูลที่สมดุล" เป็นสิ่งสำคัญสำหรับเหตุผลอื่นที่ฉันไม่สามารถยืนยันได้


ขอบคุณสำหรับคำตอบโดยละเอียด และใช่เหตุผลที่ฉันทำสิ่งนี้กับโมเดลเต็มรูปแบบ (โดยไม่มีการสุ่มตัวอย่าง) เป็นสิ่งต้องห้ามที่คำนวณได้
ซัค

เรียน @Scortchi ขอบคุณสำหรับคำอธิบาย แต่ในกรณีที่ฉันต้องการใช้การถดถอยโลจิสติกชุดข้อมูลที่สมดุลดูเหมือนว่าจำเป็นโดยไม่คำนึงถึงทรัพยากรการคำนวณ ฉันพยายามใช้ "Logit ลดโอกาสที่จะถูกลงโทษด้วยความลำเอียงของ Firth" โดยไม่มีประโยชน์ ดังนั้นการสุ่มตัวอย่างลงจึงเป็นทางเลือกเดียวสำหรับฉันใช่ไหม
Shahin

@Shahin อืม (1) ทำไมคุณถึงไม่มีความสุขกับการถดถอยแบบโลจิสติกส์โดยความเป็นไปได้สูงสุด? & (2) สิ่งที่ผิดพลาดอย่างแน่นอนโดยใช้วิธีการของ Firth?
Scortchi - Reinstate Monica

@ Scortchi ปัญหาคือรูปแบบที่ไม่ดีมากในการตรวจสอบsuccessอินสแตนซ์ ในคำอื่น ๆ TPR ที่ต่ำมาก ด้วยการเปลี่ยนเกณฑ์ TPR จะเพิ่มขึ้น แต่ความแม่นยำนั้นแย่มากซึ่งหมายความว่ามากกว่า 70% ของอินสแตนซ์ที่มีข้อความว่าเป็นบวกนั้นเป็นค่าลบ ฉันอ่านว่าในเหตุการณ์ที่เกิดขึ้นได้ยากการถดถอยแบบโลจิสติกส์นั้นทำได้ไม่ดีนี่เป็นจุดที่วิธีการของ Firth มาเล่นหรืออย่างน้อยหนึ่งในบทบาทที่สามารถทำได้ แต่ผลลัพธ์ของวิธีการของ Firth นั้นคล้ายคลึงกับ logit ปกติมาก ฉันคิดว่าฉันผิดในการทำ Firth แต่ดูเหมือนว่าทุกอย่างจะไม่เป็นไร
Shahin

3
@Shahin: ดูเหมือนว่าคุณกำลังเห่าต้นไม้ผิดที่นั่น: การสุ่มตัวอย่างจะไม่ปรับปรุงการเลือกปฏิบัติของแบบจำลองของคุณ การแก้ไขอคติหรือการทำให้เป็นปกติอาจ (ในข้อมูลใหม่ - คุณกำลังประเมินประสิทธิภาพของชุดทดสอบหรือไม่) แต่ข้อมูลจำเพาะที่ซับซ้อนอาจช่วยได้หรืออาจเป็นได้ว่าคุณต้องการเครื่องมือทำนายที่มีข้อมูลมากขึ้น คุณควรถามคำถามใหม่โดยให้รายละเอียดข้อมูลบริบทหัวข้อเรื่องโมเดลการวินิจฉัยและเป้าหมายของคุณ
Scortchi - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.