สถิติและข้อมูลขนาดใหญ่ logistic

5

กลยุทธ์ในการจัดการกับการถดถอยโลจิสติกเหตุการณ์ที่หายาก

ฉันต้องการที่จะศึกษาเหตุการณ์ที่หายากในประชากรที่ จำกัด เนื่องจากฉันไม่แน่ใจว่ากลยุทธ์ใดเหมาะสมที่สุดฉันจะขอขอบคุณเคล็ดลับและข้อมูลอ้างอิงที่เกี่ยวข้องกับเรื่องนี้แม้ว่าฉันจะทราบดีว่ามันได้รับการครอบคลุมเป็นส่วนใหญ่ ฉันแค่ไม่รู้จริงๆว่าจะเริ่มจากตรงไหน ปัญหาของฉันคือวิทยาศาสตร์การเมืองหนึ่งและฉันมีประชากรที่ จำกัด ประกอบด้วย 515,843 บันทึก พวกเขาจะเชื่อมโยงกับตัวแปรไบนารีขึ้นอยู่กับ 513,334 "0" s และ 2,509 "1" s ฉันสามารถใส่เหรียญ "1" เป็นกิจกรรมที่หายากได้เพราะพวกเขาคิดเป็นเพียง 0.49% ของประชากรทั้งหมด ฉันมีชุดตัวแปรอิสระประมาณ 10 ตัวที่ฉันต้องการสร้างแบบจำลองเพื่ออธิบายสถานะของ "1" เช่นเดียวกับพวกเราหลายคนฉันอ่านบทความ 2001 ของ King & Zengเกี่ยวกับการแก้ไขเหตุการณ์ที่ไม่ค่อยเกิดขึ้น วิธีการของพวกเขาคือใช้การออกแบบตัวควบคุมเคสเพื่อลดจำนวน "0" จากนั้นใช้การแก้ไขกับดัก อย่างไรก็ตามโพสต์นี้บอกว่าการโต้แย้งของ King & Zeng นั้นไม่จำเป็นถ้าฉันรวบรวมข้อมูลของฉันครอบคลุมประชากรทั้งหมดซึ่งเป็นกรณีของฉัน ดังนั้นฉันต้องใช้แบบจำลอง logit แบบคลาสสิก น่าเสียดายสำหรับฉันแม้ว่าฉันจะได้รับค่าสัมประสิทธิ์ที่ดีมากแบบจำลองของฉันไร้ประโยชน์อย่างสมบูรณ์ในแง่ของการทำนาย (ล้มเหลวในการทำนาย 99.48% ของ "1" ของฉัน) หลังจากอ่านบทความของ …

27 logistic rare-events

1

ความแตกต่างระหว่างสมการการประมาณทั่วไปกับ GLMM คืออะไร

ฉันใช้ GEE กับข้อมูลที่ไม่สมดุล 3 ระดับโดยใช้ลิงก์ logit สิ่งนี้แตกต่างกันอย่างไร (ในแง่ของข้อสรุปที่ฉันสามารถวาดและความหมายของสัมประสิทธิ์) จาก GLM ที่มีเอฟเฟกต์ผสม (GLMM) และลิงก์ logit ได้อย่างไร รายละเอียดเพิ่มเติม: ข้อสังเกตคือการทดลอง bernoulli เดี่ยว พวกเขาถูกจัดกลุ่มเป็นห้องเรียนและโรงเรียน ใช้การละเว้น R. Casewise ของ NAs 6 ทำนายยังมีเงื่อนไขการโต้ตอบ (ฉันไม่พลิกเด็ก ๆ เพื่อดูว่าพวกเขาขึ้นหัว) ฉันอยากจะอธิบายค่าสัมประสิทธิ์ของอัตราต่อรอง สิ่งนี้มีความหมายเหมือนกันทั้งสองอย่างหรือไม่? มีบางสิ่งที่ซุ่มซ่อนอยู่ในใจของฉันเกี่ยวกับ "ความหมายส่วนเพิ่ม" ในรุ่น GEE ฉันต้องการบิตนั้นอธิบายให้ฉัน ขอบคุณ

27 logistic mixed-model generalized-linear-model interpretation gee

6

ขนาดตัวอย่างสำหรับการถดถอยโลจิสติก?

ฉันต้องการสร้างแบบจำลองโลจิสติกส์จากข้อมูลการสำรวจของฉัน เป็นการสำรวจขนาดเล็กของอาณานิคมทั้งสี่แห่งซึ่งมีผู้ตอบแบบสอบถามเพียง 154 คนเท่านั้น ตัวแปรตามของฉันคือ "การเปลี่ยนไปใช้งานที่น่าพอใจ" ฉันพบว่าจากผู้ตอบแบบสอบถาม 154 คน 73 คนกล่าวว่าพวกเขาเปลี่ยนใจไปทำงานเป็นที่น่าพอใจในขณะที่คนอื่น ๆ ไม่ได้ทำงาน ดังนั้นตัวแปรตามคือไบนารีในธรรมชาติและฉันตัดสินใจใช้การถดถอยโลจิสติก ฉันมีเจ็ดตัวแปรอิสระ (สามต่อเนื่องและสี่เล็กน้อย) แนวทางหนึ่งแนะนำว่าควรมี 10 กรณีสำหรับตัวแปรทำนาย / อิสระแต่ละตัว (Agresti, 2007) จากแนวทางนี้ฉันรู้สึกว่ามันเป็นการตกลงที่จะเรียกใช้การถดถอยโลจิสติก ฉันถูกไหม? ถ้าไม่โปรดแจ้งให้เราทราบวิธีการตัดสินใจจำนวนตัวแปรอิสระ?

26 logistic sample-size assumptions power unbalanced-classes

9

การวัดความแม่นยำของแบบจำลองการถดถอยโลจิสติก

ฉันมีแบบจำลองการถดถอยโลจิสติกที่ผ่านการฝึกอบรมซึ่งฉันใช้กับชุดข้อมูลการทดสอบ ตัวแปรที่ขึ้นต่อกันคือไบนารี (บูลีน) สำหรับแต่ละตัวอย่างในชุดข้อมูลการทดสอบฉันใช้แบบจำลองการถดถอยโลจิสติกเพื่อสร้าง% ความน่าจะเป็นที่ตัวแปรตามจะเป็นจริง จากนั้นฉันบันทึกว่าค่า acutal เป็นจริงหรือเท็จ ฉันพยายามคำนวณรูปหรือ Adjustedเหมือนในตัวแบบถดถอยเชิงเส้นR2R2R^2R2R2R^2 นี่ทำให้ฉันบันทึกสำหรับตัวอย่างแต่ละตัวอย่างในชุดการทดสอบที่ชอบ: prob_value_is_true acutal_value .34 0 .45 1 .11 0 .84 0 .... .... ฉันสงสัยว่าจะทดสอบความแม่นยำของแบบจำลองได้อย่างไร ความพยายามครั้งแรกของฉันคือการใช้ตารางฉุกเฉินและพูดว่า "ถ้าprob_value_is_true> 0.80 เดาว่ามูลค่าจริงเป็นจริง" จากนั้นวัดอัตราส่วนที่ถูกต้องต่อการจำแนกประเภทที่ไม่ถูกต้อง แต่ฉันไม่ชอบเพราะมันให้ความรู้สึกมากกว่าฉันแค่ประเมิน 0.80 เป็นขอบเขตไม่ใช่ความแม่นยำของโมเดลโดยรวมและในทุกprob_value_is_trueค่า จากนั้นฉันพยายามดูแต่ละค่า prob_value_is_true โดยสิ้นเชิงเป็นตัวอย่างดูตัวอย่างทั้งหมดที่prob_value_is_true= 0.34 และการวัด% ของตัวอย่างเหล่านั้นโดยที่ค่า acutal เป็นจริง (ในกรณีนี้ความแม่นยำสมบูรณ์จะเป็นถ้า% ของตัวอย่าง นั่นเป็นความจริง = 34%) prob_value_is_trueฉันอาจจะสร้างคะแนนความถูกต้องได้จากข้อสรุปรูปแบบที่แตกต่างกันในแต่ละคุ้มค่าต่อเนื่องของ แต่ขนาดของกลุ่มตัวอย่างมีความกังวลอย่างมากโดยเฉพาะอย่างยิ่งในส่วนที่เกิน (ใกล้ 0% หรือ …

26 regression logistic r-squared

3

จะเข้าใจเอาต์พุตจากฟังก์ชัน polr ของ R ได้อย่างไร (สั่งการถดถอยโลจิสติก)

ฉันกำลังใหม่เพื่อ R polrสั่งการถดถอยโลจิสติกและ ส่วน "ตัวอย่าง" ที่ด้านล่างของหน้าความช่วยเหลือสำหรับpolr (ที่เหมาะกับรูปแบบการถดถอยโลจิสติกหรือ probit กับการตอบสนองต่อปัจจัยที่สั่งซื้อ) แสดง options(contrasts = c("contr.treatment", "contr.poly")) house.plr <- polr(Sat ~ Infl + Type + Cont, weights = Freq, data = housing) pr <- profile(house.plr) plot(pr) pairs(pr) มีข้อมูลอะไรบ้างpr? หน้าความช่วยเหลือในโปรไฟล์เป็นข้อมูลทั่วไปและไม่มีแนวทางสำหรับ polr กำลังplot(pr)แสดงอะไร ฉันเห็นกราฟหกตัว แต่ละคนมีแกน X ที่เป็นตัวเลขแม้ว่าฉลากจะเป็นตัวแปรตัวบ่งชี้ (ดูเหมือนว่าตัวแปรอินพุตที่เป็นตัวบ่งชี้สำหรับค่าลำดับ) จากนั้นแกน Y คือ "เอกภาพ" ซึ่งไม่ได้อธิบายอย่างสมบูรณ์ กำลังpairs(pr)แสดงอะไร ดูเหมือนพล็อตสำหรับตัวแปรอินพุตแต่ละคู่ …

26 r logistic

2

ค่า logit จริงหมายถึงอะไร

ฉันมีโมเดล logit ซึ่งมีตัวเลขระหว่าง 0 ถึง 1 ในหลาย ๆ กรณี แต่เราจะ interprete นี้ได้อย่างไร ใช้กรณีกับ logit ของ 0.20 เราสามารถยืนยันได้หรือไม่ว่ามีความเป็นไปได้ 20% ที่กรณีเป็นของกลุ่ม B กับกลุ่ม A? นั่นเป็นวิธีที่ถูกต้องในการตีความค่า logit หรือไม่

26 regression logistic logit

2

การทดสอบอัตราส่วนความน่าจะเป็นใน R

สมมติว่าฉันจะทำการถดถอยแบบลอจิสติกที่ไม่มีตัวแปรในตัวแปรอิสระหลายตัวเช่นนี้ mod.a <- glm(x ~ a, data=z, family=binominal("logistic")) mod.b <- glm(x ~ b, data=z, family=binominal("logistic")) ฉันทำการเปรียบเทียบแบบจำลอง (การทดสอบอัตราส่วนความน่าจะเป็น) เพื่อดูว่าแบบจำลองนั้นดีกว่าตัวแบบโมฆะโดยคำสั่งนี้หรือไม่ 1-pchisq(mod.a$null.deviance-mod.a$deviance, mod.a$df.null-mod.a$df.residual) จากนั้นฉันสร้างโมเดลอื่นพร้อมตัวแปรทั้งหมดในนั้น mod.c <- glm(x ~ a+b, data=z, family=binomial("logistic")) เพื่อดูว่าตัวแปรมีนัยสำคัญทางสถิติในโมเดลหลายตัวแปรหรือไม่ฉันใช้lrtestคำสั่งจากepicalc lrtest(mod.c,mod.a) ### see if variable b is statistically significant after adjustment of a lrtest(mod.c,mod.b) ### see if variable a is statistically …

25 r logistic diagnostic

2

สัญชาตญาณเบื้องหลังการถดถอยโลจิสติก

เร็ว ๆ นี้ผมเริ่มศึกษาเรียนรู้ของเครื่อง แต่ฉันล้มเหลวที่จะเข้าใจสัญชาตญาณที่อยู่เบื้องหลังการถดถอยโลจิสติก ต่อไปนี้เป็นข้อเท็จจริงเกี่ยวกับการถดถอยโลจิสติกที่ฉันเข้าใจ ในฐานะที่เป็นพื้นฐานสำหรับสมมติฐานที่เราใช้ฟังก์ชั่น sigmoid ฉันเข้าใจว่าทำไมมันถึงเป็นตัวเลือกที่ถูกต้อง แต่ทำไมมันเป็นตัวเลือกเดียวที่ฉันไม่เข้าใจ สมมุติฐานแสดงถึงความน่าจะเป็นที่ผลลัพธ์ที่เหมาะสมคือดังนั้นโดเมนของฟังก์ชันของเราควรเป็นนี่คือคุณสมบัติเดียวของฟังก์ชัน sigmoid ที่ฉันพบว่ามีประโยชน์และเหมาะสมที่นี่ นอกจากนี้ฟังก์ชัน sigmoid มีอนุพันธ์ในรูปแบบนี้แต่ฉันไม่เห็นประโยชน์ของรูปแบบพิเศษนี้ในการถดถอยโลจิสติก111[0,1][0,1][0,1]f(x)(1−f(x))f(x)(1−f(x))f(x)(1-f(x)) คำถาม : ดังนั้นสิ่งที่พิเศษเกี่ยวกับฟังก์ชั่น sigmoid และทำไมเราไม่สามารถใช้ฟังก์ชั่นอื่น ๆ ที่มีโดเมน ?[0,1][0,1][0,1] ฟังก์ชันต้นทุนประกอบด้วยสองพารามิเตอร์ถ้าถ้า 0 ในทำนองเดียวกันเป็นข้างต้นฉันเข้าใจว่าทำไมมันถูกต้อง แต่ทำไมมันเป็นรูปแบบเดียว? ตัวอย่างเช่นทำไมไม่สามารถเป็นทางเลือกที่ดีสำหรับฟังก์ชันต้นทุนหรือไม่Cost(hθ(x),y)=−log(hθ(x))Cost(hθ(x),y)=−log⁡(hθ(x)){\rm Cost}(h_{\theta}(x),y)=-\log(h_{\theta}(x))y=1,Cost(hθ(x),y)=−log(1−hθ(x))y=1,Cost(hθ(x),y)=−log⁡(1−hθ(x))y=1, {\rm Cost}(h_{\theta}(x),y)=-\log(1-h_{\theta}(x))y=0y=0y=0|hθ(x)−y||hθ(x)−y||h_{\theta(x)}-y| คำถาม : อะไรเป็นพิเศษเกี่ยวกับรูปแบบของฟังก์ชั่นค่าใช้จ่าย; ทำไมเราไม่สามารถใช้รูปแบบอื่นได้? ฉันจะขอบคุณถ้าคุณสามารถแบ่งปันความเข้าใจของการถดถอยโลจิสติก

25 regression machine-learning logistic

3

การตีความคำศัพท์โต้ตอบในการถดถอยโลจิทด้วยตัวแปรเด็ดขาด

ฉันมีข้อมูลจากการทดสอบการสำรวจซึ่งผู้ตอบถูกสุ่มให้กับหนึ่งในสี่กลุ่ม: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 ในขณะที่กลุ่มการรักษาทั้งสามแตกต่างกันเล็กน้อยในการกระตุ้นที่ใช้ความแตกต่างหลักที่ฉันสนใจคือระหว่างกลุ่มควบคุมและกลุ่มการรักษา ดังนั้นฉันจึงกำหนดตัวแปรหุ่นจำลองControl: > summary(df$Control) TRUE FALSE 59 191 ในการสำรวจผู้ตอบแบบสอบถามถูกถาม (เหนือสิ่งอื่นใด) เพื่อเลือกสิ่งที่พวกเขาต้องการสองสิ่ง: > summary(df$Prefer) A B NA's 152 93 5 จากนั้นหลังจากได้รับการกระตุ้นตามที่กำหนดโดยกลุ่มการรักษาของพวกเขา (และไม่มีถ้าพวกเขาอยู่ในกลุ่มควบคุม) ผู้ตอบแบบสอบถามถูกขอให้เลือกระหว่างสองสิ่งเดียวกัน: > summary(df$Choice) A B 149 101 ฉันต้องการทราบว่าการอยู่ในหนึ่งในสามกลุ่มการรักษามีผลต่อการเลือกของผู้ตอบแบบสอบถามในคำถามสุดท้ายนี้หรือไม่ สมมติฐานของฉันคือว่าผู้ตอบแบบสอบถามที่ได้รับการรักษาที่มีแนวโน้มที่จะเลือกกว่า AB เนื่องจากฉันทำงานกับข้อมูลที่เป็นหมวดหมู่ฉันได้ตัดสินใจใช้การถดถอยแบบ logit (อย่าลังเลที่จะพูดสอดหากคุณคิดว่าไม่ถูกต้อง) เนื่องจากผู้ตอบถูกสุ่มเลือกฉันอยู่ภายใต้การแสดงผลที่ฉันไม่ควรจำเป็นต้องควบคุมตัวแปรอื่น ๆ (เช่นข้อมูลประชากร) ดังนั้นฉันจึงทิ้งคำถามเหล่านี้ไว้ รุ่นแรกของฉันเป็นเพียงต่อไปนี้: …

25 r logistic categorical-data interaction interpretation

3

การประเมินการถดถอยโลจิสติกและการตีความความดีงามของ Hosmer-Lemeshow of Fit

ดังที่เราทุกคนรู้กันว่ามี 2 วิธีในการประเมินรูปแบบการถดถอยโลจิสติกส์และพวกเขากำลังทดสอบสิ่งที่แตกต่างกันมาก พลังการทำนาย: รับสถิติที่วัดว่าคุณสามารถทำนายตัวแปรตามได้ดีเพียงใดขึ้นอยู่กับตัวแปรอิสระ Pseudo R ^ 2 ที่รู้จักกันดีคือ McFadden (1974) และ Cox and Snell (1989) สถิติความถูกต้อง การทดสอบกำลังบอกว่าคุณสามารถทำได้ดียิ่งขึ้นด้วยการทำให้แบบจำลองมีความซับซ้อนมากขึ้นหรือไม่ซึ่งเป็นการทดสอบว่ามีเชิงเส้นหรือการโต้ตอบใด ๆ หรือไม่ ฉันใช้การทดสอบทั้งสองแบบกับโมเดลซึ่งเพิ่มกำลังสองและการโต้ตอบ อยู่แล้ว: >summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = …

24 r logistic goodness-of-fit regression-strategies model-evaluation

1

การถดถอยด้วยตัวแปรเด็ดขาดเท่านั้น

เป็นไปได้หรือไม่ที่จะทำการถดถอยหากตัวแปรที่ขึ้นกับและอิสระทั้งหมดเป็นตัวแปรหมวดหมู่?

24 regression logistic categorical-data

3

วิธีการถดถอยโลจิสติกใน R เมื่อผลเป็นเศษส่วน (อัตราส่วนของสองนับ)?

ฉันกำลังตรวจสอบกระดาษที่มีการทดลองทางชีวภาพต่อไปนี้ อุปกรณ์ถูกนำมาใช้เพื่อเปิดเผยเซลล์เพื่อความเครียดที่แตกต่างกันของแรงเฉือนของเหลว เมื่อมีการใช้แรงเฉือนมากขึ้นกับเซลล์จึงเริ่มมีการแยกตัวออกจากสารตั้งต้นมากขึ้น ในแต่ละระดับของความเครียดแรงเฉือนพวกเขานับจำนวนเซลล์ที่ยังคงติดอยู่และเนื่องจากพวกเขารู้ว่าจำนวนเซลล์ทั้งหมดที่ถูกแนบไว้ที่จุดเริ่มต้นพวกเขาสามารถคำนวณสิ่งที่แนบมาเป็นเศษส่วน (หรือแยก) หากคุณพล็อตเศษส่วนสานุศิษย์เทียบกับความเครียดเฉือนผลที่ได้คือเส้นโค้งโลจิสติก ในทางทฤษฎีแต่ละเซลล์มีการสังเกตเพียงอย่างเดียว แต่เห็นได้ชัดว่ามีเซลล์นับพันหรือหมื่นเซลล์ดังนั้นชุดข้อมูลจะมีขนาดมหึมาถ้ามันถูกสร้างขึ้นในแบบปกติ ดังนั้นคำถามของฉัน (ตามที่ระบุในชื่อเรื่อง) น่าจะสมเหตุสมผลแล้ว เราจะทำการถดถอยโลจิสติกโดยใช้ผลลัพธ์เศษส่วนเป็น DV ได้อย่างไร มีการแปลงรูปแบบอัตโนมัติที่สามารถทำได้ใน glm หรือไม่? ในบรรทัดเดียวกันหากมีการวัด 3 ครั้งหรือมากกว่านั้นจะเป็นไปได้อย่างไรสำหรับการถดถอยโลจิสติกพหุนาม

24 r logistic multinomial

4

ความสัมพันธ์ระหว่างการถดถอยและการวิเคราะห์จำแนกเชิงเส้น (LDA) คืออะไร?

มีความสัมพันธ์ระหว่างการถดถอยและการวิเคราะห์จำแนกเชิงเส้น (LDA) หรือไม่? ความคล้ายคลึงและความแตกต่างของพวกเขาคืออะไร มันสร้างความแตกต่างหรือไม่ถ้ามีสองคลาสหรือมากกว่าสองคลาส?

24 regression logistic discriminant-analysis canonical-correlation reduced-rank-regression

3

เหตุใดการถดถอยแบบลอจิสติกจึงเป็นแบบจำลองเชิงเส้น

ฉันต้องการทราบว่าเหตุใดการถดถอยแบบลอจิสติกจึงเรียกว่าแบบจำลองเชิงเส้น มันใช้ฟังก์ชั่น sigmoid ซึ่งไม่ได้เป็นเชิงเส้น เหตุใดการถดถอยแบบลอจิสติกจึงเป็นแบบจำลองเชิงเส้น

24 regression logistic terminology

1

การสุ่มตัวอย่างสำหรับการถดถอยโลจิสติกควรสะท้อนอัตราส่วนที่แท้จริงของ 1 และ 0 หรือไม่?

สมมติว่าฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกซึ่งสามารถประมาณความน่าจะเป็นของการเกิดสัตว์บางชนิดที่อาศัยอยู่บนต้นไม้ตามลักษณะของต้นไม้ (ความสูง fe) เช่นเคยเวลาและเงินของฉันมี จำกัด ดังนั้นฉันสามารถรวบรวมตัวอย่างขนาด จำกัด ได้เท่านั้น ฉันมีคำถามต่อไปนี้: อัตราส่วนของ 1 และ 0 ในตัวอย่างของฉันควรสะท้อนอัตราส่วนจริงของ 1 และ 0 หรือไม่? (อย่างน้อยโดยประมาณ)ฉันสังเกตเห็นว่ามันเป็นวิธีปฏิบัติทั่วไปในการดำเนินการแบบจำลองการถดถอยโลจิสติกที่มีตัวอย่างที่สมดุล (จำนวนเท่ากับ 1 และ 0) - แต่โมเดลดังกล่าวให้ความน่าจะเป็นที่สูงเกินจริง มีบทความ / ตำราเรียนใดบ้างที่ฉันสามารถใช้เป็น ** สนับสนุนความคิดได้ว่าแบบจำลองที่ไม่สะท้อนอัตราส่วนที่แท้จริงของ 1 และ 0 เป็น " ผิด " หรือไม่? ** และในที่สุด: เป็นไปได้หรือไม่ที่จะทำการสุ่มตัวอย่างแบบ 1: 1 แล้วแก้ไขโมเดลด้วยtauตาม Imai et al 2007 Kosuke Imai, …

23 logistic sampling

คำถามติดแท็ก logistic