คำถามติดแท็ก logistic

โดยทั่วไปหมายถึงกระบวนการทางสถิติที่ใช้ฟังก์ชันลอจิสติกซึ่งเป็นรูปแบบต่าง ๆ ส่วนใหญ่ของการถดถอยโลจิสติก

1
การถดถอยโลจิสติกแบบเบย์ปกติใน JAGS
มีเอกสารทางคณิตศาสตร์มากมายที่อธิบาย Bayesian Lasso แต่ฉันต้องการทดสอบและแก้ไขรหัส JAGS ที่ฉันสามารถใช้ได้ ใครบางคนสามารถโพสต์ตัวอย่างรหัส BUGS / JAGS ที่ใช้การถดถอยโลจิสติกปกติ? รูปแบบใด ๆ (L1, L2, Elasticnet) จะดี แต่ Lasso เป็นที่ต้องการ ฉันยังสงสัยว่ามีกลยุทธ์การใช้งานทางเลือกที่น่าสนใจหรือไม่

3
การแทนที่ตัวแปรด้วย WoE (น้ำหนักของหลักฐาน) ใน Logistic Regression
นี่เป็นคำถามเกี่ยวกับการฝึกฝนหรือวิธีการตามด้วยเพื่อนร่วมงานของฉัน ในขณะที่ทำแบบจำลองการถดถอยโลจิสติกฉันได้เห็นผู้คนแทนที่ตัวแปรเด็ดขาด (หรือตัวแปรต่อเนื่องซึ่งถูก binned) ด้วยน้ำหนักของหลักฐาน (WoE) นี้จะกระทำเพื่อที่จะสร้างความต่อเนื่องสัมพันธ์ระหว่าง regressor และตัวแปรตาม เท่าที่ฉันเข้าใจเมื่อสร้างแบบจำลองแล้วตัวแปรในสมการไม่ใช่ตัวแปรในชุดข้อมูล แต่ตัวแปรในสมการนั้นเป็นความสำคัญหรือน้ำหนักของตัวแปรในการแยกตัวแปรตาม ! คำถามของฉันคือตอนนี้เราจะตีความรูปแบบหรือค่าสัมประสิทธิ์แบบจำลองได้อย่างไร ตัวอย่างเช่นสำหรับสมการต่อไปนี้: log(p1−p)=β0+β1x1log⁡(p1−p)=β0+β1x1 \log\bigg(\frac{p}{1-p}\bigg) = \beta_0 + \beta_1x_1 เราสามารถพูดได้ว่า เป็นเพิ่มขึ้นเมื่อเทียบกับในอัตราส่วนที่แปลกสำหรับ 1 เพิ่มขึ้นหน่วยในตัวแปร x_1x 1exp(β1)exp⁡(β1)\exp(\beta_1) x1x1x_1 แต่ถ้าตัวแปรถูกแทนที่ด้วย WoE แล้วการตีความจะถูกเปลี่ยนเป็น: การเพิ่มขึ้นของอัตราส่วนคี่สำหรับการเพิ่ม 1 หน่วยในความสำคัญ / น้ำหนักของตัวแปร ฉันได้เห็นการฝึกฝนนี้ในอินเทอร์เน็ต แต่ไม่มีที่ไหนที่ฉันพบคำตอบของคำถามนี้ ลิงก์นี้จากชุมชนนี้เองเกี่ยวข้องกับข้อความค้นหาที่คล้ายกันซึ่งมีคนเขียนไว้: WoE แสดงความสัมพันธ์เชิงเส้นกับลอการิทึมธรรมชาติของอัตราต่อรองซึ่งเป็นตัวแปรตามในการถดถอยโลจิสติก ดังนั้นคำถามของการสะกดผิดแบบไม่ได้เกิดขึ้นในการถดถอยโลจิสติกเมื่อเราใช้ WoE แทนค่าจริงของตัวแปร แต่ฉันก็ยังไม่ได้คำอธิบาย โปรดช่วยฉันเข้าใจสิ่งที่ฉันหายไป

4
วิธีการตีความโค้ง ROC?
ฉันใช้การถดถอยโลจิสติกกับข้อมูลของฉันบน SAS และนี่คือเส้นโค้ง ROC และตารางการจำแนก ฉันพอใจกับตัวเลขในตารางการจัดหมวดหมู่ แต่ไม่แน่ใจว่าเส้นโค้งและพื้นที่ใต้กราฟนั้นเป็นเท่าใด คำอธิบายใด ๆ ที่จะได้รับการชื่นชมอย่างมาก

3
คำดักจับในการถดถอยโลจิสติก
สมมติว่าเรามีโมเดลการถดถอยโลจิสติกต่อไปนี้: logit(p)=β0+β1x1+β2x2logit(p)=β0+β1x1+β2x2\text{logit}(p) = \beta_0+\beta_{1}x_{1} + \beta_{2}x_{2} คืออัตราต่อรองของเหตุการณ์ที่เกิดขึ้นเมื่อx 1 = 0และx 2 = 0 ? มันคืออัตราต่อรองของเหตุการณ์เมื่อx 1และx 2อยู่ที่ระดับต่ำสุด (แม้ว่าจะไม่ใช่ 0) ตัวอย่างเช่นถ้าx 1และx 2ใช้ค่า2และ3 เท่านั้นเราจะไม่สามารถตั้งค่าเป็น 0β0β0\beta_0x1=0x1=0x_1 = 0x2=0x2=0x_2=0x1x1x_1x2x2x_2x1x1x_1x2x2x_2222333

2
overdispersion ในการถดถอยโลจิสติก
ฉันพยายามจัดการกับแนวคิดของการกระจายเกินเหตุในการถดถอยโลจิสติก ฉันได้อ่านว่าการกระจายข้อความเกินขนาดนั้นเกิดขึ้นเมื่อความแปรปรวนที่สังเกตได้ของตัวแปรตอบกลับสูงกว่าที่คาดไว้จากการแจกแจงทวินาม แต่หากตัวแปรทวินามมีได้เพียงสองค่า (1/0) จะมีค่าเฉลี่ยและความแปรปรวนได้อย่างไร ฉันสบายดีกับการคำนวณค่าเฉลี่ยและความแปรปรวนของความสำเร็จจากการทดลองหมายเลข Bernoulli แต่ฉันไม่สามารถคาดเดาแนวคิดเรื่องค่าเฉลี่ยและความแปรปรวนของตัวแปรที่มีค่าได้สองค่าเท่านั้น ทุกคนสามารถให้ภาพรวมที่ใช้งานง่ายของ: แนวคิดของค่าเฉลี่ยและความแปรปรวนในตัวแปรที่สามารถมีได้สองค่าเท่านั้น แนวคิดของการกระจายเกินเหตุในตัวแปรที่มีได้เพียงสองค่า

1
การถดถอยโลจิสติกการเพิ่มความเป็นไปได้สูงสุดนั้นจำเป็นต้องเพิ่ม AUC ให้มากกว่าแบบจำลองเชิงเส้นหรือไม่
เมื่อได้รับชุดข้อมูลที่มีผลลัพธ์แบบไบนารีY∈ { 0 , 1 }ny∈{0,1}ny\in\{0,1\}^nและเมทริกซ์ตัวทำนายบางตัวX∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p}แบบจำลองการถดถอยแบบโลจิสติกมาตรฐานประมาณค่าสัมประสิทธิ์βMLEβMLE\beta_{MLE}ซึ่งเพิ่มความน่าจะเป็นทวินาม เมื่อXXXอยู่ในอันดับเต็มβMLEβMLE\beta_{MLE}นั้นมีเอกลักษณ์ เมื่อไม่มีการแยกที่สมบูรณ์แบบมันจะ จำกัด ไม่แบบนี้โอกาสสูงสุดยังเพิ่ม ROC AUC (aka ccc -statistic) หรือไม่มีอยู่ประมาณการค่าสัมประสิทธิ์บางβAUC≠βMLEβAUC≠βMLE\beta_{AUC} \neq \beta_{MLE}ซึ่งจะได้รับสูงกว่า ROC AUC? ถ้ามันเป็นความจริงที่ MLE ไม่จำเป็นต้องเพิ่ม ROC AUC ให้มากที่สุดอีกวิธีหนึ่งในการดูคำถามนี้คือ "มีทางเลือกอื่นในการเพิ่มความน่าจะเป็นซึ่งจะเพิ่ม ROC AUC สูงสุดของการถดถอยโลจิสติกเสมอหรือไม่" ฉันสมมติว่าแบบจำลองนั้นเหมือนกัน: เราไม่ได้เพิ่มหรือลบตัวทำนายในXXXหรือเปลี่ยนแปลงข้อกำหนดของแบบจำลองและฉันสมมติว่าแบบจำลองความน่าจะเป็นสูงสุดและ AUC-maximizing model กำลังใช้ฟังก์ชันลิงก์เดียวกัน

5
คำถามเชิงปรัชญาเกี่ยวกับการถดถอยโลจิสติก: เหตุใดค่าเกณฑ์ที่เหมาะสมที่สุดจึงไม่ผ่านการฝึกอบรม
โดยปกติแล้วในการถดถอยโลจิสติกเราพอดีแบบและได้รับการคาดการณ์ในชุดการฝึกอบรม จากนั้นเราจะตรวจสอบความถูกต้องของการคาดการณ์การฝึกอบรมเหล่านี้ (บางอย่างเช่นที่นี่ ) และตัดสินใจค่าเกณฑ์ที่เหมาะสมโดยพิจารณาจาก ROC curve ทำไมเราไม่รวมการตรวจสอบข้ามเขตแดนเข้ากับรูปแบบที่แท้จริงและฝึกอบรมทุกสิ่งตั้งแต่ต้นจนจบ

2
เกณฑ์การตัดสินใจเป็นพารามิเตอร์ในการถดถอยโลจิสติกหรือไม่
คลาสที่ถูกทำนายจากการถดถอยโลจิสติก (ไบนารี) ถูกกำหนดโดยใช้ขีด จำกัด บนความน่าจะเป็นสมาชิกคลาสที่สร้างโดยโมเดล ตามที่เข้าใจแล้วปกติแล้ว 0.5 จะถูกใช้เป็นค่าเริ่มต้น แต่การเปลี่ยนเกณฑ์จะเปลี่ยนการจำแนกประเภทที่คาดการณ์ไว้ สิ่งนี้หมายความว่าขีด จำกัด คือพารามิเตอร์มากเกินไปหรือไม่ หากเป็นเช่นนั้นเหตุใดจึงไม่สามารถค้นหากริดเกณฑ์ได้อย่างง่ายดายโดยใช้วิธีการของ scikit-Learn GridSearchCV(เช่นเดียวกับที่คุณทำกับพารามิเตอร์การทำให้เป็นมาตรฐานC)

2
เหตุใดนักวิจัยในสาขาเศรษฐศาสตร์จึงใช้การถดถอยเชิงเส้นสำหรับตัวแปรตอบสนองแบบไบนารี
เมื่อเร็ว ๆ นี้ฉันต้องอ่านบทความทางเศรษฐศาสตร์หลายฉบับ (สาขาที่ฉันไม่คุ้นเคย) สิ่งหนึ่งที่ฉันสังเกตเห็นคือแม้ว่าตัวแปรตอบสนองจะเป็นแบบไบนารี่ แต่โมเดลการถดถอยเชิงเส้นที่ใช้ OLS นั้นเป็นที่แพร่หลาย คำถามของฉันคือ: เหตุใดการถดถอยเชิงเส้นจึงได้รับการสนับสนุนเช่นการถดถอยโลจิสติกส์ในสาขาเศรษฐศาสตร์ นี่เป็นวิธีปฏิบัติทั่วไปหรือเป็นขั้นตอนที่ได้รับการสนับสนุนอย่างแข็งขัน (ในเอกสารโดยอาจารย์และอื่น ๆ )? โปรดทราบว่าฉันไม่ได้ถามว่าทำไมการใช้การถดถอยเชิงเส้นกับการตอบกลับแบบไบนารีอาจเป็นความคิดที่ไม่ดีหรือวิธีการทางเลือกอื่นคืออะไร ในทางตรงกันข้ามฉันถามว่าทำไมผู้คนใช้การถดถอยเชิงเส้นในการตั้งค่านี้เพราะฉันรู้คำตอบของคำถามทั้งสองนี้

1
อะไรคือความแตกต่างระหว่างการถดถอยโลจิสติกและการถดถอยการตอบสนองแบบเศษส่วน?
เท่าที่ฉันทราบความแตกต่างระหว่างตัวแบบโลจิสติกและตัวแบบการตอบสนองแบบเศษส่วน (frm) คือตัวแปรตาม (Y) ซึ่ง frm คือ [0,1] แต่โลจิสติกคือ {0, 1} นอกจากนี้ frm ใช้ตัวประมาณค่าความน่าจะเป็นในการกำหนดพารามิเตอร์ โดยปกติเราสามารถใช้เพื่อให้ได้รูปแบบโลจิสติกโดยglmglm(y ~ x1+x2, data = dat, family = binomial(logit)) สำหรับ FRM เราเปลี่ยนไป family = binomial(logit)family = quasibinomial(logit) ฉันสังเกตเห็นว่าเรายังสามารถใช้family = binomial(logit)เพื่อรับพารามิเตอร์ของ frm เพราะมันให้ค่าประมาณเดียวกัน ดูตัวอย่างต่อไปนี้ library(foreign) mydata <- read.dta("k401.dta") glm.bin <- glm(prate ~ mrate + age + sole …

1
การประเมินรูปแบบการถดถอยโลจิสติก
ฉันกำลังทำงานกับโมเดลโลจิสติกส์และฉันมีปัญหาในการประเมินผลลัพธ์ โมเดลของฉันเป็น logom ทวินาม ตัวแปรอธิบายของฉันคือ: ตัวแปรเด็ดขาดที่มี 15 ระดับตัวแปร dichotomous และ 2 ตัวแปรต่อเนื่อง My N มีขนาดใหญ่> 8000 ฉันพยายามจำลองการตัดสินใจของ บริษัท ที่จะลงทุน ตัวแปรตามคือการลงทุน (ใช่ / ไม่ใช่) ตัวแปรระดับ 15 เป็นอุปสรรคที่แตกต่างกันสำหรับการลงทุนที่รายงานโดยผู้จัดการ ตัวแปรที่เหลือคือการควบคุมการขายเครดิตและกำลังการผลิตที่ใช้ ด้านล่างคือผลลัพธ์ของฉันโดยใช้rmsแพ็คเกจใน R Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 8035 LR chi2 399.83 R2 0.067 C 0.632 1 5306 d.f. …

1
การคำนวณ ICC สำหรับการถดถอยโลจิสติกส์แบบสุ่มผลกระทบ
ฉันใช้รูปแบบการถดถอยโลจิสติกในรูปแบบ: lmer(response~1+(1|site), family=binomial, REML = FALSE) โดยปกติฉันจะคำนวณ ICC จากการสกัดกั้นและผลต่างที่เหลือ แต่การสรุปของโมเดลไม่รวมความแปรปรวนที่เหลือ ฉันจะคำนวณสิ่งนี้ได้อย่างไร

1
ทำความเข้าใจเกี่ยวกับการทำนายจากการถดถอยโลจิสติก
การคาดการณ์ของฉันมาจากแบบจำลองการถดถอยโลจิสติก (glm ใน R) ไม่ได้ล้อมรอบระหว่าง 0 ถึง 1 เหมือนที่ฉันคาดไว้ ความเข้าใจของฉันเกี่ยวกับการถดถอยโลจิสติกคือพารามิเตอร์อินพุตและโมเดลของคุณรวมกันเป็นเส้นตรงและการตอบสนองจะเปลี่ยนเป็นความน่าจะเป็นโดยใช้ฟังก์ชั่นลิงค์ logit เนื่องจากฟังก์ชั่น logit มีขอบเขตระหว่าง 0 ถึง 1 ฉันคาดว่าการคาดการณ์ของฉันจะถูกล้อมรอบระหว่าง 0 ถึง 1 อย่างไรก็ตามนั่นไม่ใช่สิ่งที่ฉันเห็นเมื่อฉันใช้การถดถอยโลจิสติกใน R: data(iris) iris.sub <- subset(iris, Species%in%c("versicolor","virginica")) model <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, family = binomial(link = "logit")) hist(predict(model)) หากสิ่งใดผลลัพธ์ของการทำนาย (รุ่น) ดูเป็นเรื่องปกติสำหรับฉัน ใครสามารถอธิบายให้ฉันฟังได้ว่าทำไมค่าที่ฉันได้รับไม่ใช่ความน่าจะเป็น

2
ปัวซองกับการถดถอยโลจิสติก
ฉันมีกลุ่มคนไข้ที่มีระยะเวลาการติดตามผลต่างกัน จนถึงตอนนี้ฉันไม่สนใจแง่มุมเวลาและเพียงแค่ต้องการสร้างแบบจำลองผลลัพธ์ไบนารีโรค - / ไม่มีโรค ฉันมักจะถดถอยโลจิสติกในการศึกษาเหล่านี้ แต่เพื่อนร่วมงานอีกคนของฉันถามว่าปัวซองการถดถอยจะเหมาะสมหรือไม่ ฉันไม่ได้อยู่ในปัวส์ซองและไม่แน่ใจว่าประโยชน์และข้อเสียของการทำปัวซองในสภาพแวดล้อมแบบนี้จะเปรียบเทียบการถดถอยโลจิสติกได้อย่างไร ฉันอ่านการถดถอยปัวซงเพื่อประเมินความเสี่ยงสัมพัทธ์สำหรับผลลัพธ์ไบนารีและฉันยังคงไม่แน่ใจว่าเป็นข้อดีของการถดถอยปัวซองในสถานการณ์นี้

1
ใช้วิธีการทั่วไปของช่วงเวลา (GMM) ในการคำนวณพารามิเตอร์การถดถอยโลจิสติก
ฉันต้องการคำนวณค่าสัมประสิทธิ์การถดถอยที่คล้ายกับการถดถอยแบบลอจิสติก (จริง ๆ แล้วการถดถอยแบบโลจิสติกที่มีสัมประสิทธิ์อื่น: เมื่อได้รับ ) ฉันคิดว่าจะใช้ GMM เพื่อคำนวณค่าสัมประสิทธิ์ แต่ฉันไม่แน่ใจว่าควรใช้เงื่อนไขใดในขณะนี้AA1 + e- ( b0+ b1x1+ b2x2+ … ),A1+e−(b0+b1x1+b2x2+…), \frac{A}{1 + e^{- (b_0 + b_1 x_1 + b_2 x_2 + \ldots)}},AAA มีใครช่วยฉันได้บ้าง ขอบคุณ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.