คำถามติดแท็ก logistic

โดยทั่วไปหมายถึงกระบวนการทางสถิติที่ใช้ฟังก์ชันลอจิสติกซึ่งเป็นรูปแบบต่าง ๆ ส่วนใหญ่ของการถดถอยโลจิสติก

3
การแปลความหมายของตัวทำนายการเปลี่ยนแปลงของ log ในการถดถอยโลจิสติก
หนึ่งในตัวทำนายในโมเดลโลจิสติกของฉันได้รับการแปลงสภาพ คุณจะตีความค่าสัมประสิทธิ์โดยประมาณของตัวทำนายการแปลงที่บันทึกไว้ได้อย่างไรและคุณจะคำนวณผลกระทบของตัวทำนายนั้นในอัตราต่อรองได้อย่างไร
15 logistic 

2
การคำนวณช่วงความมั่นใจสำหรับการถดถอยโลจิสติก
ฉันใช้การถดถอยโลจิสติกแบบทวินามเพื่อระบุว่าการสัมผัสhas_xหรือhas_yส่งผลกระทบต่อโอกาสที่ผู้ใช้จะคลิกบนบางสิ่ง โมเดลของฉันมีดังต่อไปนี้: fit = glm(formula = has_clicked ~ has_x + has_y, data=df, family = binomial()) นี่คือผลลัพธ์จากรุ่นของฉัน: Call: glm(formula = has_clicked ~ has_x + has_y, family = binomial(), data = active_domains) Deviance Residuals: Min 1Q Median 3Q Max -0.9869 -0.9719 -0.9500 1.3979 1.4233 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) …

1
การถดถอยโลจิสติก glmnet สามารถจัดการตัวแปรตัวประกอบ (หมวดหมู่) ได้โดยตรงโดยไม่ต้องใช้ตัวแปรจำลองหรือไม่? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน3 ปีที่ผ่านมา ฉันกำลังสร้างการถดถอยโลจิสติกใน R โดยใช้วิธี LASSO ด้วยฟังก์ชั่นcv.glmnetสำหรับการเลือกlambdaและglmnetสำหรับรุ่นสุดท้าย ฉันรู้ข้อเสียทั้งหมดเกี่ยวกับการเลือกรุ่นอัตโนมัติแล้ว แต่ฉันต้องทำต่อไป ปัญหาของฉันคือฉันต้องรวมตัวแปรปัจจัย (หมวดหมู่) ในแบบจำลองมีวิธีใดที่จะทำได้โดยไม่ต้องสร้างตัวแปรจำลองจำนวนมากหรือไม่ ตัวแปรนี้เกือบทุกสายและไม่ใช่ตัวเลข

2
เราสามารถใช้ตัวแปรอิสระอย่างเด็ดขาดในการวิเคราะห์จำแนกหรือไม่?
ในการวิเคราะห์จำแนกจำแนกตัวแปรตามเป็นหมวด แต่ฉันสามารถใช้ตัวแปรเด็ดขาด (เช่นสถานะที่อยู่อาศัย: ชนบทเมือง) พร้อมกับตัวแปรต่อเนื่องอื่น ๆ เป็นตัวแปรอิสระในการวิเคราะห์จำแนกเชิงเส้น?

1
จาก exp (สัมประสิทธิ์) ถึงอัตราต่อรองและการตีความใน Logistic Regression พร้อมปัจจัย
ฉันใช้การถดถอยเชิงเส้นตรงของการยอมรับเข้าเรียนในวิทยาลัยกับคะแนน SAT และภูมิหลังของครอบครัว / ชาติพันธุ์ ข้อมูลเป็นตัวละคร นี่คือการติดตามคำถามก่อนหน้านี้ตอบแล้ว คำถามที่มุ่งเน้นในการรวบรวมและการตีความอัตราส่วนอัตราต่อรองเมื่อออกจาก SAT คะแนนกันเพื่อความเรียบง่าย ตัวแปรคือAccepted(0 หรือ 1) และBackground("red" หรือ "blue") ฉันตั้งค่าข้อมูลเพื่อให้ผู้คนในพื้นหลัง "สีแดง" มีแนวโน้มที่จะเข้าไป: fit <- glm(Accepted~Background, data=dat, family="binomial") exp(cbind(Odds_Ratio_RedvBlue=coef(fit), confint(fit))) Odds_Ratio_RedvBlue 2.5 % 97.5 % (Intercept) 0.7088608 0.5553459 0.9017961 Backgroundred 2.4480042 1.7397640 3.4595454 คำถาม: 0.7 เป็นอัตราส่วนที่ผิดปกติของบุคคลที่มีพื้นหลังเป็น "สีน้ำเงิน" หรือไม่? ฉันถามสิ่งนี้เพราะฉันได้รับ 0.7 " Backgroundblue" ถ้าฉันเรียกใช้รหัสต่อไปนี้แทน: fit …
14 r  regression  logistic 

3
สัมประสิทธิ์การถดถอยโลจิสติกมีความหมายหรือไม่?
ฉันมีปัญหาการจำแนกเลขฐานสองจากคุณสมบัติหลายอย่าง สัมประสิทธิ์ของการถดถอยโลจิสติก (ทำให้เป็นปกติ) มีความหมายที่ตีความได้หรือไม่? ฉันคิดว่าพวกเขาสามารถระบุขนาดของอิทธิพลได้เนื่องจากฟีเจอร์นั้นได้รับการปรับให้เป็นมาตรฐานล่วงหน้า อย่างไรก็ตามในปัญหาของฉันค่าสัมประสิทธิ์ดูเหมือนจะขึ้นอยู่กับคุณสมบัติที่ฉันเลือก แม้แต่สัญลักษณ์ของสัมประสิทธิ์ก็เปลี่ยนไปด้วยชุดคุณสมบัติที่แตกต่างกันซึ่งเลือกเป็นอินพุต มันสมเหตุสมผลหรือไม่ที่จะตรวจสอบคุณค่าของสัมประสิทธิ์และวิธีที่ถูกต้องในการค้นหาสัมประสิทธิ์ที่มีความหมายมากที่สุดและระบุความหมายด้วยคำพูดคืออะไร? มีบางรุ่นที่ติดตั้งและสัญลักษณ์ของสัมประสิทธิ์ของพวกเขาไม่ถูกต้อง - แม้ว่าพวกเขาเรียงลำดับข้อมูลพอดี? (ความสัมพันธ์สูงสุดที่ฉันมีระหว่างฟีเจอร์ต่าง ๆ มีเพียง 0.25 แต่นั่นมีบทบาทอย่างแน่นอน?)

2
ความสัมพันธ์ระหว่างการทดสอบของ McNemar กับการถดถอยโลจิสติกตามเงื่อนไข
ฉันสนใจในการสร้างแบบจำลองของข้อมูลการตอบสนองแบบไบนารีในการสังเกตคู่ เราตั้งเป้าหมายที่จะทำการอนุมานเกี่ยวกับประสิทธิผลของการแทรกแซงก่อนการโพสต์ในกลุ่มอาจปรับเปลี่ยนสำหรับ covariates หลายคนและพิจารณาว่ามีการแก้ไขผลกระทบโดยกลุ่มที่ได้รับการฝึกอบรมที่แตกต่างกันโดยเฉพาะอย่างยิ่งเป็นส่วนหนึ่งของการแทรกแซง รับข้อมูลของแบบฟอร์มต่อไปนี้: id phase resp 1 pre 1 1 post 0 2 pre 0 2 post 0 3 pre 1 3 post 0 และตารางฉุกเฉินของข้อมูลที่ตอบสนองต่อการจับคู่:2 × 22×22 \times 2 เสาแก้ไขไม่ถูกต้องPreแก้ไขaคไม่ถูกต้องขdPreแก้ไขไม่ถูกต้องเสาแก้ไขaขไม่ถูกต้องคd\begin{array}{cc|cc} & & \mbox{Pre} & \\ & & \mbox{Correct} & \mbox{Incorrect} \\ \hline \mbox{Post} & \mbox{Correct} & a & …

2
ฉันสามารถใช้อัลกอริทึม glm เพื่อทำการถดถอยโลจิสติกพหุนาม
ฉันใช้สปอตไฟร์ (S ++) สำหรับการวิเคราะห์ทางสถิติในโครงการของฉันและฉันต้องเรียกใช้การถดถอยโลจิสติกหลายมิติสำหรับชุดข้อมูลขนาดใหญ่ ฉันรู้ว่าอัลกอริทึมที่ดีที่สุดจะเป็น mlogit แต่น่าเสียดายที่มันไม่สามารถใช้ได้ใน s ++ อย่างไรก็ตามฉันมีตัวเลือกในการใช้อัลกอริทึม glm สำหรับการถดถอยนี้ ฉันต้องการชี้แจงสองสิ่งที่นี่: 1. ความเข้าใจของฉันถูกต้องหรือไม่ที่ glm สามารถใช้ในการรัน Multinomial Logistic Regression ได้? หากตอบคำถามก่อนหน้านี้คือใช่แล้วพารามิเตอร์ใดที่ควรใช้ใน glm algo ขอบคุณ

2
คำถามเกี่ยวกับการถดถอยโลจิสติก
ฉันต้องการรันการถดถอยโลจิสติกแบบไบนารีเพื่อสร้างแบบจำลองการมีหรือไม่มีความขัดแย้ง (ตัวแปรตาม) จากชุดของตัวแปรอิสระในช่วง 10 ปี (1997-2006) โดยแต่ละปีมีการสังเกต 107 ครั้ง ที่ปรึกษาของฉันคือ: การเสื่อมสภาพของดิน (แบ่งเป็น 2 ประเภทคือการย่อยสลาย); จำนวนประชากรเพิ่มขึ้น (0- no; 1-yes); ประเภทการดำรงชีวิต (0 - ประเภทหนึ่ง; 1 - ประเภทสอง); ความหนาแน่นของประชากร (ความหนาแน่นสามระดับ); NDVIอย่างต่อเนื่อง (ผลผลิตสูงสุด veg); NDVI t - 1 (ลดลง veg จากปีก่อน - 0 - no; 1 -yes) และt - 1เสื้อ-1_{t-1} และ NDVI (การลดลงของ veg …

4
การเปรียบเทียบค่าสัมประสิทธิ์โลจิสติกส์ในแบบจำลองที่มีตัวแปรตามต่างกันหรือไม่
นี่คือติดตามคำถามจากคนที่ผมถามสองสามวันที่ผ่านมา ฉันรู้สึกว่ามันทำให้เกิดความเอียงที่แตกต่างในเรื่องนี้ดังนั้นจึงมีรายการคำถามใหม่ คำถามคือ: ฉันสามารถเปรียบเทียบขนาดของสัมประสิทธิ์ในแบบจำลองที่มีตัวแปรตามที่แตกต่างกันได้หรือไม่? ตัวอย่างเช่นในตัวอย่างเดียวบอกว่าฉันต้องการที่จะรู้ว่าเศรษฐกิจเป็นตัวทำนายผลโหวตที่แข็งแกร่งในสภาผู้แทนราษฎรหรือประธานาธิบดี ในกรณีนี้ตัวแปรตามสองตัวของฉันคือคะแนนในสภา (รหัส 1 สำหรับพรรคประชาธิปัตย์และ 0 สำหรับพรรครีพับลิกัน) และลงคะแนนให้ประธานาธิบดี (1 สำหรับพรรคประชาธิปัตย์และ 0 สำหรับพรรครีพับลิกัน) และตัวแปรอิสระของฉันคือเศรษฐกิจ ฉันคาดว่าจะได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติในสำนักงานทั้งสองแห่ง แต่ฉันจะประเมินได้อย่างไรว่าจะมีผลกระทบ 'ที่ใหญ่กว่า' ในอีกที่หนึ่งมากกว่าที่อื่น นี่อาจไม่ใช่ตัวอย่างที่น่าสนใจโดยเฉพาะ แต่ฉันอยากรู้ว่ามีวิธีเปรียบเทียบหรือไม่ ฉันรู้ว่าไม่มีใครสามารถดูขนาดของสัมประสิทธิ์ได้ ดังนั้น, การเปรียบเทียบสัมประสิทธิ์ของแบบจำลองที่มีตัวแปรตามต่างกันนั้นเป็นไปได้หรือไม่? และถ้าเป็นเช่นนั้นจะทำอย่างไร? หากสิ่งนี้ไม่สมเหตุสมผลโปรดแจ้งให้เราทราบ คำแนะนำและความคิดเห็นทั้งหมดได้รับการชื่นชม

2
มีสติถดถอยแบบขั้นตอน?
สมมติว่าฉันต้องการสร้างตัวจําแนกไบนารี ฉันมีคุณสมบัติหลายพันและตัวอย่างเพียงไม่กี่ 10s จากความรู้โดเมนผมมีเหตุผลที่ดีที่จะเชื่อว่าฉลากชั้นเรียนสามารถคาดการณ์ได้อย่างถูกต้องโดยใช้เพียงไม่กี่อย่าง แต่ผมไม่มีความคิดที่คน ฉันต้องการให้กฎการตัดสินใจขั้นสุดท้ายง่ายต่อการตีความ / อธิบายเพิ่มเติมโดยจำเป็นต้องมีคุณสมบัติจำนวนเล็กน้อย ชุดย่อยบางส่วนของคุณสมบัติของฉันมีความสัมพันธ์กันสูงดังนั้นการเลือกตัวเลือกทำนายที่น้อยที่สุดจะไม่ทำงาน ฉันยังต้องการที่จะสามารถทำการทดสอบสมมติฐานที่มีความหมายเกี่ยวกับคุณสมบัติของฉัน ขั้นตอนการถดถอยแบบขั้นตอนต่อไปนี้สมเหตุสมผลภายใต้เงื่อนไขเหล่านี้: เมื่อพิจารณาคุณลักษณะที่มีอยู่แล้วในโมเดล (หรือเพียงแค่การสกัดกั้นในการวนซ้ำครั้งแรก) ให้เลือกคุณลักษณะที่สร้างอัตราส่วนความน่าจะเป็นบันทึกที่ใหญ่ที่สุดเมื่อเพิ่มเข้ากับโมเดล ใช้อัตราส่วนการทดสอบไคสแควร์ในการคำนวณค่า P-value เล็กน้อยสำหรับการทดสอบสมมติฐานแต่ละครั้งที่ดำเนินการในการเลือกนี้ ค่า null ที่นี่คือการเพิ่มตัวแปรพิเศษเข้ากับโมเดลไม่มีความสามารถในการทำนายเพิ่มเติม ทางเลือกคือเพิ่มความสามารถในการทำนาย ปฏิบัติต่อสมมติฐานที่ทดสอบในขั้นตอนที่ 1 ของการวนซ้ำในแต่ละครอบครัวและคำนวณอัตราการค้นพบที่ผิดพลาดสำหรับค่า P-value ที่น้อยที่สุด (สำหรับสถานที่ที่เลือก) โดยใช้บางอย่างเช่น ไปที่ 1 เว้นแต่ว่าจะมีคุณสมบัติตรงตามเกณฑ์การหยุดบางอย่าง รายงานอัตราการค้นพบที่ผิดพลาดสำหรับฟีเจอร์แต่ละรายการ แต่ไม่ใช่ค่า P-value สำหรับโมเดลโดยรวม (เนื่องจากจะมีการขยายตัวอย่างมาก) การทดสอบค่า P ที่ถูกต้องแต่ละการทดสอบหลายรายการเหล่านี้แสดงถึงนัยสำคัญทางสถิติของคุณลักษณะนั้นซึ่งได้รับคุณสมบัติทั้งหมดที่เพิ่มไว้ก่อนหน้านี้ในโมเดล การทำสิ่งนี้ภายใต้สถานการณ์เหล่านี้ประสบความสำเร็จในการหลีกเลี่ยงการวิพากษ์วิจารณ์ทั่วไปของการถดถอยแบบขั้นตอนทั้งหมดหรือไม่? คำนวณอัตราการค้นพบที่ผิดด้วยวิธีนี้สมเหตุสมผลหรือไม่?

3
แพคเกจ R สำหรับการถดถอยโลจิสติกผลคงที่
ฉันกำลังมองหาRแพคเกจสำหรับการประมาณค่าสัมประสิทธิ์ของแบบจำลอง logit ที่มีผลกระทบคงที่ (การสกัดกั้นส่วนบุคคล) โดยใช้ตัวประมาณของ 1980 ของ Chamberlain เป็นที่รู้จักกันบ่อยในฐานะตัวประมาณค่า logit effect ของ Chamberlain มันเป็นเครื่องมือประมาณค่าแบบคลาสสิกเมื่อจัดการกับข้อมูลพาเนลผลลัพธ์แบบไบนารี (อย่างน้อยก็ในรูปเศรษฐมิติ) แต่ฉันไม่พบสิ่งใดที่เกี่ยวข้องกับมันใน CRAN เบาะแสใด ๆ

1
ความแตกต่างระหว่างแบบจำลองที่มีหรือไม่มีการสกัดกั้นในการถดถอยแบบโลจิสติกส์
ฉันชอบที่จะเข้าใจความแตกต่างระหว่างแบบจำลองที่มีหรือไม่มีการสกัดกั้นในการถดถอยโลจิสติก มีความแตกต่างระหว่างพวกเขายกเว้นว่ามีการสกัดกั้นค่าสัมประสิทธิ์พิจารณาล็อก (อัตราส่วนอัตราต่อรอง) เทียบกับกลุ่มพื้นฐานและไม่มีการสกัดกั้นพวกเขาถือว่าเป็นบันทึก (อัตราต่อรอง)? จากสิ่งที่ฉันได้เห็นสัมประสิทธิ์เหมือนกันในทั้งสองกรณี แต่ความสำคัญไม่เหมือนกันเสมอไปและไม่เข้าใจว่าทำไม .. จึงเป็นเช่นนั้นนอกจากนี้ในกรณีใดจะถูกต้องที่จะใช้แบบจำลองที่ไม่มีการสกัดกั้น? นี่คือแบบจำลองของฉัน: glm(NeverReturn ~ factor(Network) * TotalPrice , family = binomial)และฉันไม่แน่ใจเกี่ยวกับการสกัดกั้นออกหรือไม่เพราะที่ "คำจริง" ราคารวมไม่เกิน 50 แต่อย่างใด แต่ความน่าจะเป็นที่ 1 จะไม่เป็น 0 ดังนั้นฉันจึงสับสน

2
ผลลัพธ์ของการทำนายการถดถอยโลจิสติก
ฉันสร้าง Logistic Regression โดยใช้รหัสต่อไปนี้: full.model.f = lm(Ft_45 ~ ., LOG_D) base.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg) step(base.model.f, scope=list(upper=full.model.f, lower=~1), direction="forward", trace=FALSE) ฉันได้ใช้ผลลัพธ์เพื่อสร้างโมเดลสุดท้าย: final.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg + IP_util_E2_m02_flg + AE_NumVisit1_flg + OP_NumVisit1_m01_flg + IP_TotLoS_m02 + Ft1_45 + IP_util_E1_m05_flg + IP_TotPrNonElecLoS_m02 + IP_util_E2pl_m03_flg + LTC_coding + OP_NumVisit0105_m03_flg + OP_NumVisit11pl_m03_flg + AE_ArrAmb_m02_flg) …

2
R: ฟังก์ชั่น glm พร้อมตระกูล = ข้อมูลจำเพาะ "ทวินาม" และ "น้ำหนัก"
ฉันสับสนมากกับการทำงานของน้ำหนักใน glm กับครอบครัว = "ทวินาม" ในความเข้าใจของฉันความเป็นไปได้ของ glm กับครอบครัว = "ทวินาม" ระบุไว้ดังนี้: f(y)=(nny)pny(1−p)n(1−y)=exp(n[ylogp1−p−(−log(1−p))]+log(nny))f(y)=(nny)pny(1−p)n(1−y)=exp⁡(n[ylog⁡p1−p−(−log⁡(1−p))]+log⁡(nny)) f(y) = {n\choose{ny}} p^{ny} (1-p)^{n(1-y)} = \exp \left(n \left[ y \log \frac{p}{1-p} - \left(-\log (1-p)\right) \right] + \log {n \choose ny}\right) โดยที่yyyคือ "สัดส่วนของความสำเร็จที่สังเกต" และnnnคือจำนวนการทดลองที่ทราบ ในความเข้าใจของฉันความน่าจะเป็นที่จะประสบความสำเร็จpppถูกเปรียบเทียบกับสัมประสิทธิ์เชิงเส้นββ\betaเป็นp=p(β)p=p(β)p=p(\beta)และฟังก์ชัน glm กับครอบครัว = "ทวินาม" ค้นหา: argmaxβ∑ilogf(yi).argmaxβ∑ilog⁡f(yi). \textrm{arg}\max_{\beta} \sum_i \log f(y_i). ดังนั้นปัญหาการปรับให้เหมาะสมนี้สามารถทำให้ง่ายขึ้นเป็น: หาเรื่องสูงสุดβΣผมเข้าสู่ระบบฉ( yผม) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.