คำถามติดแท็ก logistic

โดยทั่วไปหมายถึงกระบวนการทางสถิติที่ใช้ฟังก์ชันลอจิสติกซึ่งเป็นรูปแบบต่าง ๆ ส่วนใหญ่ของการถดถอยโลจิสติก

1
ฉันควรเลือกรูปแบบการถดถอยแบบ Bootstrapped
ฉันมีรูปแบบการถดถอยโลจิสติกแบบไบนารีที่มี DV (โรค: ใช่ / ไม่ใช่) และ 5 ตัวทำนาย (ประชากร [อายุ, เพศ, การสูบบุหรี่ (ใช่ / ไม่ใช่)], ดัชนีทางการแพทย์ (ลำดับ) และหนึ่งการรักษาแบบสุ่ม [ใช่ / ไม่ใช่ ]) ฉันได้ทำแบบจำลองเงื่อนไขการโต้ตอบสองด้านทั้งหมดเช่นกัน ตัวแปรหลักอยู่กึ่งกลางและไม่มีสัญลักษณ์ของความสัมพันธ์หลายระดับ (VIF ทั้งหมด <2.5) ฉันมีคำถาม: การบูตสแตรปมีประโยชน์เหนือรุ่นเดียวของฉันหรือไม่ ถ้าเป็นเช่นนั้น ฉันควรเลือกรุ่น bootstrapped ใด ฉันแค่อยากจะดูว่าอัลกอริทึมการบูตสแตรปทำตามวิธีการสุ่มสำหรับการสร้างตัวอย่างใหม่หรือไม่หรือว่าพวกมันมีอัลกอริธึมที่เข้มงวด ดังนั้นฉันจึงลองใหม่อีกครั้ง 1,000 ครั้งในแต่ละครั้ง (ดังนั้นฉันจึงมีโมเดล bootstrapped หลายแบบแต่ละอันมีการทดลอง 1,000 ครั้ง) อย่างไรก็ตามแต่ละครั้งที่ค่าสัมประสิทธิ์ของรุ่น bootstrapped แตกต่างกัน (แม้ว่าจำนวนการทดลองจะ 1,000 ครั้งอย่างต่อเนื่อง) ดังนั้นฉันสงสัยว่าฉันควรเลือกอันไหนสำหรับรายงานของฉัน …

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

4
ฉันสามารถคำนวณเพียร์สันสถิติทดสอบสำหรับการขาดความพอดีกับรูปแบบการถดถอยโลจิสติกใน R?
อัตราส่วนความน่าจะเป็น (การเบี่ยงเบน aka)สถิติและการทดสอบแบบไม่พอดี (หรือความดีของความพอดี) นั้นค่อนข้างตรงไปตรงมาที่จะได้รับแบบจำลองการถดถอยแบบโลจิสติก (พอดีกับการใช้งาน) ในอาร์ ง่ายที่จะให้จำนวนเซลล์บางส่วนสิ้นสุดต่ำพอที่การทดสอบจะไม่น่าเชื่อถือ วิธีหนึ่งในการตรวจสอบความน่าเชื่อถือของการทดสอบอัตราส่วนความน่าจะเป็นสำหรับการขาดความพอดีคือการเปรียบเทียบสถิติการทดสอบและP- value กับการทดสอบไคสแควร์ของ Pearson (หรือ ) การทดสอบแบบไม่พอดีG2G2G^2glm(..., family = binomial)χ2χ2\chi^2 ทั้งglmวัตถุและsummary()วิธีการรายงานสถิติการทดสอบสำหรับการทดสอบไคสแควร์ของเพียร์สันสำหรับการขาดความพอดี ในการค้นหาของฉันสิ่งเดียวที่ฉันคิดไว้คือchisq.test()ฟังก์ชั่น (ในstatsแพ็คเกจ): เอกสารประกอบของมันบอกว่า " chisq.testทำการทดสอบตารางฉุกเฉินแบบไคสแควร์และการทดสอบความดีแบบพอดี" อย่างไรก็ตามเอกสารประกอบกระจัดกระจายในวิธีการทดสอบดังกล่าว: ถ้าxเป็นเมทริกซ์ที่มีหนึ่งแถวหรือคอลัมน์หรือถ้าxเป็นเวกเตอร์และyไม่ได้ให้ไว้จะทำการทดสอบความดี - พอดี ( xถือว่าเป็นตารางฉุกเฉินหนึ่งมิติ) รายการของxต้องเป็นจำนวนเต็มที่ไม่เป็นลบ ในกรณีนี้สมมติฐานที่ทดสอบคือความน่าจะเป็นของประชากรเท่ากับpหรือไม่เท่ากันทั้งหมดหากpไม่ได้รับ ฉันคิดว่าคุณสามารถใช้yส่วนประกอบของglmวัตถุสำหรับข้อโต้แย้งของx chisq.testอย่างไรก็ตามคุณไม่สามารถใช้fitted.valuesองค์ประกอบของglmวัตถุสำหรับการpโต้แย้งchisq.testเพราะคุณจะได้รับข้อผิดพลาด: " probabilities must sum to 1." อย่างน้อยฉันจะ (ใน R) คำนวณสถิติการทดสอบPearsonสำหรับการขาดความฟิตโดยไม่ต้องทำตามขั้นตอนด้วยตนเองได้อย่างไรχ2χ2\chi^2

2
แบบจำลองอนุกรมเวลาสำหรับการคาดการณ์เปอร์เซ็นต์ที่ผูกมัดด้วย (0,1) คืออะไร
สิ่งนี้จะต้องเกิดขึ้น --- การคาดการณ์ของสิ่งต่าง ๆ ที่ติดอยู่ระหว่าง 0 ถึง 1 ในซีรีส์ของฉันฉันสงสัยว่าองค์ประกอบการถดถอยอัตโนมัติและยังเป็นองค์ประกอบการคืนค่าเฉลี่ยดังนั้นฉันต้องการสิ่งที่ฉันสามารถตีความเหมือน ARIMA --- แต่ฉันไม่ต้องการให้มันยิงออกไปถึง 1,000% ในอนาคต . คุณเพิ่งใช้โมเดล ARIMA เป็นพารามิเตอร์ในการถดถอยโลจิสติกส์เพื่อ จำกัด ผลลัพธ์ระหว่าง 0 และ 1 หรือไม่ หรือฉันได้เรียนรู้ที่นี่ว่าการถดถอยเบต้าเหมาะสำหรับข้อมูล (0,1) มากกว่า ฉันจะใช้สิ่งนี้กับอนุกรมเวลาได้อย่างไร มีแพ็คเกจ R หรือฟังก์ชัน Matlab ที่เหมาะสมและคาดการณ์ได้ง่ายหรือไม่?

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
AUC ในการถดถอยโลจิสติกอันดับ
ฉันใช้การถดถอยโลจิสติก 2 ชนิด - ชนิดหนึ่งเป็นแบบง่ายสำหรับการจำแนกไบนารีและอีกประเภทหนึ่งคือการถดถอยโลจิสติกอันดับ สำหรับการคำนวณความแม่นยำของครั้งแรกฉันใช้การตรวจสอบความถูกต้องข้ามซึ่งฉันคำนวณ AUC สำหรับแต่ละเท่าและกว่าการคำนวณ AUC เฉลี่ย ฉันจะทำอย่างไรสำหรับการถดถอยโลจิสติกอันดับ ฉันได้ยินเกี่ยวกับ ROC ทั่วไปสำหรับเครื่องมือทำนายหลายระดับ แต่ฉันไม่แน่ใจว่าจะคำนวณได้อย่างไร ขอบคุณ!

2
"ปฏิเสธการอนุมาน" คืออะไรและจะใช้เพื่อเพิ่มความแม่นยำของแบบจำลองได้อย่างไร
ใครช่วยอธิบายรายละเอียดได้: การปฏิเสธการอนุมานหมายความว่าอย่างไร จะใช้เพื่อเพิ่มความแม่นยำของแบบจำลองของฉันได้อย่างไร ฉันมีความคิดที่จะปฏิเสธการอนุมานในการสมัครบัตรเครดิต แต่ต้องดิ้นรนกับความคิดที่จะใช้มันเพื่อเพิ่มความแม่นยำของแบบจำลองของฉัน
10 logistic 

1
วิธีจัดการกับคำถามสำรวจความคิดเห็นที่มีหลายคำตอบ
ฉันมีชุดข้อมูลถามผู้คนว่าพวกเขาเคยไปสถานที่ต่าง ๆ (เช่น A, B, C, D) และพวกเขาสามารถเลือกได้มากกว่าหนึ่งตัวเลือกจากนั้นตัวอย่างจะถูกนำมาจากจมูกของพวกเขาเพื่อดูว่าพวกเขาติดเชื้อ โรค. ฉันต้องหาความเสี่ยงสัมพัทธ์ของการติดเชื้อสำหรับคนที่ไปสถานที่หนึ่งฉันสามารถนึกถึงการถดถอยโลจิสติกส์ตอนนี้มีคำแนะนำอื่น ๆ อีกไหม? ขอบคุณ
10 logistic 

1
เอาต์พุตของโมเดลโลจิสติกใน R
ฉันพยายามตีความโมเดลโลจิสติกส์ประเภทต่อไปนี้: mdl <- glm(c(suc,fail) ~ fac1 + fac2, data=df, family=binomial) ผลลัพธ์ของpredict(mdl)อัตราความสำเร็จที่คาดหวังสำหรับแต่ละจุดข้อมูลเป็นเท่าใด มีวิธีง่าย ๆ ในการกำหนดอัตราเดิมพันสำหรับแต่ละระดับของโมเดลแทนที่จะเป็นจุดข้อมูลทั้งหมดหรือไม่

3
วิธีลดตัวทำนายวิธีที่ถูกต้องสำหรับตัวแบบการถดถอยโลจิสติก
ดังนั้นฉันจึงได้อ่านหนังสือบางเล่ม (หรือบางส่วนของพวกเขา) เกี่ยวกับการสร้างแบบจำลอง (กลยุทธ์การสร้างแบบจำลองการถดถอยของเอฟแฮร์เรลล์ในกลุ่มอื่น ๆ ) เนื่องจากสถานการณ์ปัจจุบันของฉันตอนนี้คือฉันต้องทำแบบจำลองโลจิสติกส์ ฉันมีทั้งข้อมูลอย่างต่อเนื่องหมวดหมู่และไบนารี (ตัวทำนาย) ในชุดข้อมูลของฉัน โดยพื้นฐานแล้วฉันมีผู้ทำนายประมาณ 100 คนในตอนนี้ซึ่งเห็นได้ชัดว่ามากเกินไปสำหรับแบบจำลองที่ดี นอกจากนี้ตัวทำนายหลายตัวเหล่านี้มีความสัมพันธ์กันเนื่องจากพวกเขามักจะอยู่บนพื้นฐานของตัวชี้วัดเดียวกันแม้ว่าจะแตกต่างกันเล็กน้อย อย่างไรก็ตามสิ่งที่ฉันได้อ่านโดยใช้เทคนิคการถดถอยแบบไม่รวมตัวแปรและขั้นตอนที่ชาญฉลาดเป็นสิ่งที่แย่ที่สุดที่คุณสามารถทำได้เพื่อลดจำนวนผู้ทำนาย ฉันคิดว่าเทคนิค LASSO นั้นค่อนข้างโอเค (ถ้าฉันเข้าใจถูกต้อง) แต่เห็นได้ชัดว่าคุณไม่สามารถใช้สิ่งนี้กับผู้ทำนาย 100 คนและคิดว่าจะมีประโยชน์อะไรเกิดขึ้น ดังนั้นสิ่งที่ตัวเลือกของฉันอยู่ที่นี่? ฉันต้องนั่งคุยกับหัวหน้างานของฉันและคนฉลาดในที่ทำงานจริง ๆ หรือไม่และคิดว่าตัวพยากรณ์ที่ดีที่สุด 5 อันดับแรกควรเป็น / หรือ (เราอาจจะผิด) หรือฉันควรจะใช้วิธีใด พิจารณาแทนไหม และใช่ฉันยังรู้ว่าหัวข้อนี้มีการกล่าวถึงอย่างมาก (ออนไลน์และในหนังสือ) แต่บางครั้งดูเหมือนว่าจะค่อนข้างล้นหลามเมื่อคุณเป็นคนใหม่ในสาขาการสร้างแบบจำลองนี้ แก้ไข: ก่อนอื่นขนาดตัวอย่างของฉันคือ +1000 ผู้ป่วย (ซึ่งมีจำนวนมากในสาขาของฉัน) และจากจำนวนที่มีการตอบรับในเชิงบวกระหว่าง 70-170 (เช่น 170 ใช่การตอบสนองเทียบกับประมาณ 900 ไม่มีการตอบสนองในกรณีใดกรณีหนึ่ง) . โดยพื้นฐานแล้วแนวคิดคือการทำนายความเป็นพิษหลังการรักษาด้วยรังสี …

2
เหตุใดการถดถอยของโลจิสติกจึงถูกสอบเทียบอย่างดีและจะทำลายการสอบเทียบได้อย่างไร
ใน Scikit เรียนรู้เอกสารเกี่ยวกับการสอบเทียบความน่าจะเป็นพวกเขาเปรียบเทียบการถดถอยโลจิสติกกับวิธีการอื่นและสังเกตว่าป่าสุ่มมีการสอบเทียบน้อยกว่าการถดถอยโลจิสติก เหตุใดการปรับเทียบการถดถอยโลจิสติกจึงดี หนึ่งจะทำลายการสอบเทียบของการถดถอยโลจิสติกได้อย่างไร (ไม่ใช่ว่าจะต้องการ - เหมือนการออกกำลังกาย)


3
การถดถอยลอจิสติกส์การถดถอยที่เหลือจากการถดถอยอื่น ๆ
ด้วยการถดถอย OLS นำไปใช้กับการตอบสนองอย่างต่อเนื่องเราสามารถสร้างสมการการถดถอยแบบหลายสมการได้ คำถามของฉันคือมีวิธีทำเช่นนี้กับการถดถอยโลจิสติกผ่านเศษเหลือการถดถอยโลจิสติก ? นั่นคือถ้าฉันต้องการประมาณโดยใช้วิธีการสร้างแบบจำลองเชิงเส้นแบบมาตรฐานทั่วไปมีวิธีเรียกใช้การถดถอยแบบลอจิสติกกับxและรับ pseudo-residuals R_1จากนั้นถดถอยR_1บนzถึง รับตัวประมาณค่าสัมประสิทธิ์การถดถอยโลจิสติก การอ้างอิงถึงตำราหรือวรรณกรรมจะได้รับการชื่นชมPr ( Y= 1 | x , z)Pr(Y=1|x,z)\Pr(Y = 1 | x, z)xxxR1R1R_1R1R1R_1Zzz

1
เหตุใดช่วงเวลาที่น่าเชื่อถือของเบย์ในการถดถอยพหุนามนี้จึงเอนเอียงในขณะที่ช่วงความเชื่อมั่นนั้นถูกต้อง
พิจารณาพล็อตด้านล่างที่ฉันจำลองข้อมูลดังนี้ เราดูผลลัพธ์แบบไบนารีซึ่งความน่าจะเป็นที่แท้จริงที่จะเป็น 1 ถูกระบุด้วยเส้นสีดำ ความสัมพันธ์การทำงานระหว่าง covariateและคือพหุนามลำดับที่ 3 ที่มีลิงค์โลจิสติก (ดังนั้นจึงไม่ใช่เชิงเส้นในสองทาง)Yo b sYโอขsy_{obs}xxxp (Yo b s= 1 | x )พี(Yโอขs=1|x)p(y_{obs}=1 | x) เส้นสีเขียวคือการถดถอยโลจิสติก GLM โดยที่ถูกนำมาใช้เป็นพหุนามลำดับที่ 3 เส้นสีเขียวประคือช่วงความมั่นใจ 95% รอบการคาดการณ์โดยที่สัมประสิทธิ์การถดถอยที่พอดี ฉันใช้และสำหรับสิ่งนี้xxxp (Yo b s= 1 | x ,β^)พี(Yโอขs=1|x,β^)p(y_{obs}=1 | x, \hat{\beta})β^β^\hat{\beta}R glmpredict.glm บรรทัด pruple เป็นค่าเฉลี่ยของช่วงหลังที่น่าเชื่อถือ 95% สำหรับของแบบจำลองการถดถอยโลจิสติกแบบเบย์โดยใช้เครื่องแบบก่อนหน้า ฉันใช้แพคเกจพร้อมฟังก์ชั่นสำหรับสิ่งนี้ (การตั้งค่าให้ความรู้เบื้องต้นที่ไม่เหมือนกันมาก่อน)p (Yo b s= 1 …

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.