คำถามติดแท็ก logistic

โดยทั่วไปหมายถึงกระบวนการทางสถิติที่ใช้ฟังก์ชันลอจิสติกซึ่งเป็นรูปแบบต่าง ๆ ส่วนใหญ่ของการถดถอยโลจิสติก

1
การคำนวณช่วงการทำนายสำหรับการถดถอยโลจิสติก
ฉันต้องการที่จะเข้าใจวิธีการสร้างช่วงเวลาการทำนายสำหรับการประมาณการการถดถอยโลจิสติก ฉันได้รับคำแนะนำให้ทำตามขั้นตอนในการสร้างแบบจำลองข้อมูลไบนารีของ Collett , 2nd Ed p.98-99 หลังจากนำขั้นตอนนี้มาใช้และเปรียบเทียบกับ R ของpredict.glmจริง ๆ แล้วฉันคิดว่าหนังสือเล่มนี้แสดงขั้นตอนการคำนวณช่วงความเชื่อมั่นไม่ใช่ช่วงเวลาทำนาย การปฏิบัติตามขั้นตอนจาก Collett โดยเปรียบเทียบกับpredict.glmแสดงไว้ด้านล่าง ฉันต้องการทราบว่า: ฉันจะไปจากที่นี่เพื่อสร้างช่วงการทำนายแทนช่วงความมั่นใจได้อย่างไร #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed …

2
การถดถอยแบบทวินามและการถดถอยโลจิสติกต่างกันอย่างไร
ฉันคิดเสมอว่าการถดถอยแบบลอจิสติกเป็นเพียงกรณีพิเศษของการถดถอยแบบทวินามที่ฟังก์ชันลิงก์เป็นฟังก์ชันลอจิสติก (แทนที่จะพูดฟังก์ชั่น probit) จากการอ่านคำตอบสำหรับคำถามอื่นที่ฉันมีดูเหมือนว่าฉันอาจจะสับสนและมีความแตกต่างระหว่างการถดถอยโลจิสติกและการถดถอยแบบทวินามด้วยการเชื่อมโยงโลจิสติก ความแตกต่างคืออะไร?

3
วิธีการตั้งค่าและประเมินโมเดล logom แบบมัลติโนเมียลใน R
ฉันใช้โมเดล login แบบหลายมิติใน JMP และได้ผลลัพธ์กลับมาซึ่งรวมถึง AIC และค่า p-chi-squared สำหรับการประมาณพารามิเตอร์แต่ละตัว แบบจำลองมีผลลัพธ์เด็ดขาดหนึ่งรายการและมีคำอธิบายอย่างละเอียด 7 ข้อ ฉันพอดีกับสิ่งที่ฉันคิดว่าจะสร้างรูปแบบเดียวกันใน R โดยใช้multinomฟังก์ชั่นในแพ็คเกจnnet รหัสนั้นเป็นพื้น: fit1 <- multinom(y ~ x1+x2+...xn,data=mydata); summary(fit1); อย่างไรก็ตามทั้งสองให้ผลลัพธ์ที่แตกต่าง ด้วย JMP AIC คือ 2923.21 และnnet::multinomAIC คือ 3116.588 ดังนั้นคำถามแรกของฉันคือ: หนึ่งในรุ่นผิดหรือเปล่า? สิ่งที่สองคือ JMP ให้ค่า chi-squared สำหรับการประมาณการพารามิเตอร์แต่ละครั้งซึ่งฉันต้องการ การสรุปผลการทำงานบน multinom fit1ไม่ได้ - เพียงแค่ให้ค่าประมาณ, AIC และ Deviance คำถามที่สองของฉันคือ: มีวิธีรับค่า p สำหรับแบบจำลองและการประมาณค่าเมื่อใช้nnet::multinomหรือไม่ …
20 r  logistic  multinomial  logit  jmp 

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
วางแผนช่วงความมั่นใจสำหรับความน่าจะเป็นที่คาดการณ์ไว้จากการถดถอยโลจิสติก
ตกลงฉันมีการถดถอยโลจิสติกและใช้predict()ฟังก์ชั่นในการพัฒนาเส้นโค้งความน่าจะเป็นตามการประมาณการของฉัน ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") นี่เป็นสิ่งที่ดี แต่ฉันอยากรู้อยากเห็นเกี่ยวกับการวางแผนช่วงความมั่นใจสำหรับความน่าจะเป็น ฉันพยายามแล้วplot.ci()แต่ก็ไม่มีโชค ทุกคนสามารถชี้ให้ฉันเห็นวิธีการที่จะทำสิ่งนี้โดยเฉพาะอย่างยิ่งกับcarแพคเกจหรือฐานอาร์

2
สร้างแบบจำลองเชิงเส้นสำหรับอัตราส่วนเทียบกับอัตราร้อยละ?
สมมติว่าฉันต้องการสร้างแบบจำลองเพื่อทำนายอัตราส่วนหรือเปอร์เซ็นต์บางอย่าง ตัวอย่างเช่นสมมติว่าฉันต้องการทำนายจำนวนเด็กผู้ชายกับผู้หญิงที่จะเข้าร่วมปาร์ตี้และคุณสมบัติของบุคคลที่ฉันสามารถใช้ในโมเดลคือสิ่งต่าง ๆ เช่นจำนวนโฆษณาสำหรับงานปาร์ตี้ขนาดของสถานที่หรือไม่ จะเป็นแอลกอฮอล์ในงานปาร์ตี้ ฯลฯ (นี่เป็นเพียงตัวอย่างที่ทำขึ้นคุณสมบัติที่ไม่สำคัญจริงๆ) คำถามของฉันคืออะไรความแตกต่างระหว่างการทำนายอัตราส่วนกับเปอร์เซ็นต์และแบบจำลองของฉันจะเปลี่ยนไปตามที่ฉันเลือกได้อย่างไร ดีกว่าอีกไหม? ฟังก์ชั่นอื่น ๆ ดีกว่าฟังก์ชั่นใดฟังก์ชันหนึ่งหรือไม่? (ฉันไม่สนใจจริง ๆ เกี่ยวกับจำนวนอัตราส่วนเทียบกับอัตราร้อยละที่เฉพาะเจาะจงฉันแค่ต้องการที่จะระบุว่าฝ่ายใดมีแนวโน้มที่จะเป็น "ฝ่ายเด็กชาย" กับ "ฝ่ายสาว") ตัวอย่างเช่นฉัน ความคิด: ถ้าฉันต้องการทำนายเปอร์เซ็นต์ (พูด# boys / (# boys + # girls)แล้วเนื่องจากคุณสมบัติที่ขึ้นต่อกันของฉันมีขอบเขตระหว่าง 0 ถึง 1 ฉันอาจใช้บางอย่างเช่นการถดถอยโลจิสติกแทนการถดถอยเชิงเส้น หากฉันต้องการทำนายอัตราส่วน (พูด# boys / # girlsหรือ# boys / (1 + # girls)เพื่อหลีกเลี่ยงข้อผิดพลาดการหารด้วยศูนย์) คุณลักษณะที่ต้องพึ่งพาของฉันจะเป็นค่าบวกดังนั้นฉันจึงควรใช้การแปลง (log?) บางชนิดก่อนใช้การถดถอยเชิงเส้น (หรือโมเดลอื่น ๆ …

1
ช่วยฉันเข้าใจอัตราส่วนอัตราต่อรองที่ปรับแล้วในการถดถอยโลจิสติกส์
ฉันมีปัญหาในการพยายามทำความเข้าใจการใช้การถดถอยโลจิสติกส์ในเอกสาร กระดาษที่มีให้ที่นี่ใช้การถดถอยโลจิสติกในการทำนายความน่าจะเป็นของภาวะแทรกซ้อนในระหว่างการผ่าตัดต้อกระจก สิ่งที่ทำให้ฉันสับสนคือกระดาษเสนอรูปแบบที่กำหนดอัตราต่อรองที่ 1 ให้กับค่าพื้นฐานที่อธิบายไว้ดังนี้ ผู้ป่วยที่มีความเสี่ยงอยู่ในกลุ่มอ้างอิงสำหรับตัวชี้วัดความเสี่ยงทั้งหมด (เช่นปรับ OR = 1.00 สำหรับทุกคนในตารางที่ 1) อาจถือได้ว่ามี 'โปรไฟล์ความเสี่ยงพื้นฐาน' และแบบจำลองการถดถอยโลจิสติกส์ระบุว่า สำหรับ PCR หรือ VL หรือทั้งคู่ = 0.736% ดังนั้นความน่าจะเป็นของ 0.00736 จะแสดงด้วยอัตราเดิมพัน 1 จากการเปลี่ยนแปลงจากความน่าจะเป็นอัตราส่วนอัตราต่อรอง:สิ่งนี้ไม่สามารถเท่ากับ 1: {}o=p1−po=p1−po=\frac{p}{1-p}0.00741=0.007361−0.007360.00741=0.007361−0.007360.00741=\frac{0.00736}{1-0.00736} มันยิ่งทำให้สับสนมากขึ้น อัตราส่วนอัตราต่อรองแบบคอมโพสิตที่แสดงถึงค่าความแปรปรวนร่วมหลายค่าที่มีค่าแตกต่างจากค่าพื้นฐานจะใช้ในการคำนวณความเสี่ยงที่คาดการณ์ไว้ ... คอมโพสิตหรือจากตารางที่ 1 จะเป็น 1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5 และจากกราฟในรูปที่ 1 …

3
เหตุการณ์อคติการถดถอยโลจิสติกที่หายาก: วิธีจำลอง p ต่ำสุดด้วยตัวอย่างน้อยที่สุด?
CrossValidated มีหลายคำถามเกี่ยวกับเวลาและวิธีการที่จะใช้การแก้ไขเหตุการณ์อคติที่หายากโดยพระบาทสมเด็จพระเจ้าอยู่หัวและเซง (2001) ฉันกำลังมองหาสิ่งที่แตกต่าง: การสาธิตแบบจำลองขั้นต่ำที่มีอคติอยู่ โดยเฉพาะอย่างยิ่งราชาและเซงรัฐ "... ในเหตุการณ์ที่หายากข้อมูลอคติในความน่าจะเป็นความหมายอย่างมีนัยสำคัญกับขนาดตัวอย่างเป็นพันและอยู่ในทิศทางที่สามารถคาดการณ์ได้: ความน่าจะเป็นของเหตุการณ์โดยประมาณนั้นเล็กเกินไป" นี่คือความพยายามของฉันในการจำลองอคติดังกล่าวใน R: # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. …

2
ชื่อ“ Logistic Regression” หมายถึงอะไร
ฉันกำลังตรวจสอบการดำเนินการของการถดถอยโลจิสติกจากที่นี่ หลังจากที่ฉันอ่านบทความนั้นดูเหมือนว่าส่วนที่สำคัญคือการหาค่าสัมประสิทธิ์ที่ดีที่สุดในการกำหนดฟังก์ชั่น sigmoid ดังนั้นฉันจึงสงสัยว่าทำไมวิธีนี้เรียกว่า "Logistic Regression" มันเกี่ยวข้องกับฟังก์ชันลอการิทึมหรือไม่? บางทีฉันอาจต้องการข้อมูลพื้นฐานทางประวัติศาสตร์เพื่อทำความเข้าใจให้ดีขึ้น

2
ความสำคัญของตัวพยากรณ์เชิงหมวดหมู่ในการถดถอยโลจิสติกส์
ฉันมีปัญหาในการตีความค่า z สำหรับตัวแปรเด็ดขาดในการถดถอยโลจิสติก ในตัวอย่างด้านล่างฉันมีตัวแปรเด็ดขาดที่มี 3 คลาสและตามค่า z CLASS2 อาจมีความเกี่ยวข้องในขณะที่คนอื่นไม่ได้ แต่ตอนนี้สิ่งนี้หมายความว่าอย่างไร ฉันจะรวมคลาสอื่น ๆ เข้าด้วยกันได้หรือไม่ ตัวแปรทั้งหมดอาจไม่ใช่ตัวทำนายที่ดีใช่มั้ย นี่เป็นเพียงตัวอย่างและค่า z ที่แท้จริงที่นี่ไม่ได้มาจากปัญหาจริงฉันแค่มีปัญหาเกี่ยวกับการตีความของพวกเขา Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *

11
เหตุใดการถดถอยแบบลอจิสติกจึงเรียกว่าอัลกอริทึมการเรียนรู้ของเครื่อง?
ถ้าฉันเข้าใจถูกต้องในอัลกอริทึมการเรียนรู้ของเครื่องโมเดลต้องเรียนรู้จากประสบการณ์ของมันเช่นเมื่อแบบจำลองให้การทำนายผิดสำหรับกรณีใหม่มันจะต้องปรับให้เข้ากับการสังเกตใหม่และในเวลานั้นแบบจำลองจะยิ่งดีขึ้น . ฉันไม่เห็นว่าการถดถอยโลจิสติกมีคุณสมบัตินี้ เหตุใดจึงยังถือว่าเป็นขั้นตอนวิธีการเรียนรู้ของเครื่อง? ความแตกต่างระหว่างการถดถอยโลจิสติกกับการถดถอยปกติในแง่ของ "การเรียนรู้" คืออะไร? ฉันมีคำถามเดียวกันสำหรับป่าสุ่ม! และคำจำกัดความของ "การเรียนรู้ของเครื่อง" คืออะไร?

2
การปรับปรุงความน่าจะเป็นในการจำแนกประเภทในการถดถอยโลจิสติกตลอดเวลา
ฉันกำลังสร้างแบบจำลองการทำนายที่คาดการณ์ความน่าจะเป็นของความสำเร็จของนักเรียนเมื่อสิ้นสุดภาคการศึกษา ฉันสนใจเป็นพิเศษว่านักเรียนจะประสบความสำเร็จหรือล้มเหลวโดยที่ความสำเร็จมักจะถูกกำหนดให้เป็นการสำเร็จหลักสูตรและบรรลุคะแนน 70% หรือมากกว่านั้นจากคะแนนทั้งหมดที่เป็นไปได้ เมื่อฉันปรับใช้แบบจำลองการประมาณความน่าจะเป็นความสำเร็จจะต้องได้รับการอัปเดตตลอดเวลาเนื่องจากมีข้อมูลเพิ่มเติม - โดยทันทีหลังจากมีบางสิ่งเกิดขึ้นเช่นเมื่อนักเรียนส่งการบ้านหรือได้เกรดหนึ่ง การอัปเดตนี้ฟังดูคล้ายกับ Bayesian สำหรับฉัน แต่เมื่อฉันได้รับการฝึกอบรมด้านสถิติการศึกษาซึ่งอยู่นอกเขตความสะดวกสบายของฉัน ฉันได้ใช้การถดถอยโลจิสติก (จริง ๆ lasso) กับชุดข้อมูลในอดีตที่มีสแนปชอตตามสัปดาห์ ข้อมูลชุดนี้มีข้อสังเกตความสัมพันธ์ตั้งแต่นักเรียนแต่ละคนมีTe r m L e n gt h / 7TอีRม.Lอีnก.เสื้อชั่วโมง/7TermLength/7สังเกต; การสังเกตสำหรับนักเรียนหนึ่งคนนั้นมีความสัมพันธ์กัน ฉันไม่ได้เป็นแบบอย่างเฉพาะความสัมพันธ์ภายในการสังเกตรายสัปดาห์ของนักเรียนโดยเฉพาะ ฉันเชื่อว่าฉันเพียงแค่ต้องพิจารณาว่าในการตั้งค่ารองเนื่องจากข้อผิดพลาดมาตรฐานจะมีขนาดเล็กเกินไป ฉันคิดว่า - แต่ไม่แน่ใจในเรื่องนี้ - ปัญหาเดียวที่เกิดขึ้นจากการสังเกตที่สัมพันธ์กันคือฉันต้องระวังเมื่อฉันตรวจสอบความถูกต้องเพื่อให้การสังเกตแบบคลัสเตอร์เป็นส่วนหนึ่งของข้อมูลเพื่อที่ฉันจะไม่ได้รับ อัตราความผิดพลาดนอกตัวอย่างต่ำโดยไม่ได้ตั้งใจจากการคาดการณ์เกี่ยวกับบุคคลที่โมเดลได้เห็นแล้ว ฉันใช้แพ็คเกจ glmnet ของ Rเพื่อทำ lasso ด้วย model logistic เพื่อสร้างความน่าจะเป็นที่จะประสบความสำเร็จ / ล้มเหลวและเลือกตัวทำนายสำหรับหลักสูตรใดหลักสูตรหนึ่งโดยอัตโนมัติ ฉันใช้ตัวแปรสัปดาห์เป็นปัจจัยโต้ตอบกับตัวทำนายอื่น ๆ ทั้งหมด ฉันไม่คิดว่าสิ่งนี้แตกต่างกันโดยทั่วไปจากการประเมินแบบจำลองแต่ละสัปดาห์ยกเว้นว่าจะให้ความเห็นว่าอาจมีรูปแบบทั่วไปบางอย่างที่ถือตลอดระยะเวลาที่ปรับผ่านปัจจัยการปรับความเสี่ยงต่าง …

1
เหตุใดการใช้วิธีการของนิวตันในการเพิ่มประสิทธิภาพการถดถอยโลจิสติกจึงเรียกว่าซ้ำกำลังสองน้อยที่สุด?
เหตุใดการใช้วิธีการของนิวตันในการเพิ่มประสิทธิภาพการถดถอยโลจิสติกจึงเรียกว่าซ้ำกำลังสองน้อยที่สุด? ดูเหมือนจะไม่ชัดเจนสำหรับฉันเพราะการสูญเสียด้านการขนส่งและการสูญเสียกำลังสองน้อยที่สุดนั้นต่างกันอย่างสิ้นเชิง

3
การถดถอยแบบลอจิสติกใช้การกระจายแบบทวินามอย่างไร
ฉันพยายามที่จะเข้าใจว่าการถดถอยโลจิสติกใช้การกระจายตัวแบบทวินามอย่างไร สมมติว่าฉันกำลังศึกษาความสำเร็จของรังนกในนก ความน่าจะเป็นของรังที่สำเร็จคือ 0.6 ด้วยการแจกแจงทวินามฉันสามารถคำนวณความน่าจะเป็นของความสำเร็จ r ที่ได้รับจากการทดลอง n (จำนวนรังที่ศึกษา) แต่การกระจายแบบทวินามใช้ในบริบทการสร้างแบบจำลองอย่างไร สมมติว่าฉันต้องการทราบว่าอุณหภูมิเฉลี่ยต่อวันมีผลต่อความสำเร็จของรังอย่างไรและฉันใช้การถดถอยโลจิสติกส์เพื่อสำรวจคำถามนี้ ภายในบริบทที่ฉันอธิบายไว้การถดถอยโลจิสติกใช้การแจกแจงทวินามเป็นอย่างไร ฉันกำลังมองหาคำตอบที่ใช้งานง่ายดังนั้นคำตอบที่ไม่มีสมการ! ฉันคิดว่าสมการจะมีประโยชน์ก็ต่อเมื่อมีความเข้าใจในระดับที่เข้าใจง่าย

2
มันเหมาะสมหรือไม่ที่จะใช้ Logistic regression กับผลลัพธ์ไบนารีและตัวทำนาย
ฉันมีตัวแปรผลลัพธ์ไบนารี {0,1} และตัวแปรตัวทำนาย {0,1} ความคิดของฉันคือว่ามันไม่สมเหตุสมผลที่จะทำเรื่องโลจิสติกส์ยกเว้นว่าฉันรวมตัวแปรอื่น ๆ และคำนวณอัตราต่อรอง ด้วยตัวทำนายไบนารีหนึ่งจะไม่คำนวณอัตราส่วนความน่าจะเป็นที่พอเพียงเทียบกับอัตราต่อรองหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.