คำถามติดแท็ก separation

การแบ่งแยกเกิดขึ้นเมื่อบางคลาสของผลลัพธ์ที่เป็นหมวดหมู่สามารถแยกแยะได้อย่างสมบูรณ์แบบโดยการรวมกันเชิงเส้นของตัวแปรอื่น ๆ

8
วิธีการจัดการกับการแยกที่สมบูรณ์แบบในการถดถอยโลจิสติก?
หากคุณมีตัวแปรที่แยกศูนย์และตัวแปรในเป้าหมายได้อย่างสมบูรณ์ R จะให้ข้อความเตือน "การแยกแบบสมบูรณ์แบบหรือกึ่งสมบูรณ์แบบ" ดังต่อไปนี้: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred เรายังได้โมเดล แต่การประมาณค่าสัมประสิทธิ์สูงเกินจริง คุณจัดการกับสิ่งนี้ได้อย่างไรในทางปฏิบัติ?

1
การถดถอยโลจิสติกใน R ทำให้เกิดการแยกที่สมบูรณ์แบบ (ปรากฏการณ์ Hauck-Donner) ตอนนี้คืออะไร
ฉันพยายามที่จะทำนายผลเลขฐานสองโดยใช้ตัวแปรอธิบายอย่างต่อเนื่อง 50 ตัว (ช่วงของตัวแปรส่วนใหญ่คือถึง ) ชุดข้อมูลของฉันมีเกือบ 24,000 แถว เมื่อฉันทำงานใน R ฉันจะได้รับ:−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred ฉันได้อ่านคำตอบอื่น ๆ ที่แนะนำว่าอาจมีการแยกอย่างสมบูรณ์แบบ แต่ฉันมั่นใจว่าไม่ใช่กรณีในข้อมูลของฉัน (แม้ว่าการแยกแบบกึ่งสมบูรณ์อาจเกิดขึ้นได้ฉันจะทดสอบเพื่อดูว่าเป็นอย่างนั้นได้อย่างไร) . หากฉันลบตัวแปรบางตัวข้อผิดพลาด "ไม่ได้บรรจบกัน" อาจหายไป แต่นั่นไม่ใช่สิ่งที่เกิดขึ้นเสมอไป ฉันพยายามใช้ตัวแปรเดียวกันในbayesglmฟังก์ชั่นและได้รับข้อผิดพลาดเดียวกัน ขั้นตอนใดที่คุณจะต้องทราบว่าเกิดอะไรขึ้นที่นี่ คุณคิดว่าตัวแปรใดเป็นสาเหตุของปัญหาได้อย่างไร

2
แบบจำลองการถดถอยโลจิสติกไม่ได้มาบรรจบกัน
ฉันได้รับข้อมูลบางอย่างเกี่ยวกับเที่ยวบินของสายการบิน (ในกรอบข้อมูลที่เรียกว่าflights) และฉันต้องการดูว่าเวลาเที่ยวบินมีผลต่อความน่าจะเป็นของการมาถึงล่าช้าหรือไม่ (หมายถึง 10 นาทีหรือมากกว่า) ฉันคิดว่าฉันใช้การถดถอยโลจิสติกโดยมีเวลาเที่ยวบินเป็นตัวทำนายและไม่ว่าแต่ละเที่ยวบินจะล่าช้าหรือไม่ (กลุ่มเบอร์นูลิส) เป็นคำตอบ ฉันใช้รหัสต่อไปนี้ ... flights$BigDelay <- flights$ArrDelay >= 10 delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) summary(delay.model) ... แต่ได้ผลลัพธ์ต่อไปนี้ > flights$BigDelay <- flights$ArrDelay >= 10 > delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) Warning messages: 1: In glm.fit(x = X, y = Y, …
39 r  logistic  separation 

4
เหตุใดการถดถอยของโลจิสติกจึงไม่เสถียรเมื่อมีการแยกคลาสอย่างชัดเจน
ทำไมการถดถอยโลจิสติกจึงไม่เสถียรเมื่อชั้นเรียนถูกแยกออกจากกัน คลาสที่แยกกันอย่างดีหมายถึงอะไร ฉันจะขอบคุณจริง ๆ ถ้ามีคนอธิบายตัวอย่างได้

1
น่าจะเป็นสิ่งที่จุดสุ่มขนาดเส้นตรงแยกกันไม่ออก?
ได้รับจุดข้อมูลแต่ละคนมีคุณสมบัติมีการระบุว่าเป็น , อื่น ๆมีการระบุว่าเป็น1แต่ละคุณสมบัติใช้ค่าตั้งแต่แบบสุ่ม (การกระจายแบบสม่ำเสมอ) ความน่าจะเป็นที่มีไฮเปอร์เพลนที่สามารถแบ่งสองคลาสได้อย่างไรd n / 2 0 n / 2 1 [ 0 , 1 ]nnndddn / 2n/2n/2000n / 2n/2n/2111[ 0 , 1 ][0,1][0,1] ลองพิจารณากรณีที่ง่ายที่สุดในครั้งแรกคือ1d= 1d=1d = 1

1
การเลือกรูปแบบที่มีการถดถอยโลจิสติก Firth
ในชุดข้อมูลขนาดเล็ก ( ) ที่ฉันทำงานกับหลายตัวแปรให้ฉันที่สมบูรณ์แบบการทำนาย / แยก ฉันจึงใช้การถดถอยโลจิสติก Firthเพื่อจัดการกับปัญหาn∼100n∼100n\sim100 หากฉันเลือกแบบจำลองที่ดีที่สุดโดยAICหรือBICฉันควรรวมคำว่าโทษ Firth ไว้ในความน่าจะเป็นเมื่อคำนวณเกณฑ์ข้อมูลเหล่านี้หรือไม่

1
มีคำอธิบายที่เข้าใจได้ง่ายหรือไม่ว่าเหตุใดการถดถอยโลจิสติกจึงไม่สามารถใช้กับกรณีแยกที่สมบูรณ์ได้ และทำไมการเพิ่มการทำให้เป็นมาตรฐานจะแก้ไขได้?
เรามีการสนทนาที่ดีมากมายเกี่ยวกับการแบ่งแยกที่สมบูรณ์แบบในการถดถอยโลจิสติก เช่นการถดถอยโลจิสติกใน R ทำให้เกิดการแยกที่สมบูรณ์แบบ (ปรากฏการณ์ Hauck-Donner) ตอนนี้คืออะไร และรูปแบบการถดถอยโลจิสติกไม่ได้มาบรรจบ ฉันเองก็ยังรู้สึกว่ามันไม่ง่ายสำหรับสาเหตุที่มันเป็นปัญหาและทำไมการเพิ่มการทำให้เป็นมาตรฐานจะแก้ไขได้ ฉันสร้างภาพเคลื่อนไหวและคิดว่ามันจะเป็นประโยชน์ ดังนั้นโพสต์คำถามของเขาและตอบด้วยตนเองเพื่อแบ่งปันกับชุมชน

3
ปรีชาสำหรับ Support Vector Machines และไฮเปอร์เพลน
ในโครงการของฉันฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกสำหรับการทำนายการจำแนกเลขฐานสอง (1 หรือ 0) ฉันมีตัวแปร 15 ตัวโดยแบ่งเป็น 2 ตัวแปรในขณะที่ส่วนที่เหลือเป็นส่วนผสมของตัวแปรต่อเนื่องและไม่ต่อเนื่อง เพื่อให้เหมาะสมกับโมเดลการถดถอยโลจิสติกฉันได้รับคำแนะนำให้ตรวจสอบความสามารถในการแยกเชิงเส้นโดยใช้ SVM, perceptron หรือการเขียนโปรแกรมเชิงเส้น สิ่งนี้เชื่อมโยงกับคำแนะนำที่เกิดขึ้นที่นี่เกี่ยวกับการทดสอบความสามารถในการแยกเชิงเส้น ในฐานะที่เป็นมือใหม่ในการเรียนรู้ของเครื่องจักรฉันเข้าใจแนวคิดพื้นฐานเกี่ยวกับอัลกอริทึมที่กล่าวถึงข้างต้น แต่แนวคิดฉันพยายามที่จะจินตนาการว่าเราสามารถแยกข้อมูลที่มีมิติมากมายเช่น 15 ในกรณีของฉันได้อย่างไร ตัวอย่างทั้งหมดในวัสดุออนไลน์มักแสดงพล็อต 2 มิติของตัวแปรตัวเลขสองตัว (ความสูงน้ำหนัก) ซึ่งแสดงช่องว่างที่ชัดเจนระหว่างหมวดหมู่และทำให้เข้าใจง่ายขึ้น แต่ในโลกแห่งความเป็นจริงข้อมูลมักจะมีมิติที่สูงกว่ามาก ฉันยังคงถูกดึงกลับไปที่ชุดข้อมูลของ Iris และพยายามที่จะใส่ไฮเปอร์เพลนผ่านสามสายพันธุ์และมันเป็นเรื่องยากโดยเฉพาะอย่างยิ่งถ้าเป็นไปไม่ได้ที่จะทำเช่นนั้นระหว่างสองสปีชีส์ เราจะบรรลุสิ่งนี้ได้อย่างไรเมื่อเรามีคำสั่งเกี่ยวกับมิติที่สูงขึ้นมันสันนิษฐานว่าเมื่อเรามีคุณสมบัติเกินจำนวนที่เราใช้เมล็ดเพื่อแมปไปยังพื้นที่มิติที่สูงขึ้นเพื่อให้ได้การแยกนี้ นอกจากนี้เพื่อทดสอบการแยกเชิงเส้นตัวชี้วัดที่ใช้คืออะไร มันเป็นความถูกต้องของรุ่น SVM หรือไม่เช่นความถูกต้องตามเมทริกซ์ความสับสน? ความช่วยเหลือใด ๆ ในการทำความเข้าใจหัวข้อนี้จะได้รับการชื่นชมอย่างมาก ด้านล่างเป็นตัวอย่างของพล็อตของตัวแปรสองตัวในชุดข้อมูลของฉันซึ่งแสดงให้เห็นว่าการซ้อนทับของตัวแปรทั้งสองนี้เพียงใด

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

1
การค้นหาความเข้าใจเชิงทฤษฎีของการถดถอยโลจิสติก Firth
ฉันกำลังพยายามที่จะเข้าใจการถดถอยโลจิสติกของเฟิร์สต์ (วิธีการจัดการการแยกแบบสมบูรณ์ / สมบูรณ์หรือแบบกึ่งสมบูรณ์ในการถดถอยโลจิสติก) เพื่อให้ฉันสามารถอธิบายให้ผู้อื่นทราบในแง่ง่าย มีใครบ้างที่มีคำอธิบายแบบหล่นลงของการปรับเปลี่ยนการประเมิน Firth ใดที่ทำให้ MLE ฉันได้อ่านอย่างดีที่สุดแล้ว Firth (1993) และฉันเข้าใจว่าการแก้ไขนั้นถูกนำไปใช้กับฟังก์ชันคะแนน ฉันคลุมเครือเกี่ยวกับที่มาและเหตุผลของการแก้ไขและบทบาทของฟังก์ชันคะแนนใน MLE ขออภัยถ้านี่เป็นความรู้เบื้องต้น วรรณกรรมที่ฉันตรวจสอบดูเหมือนจะต้องการความเข้าใจที่ลึกซึ้งมากขึ้นเกี่ยวกับ MLE ที่ฉันมี

1
Binomial glmm พร้อมตัวแปรเด็ดขาดพร้อมความสำเร็จเต็มรูปแบบ
ฉันกำลังเรียกใช้ glmm พร้อมกับตัวแปรตอบสนองทวินามและตัวทำนายหมวดหมู่ ผลแบบสุ่มจะได้รับจากการออกแบบที่ซ้อนกันที่ใช้สำหรับการรวบรวมข้อมูล ข้อมูลมีลักษณะดังนี้: m.gen1$treatment [1] sucrose control protein control no_injection ..... Levels: no_injection control sucrose protein m.gen1$emergence [1] 1 0 0 1 0 1 1 1 1 1 1 0 0.... > m.gen1$nest [1] 1 1 1 2 2 3 3 3 3 4 4 4 ..... Levels: …

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
สัมประสิทธิ์มหาศาลในการถดถอยโลจิสติก - มันหมายความว่าอะไรและจะทำอย่างไร?
ฉันได้รับค่าสัมประสิทธิ์มหาศาลระหว่างการถดถอยโลจิสติกดูค่าสัมประสิทธิ์กับkrajULKV: > summary(m5) Call: glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + rok:obdobi:kraj, family = "quasibinomial") Deviance Residuals: Min 1Q Median 3Q Max -2.7796 -1.0958 -0.3101 1.0034 2.8370 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -486.72087 …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.