คำถามติดแท็ก aic

AIC ย่อมาจาก Akaike Information Criterion ซึ่งเป็นเทคนิคหนึ่งที่ใช้ในการเลือกแบบจำลองที่ดีที่สุดจากคลาสของแบบจำลองโดยใช้โอกาสในการถูกลงโทษ AIC ขนาดเล็กแสดงถึงแบบจำลองที่ดีกว่า

3
โมเดลผสมเชิงเส้นทั่วไป: การเลือกรูปแบบ
คำถาม / หัวข้อนี้เกิดขึ้นในการสนทนากับเพื่อนร่วมงานและฉันกำลังมองหาความคิดเห็นเกี่ยวกับเรื่องนี้: ฉันกำลังสร้างแบบจำลองข้อมูลบางอย่างโดยใช้การถดถอยโลจิสติกเอฟเฟกต์แบบสุ่มแม่นยำกว่าการถดถอยโลจิสติกแบบตัดขวางที่แม่นยำ สำหรับผลกระทบคงที่ฉันมี 9 ตัวแปรที่น่าสนใจและเข้ามาพิจารณา ฉันต้องการเลือกรูปแบบบางอย่างเพื่อค้นหาตัวแปรที่มีความสำคัญและให้รูปแบบ "ดีที่สุด" (เอฟเฟกต์หลักเท่านั้น) ความคิดแรกของฉันคือการใช้ AIC เพื่อเปรียบเทียบแบบจำลองที่แตกต่างกัน แต่ด้วย 9 ตัวแปรฉันไม่ตื่นเต้นเกินไปที่จะเปรียบเทียบ 2 ^ 9 = 512 รุ่นที่แตกต่างกัน (คำหลัก: การขุดลอกข้อมูล) ฉันพูดคุยเรื่องนี้กับเพื่อนร่วมงานและเขาบอกฉันว่าเขาจำได้ว่าอ่านเกี่ยวกับการใช้การเลือกแบบจำลองแบบขั้นตอน (หรือไปข้างหน้า) กับ GLMM แต่แทนที่จะใช้ p-value (เช่นจากการทดสอบอัตราส่วนความน่าจะเป็นสำหรับ GLMM) เราควรใช้ AIC เป็นเกณฑ์ในการเข้า / ออก ฉันพบความคิดนี้ที่น่าสนใจมาก แต่ฉันไม่พบการอ้างอิงใด ๆ ที่กล่าวถึงเรื่องนี้เพิ่มเติมและเพื่อนร่วมงานของฉันจำไม่ได้ว่าเขาอ่านที่ไหน หนังสือหลายเล่มแนะนำให้ใช้ AIC เพื่อเปรียบเทียบแบบจำลอง แต่ฉันไม่พบการสนทนาใด ๆ เกี่ยวกับการใช้สิ่งนี้พร้อมกับขั้นตอนการเลือกรุ่นแบบขั้นตอนหรือแบบส่งต่อ ดังนั้นฉันมีสองคำถามโดยทั่วไป: มีอะไรผิดปกติหรือไม่หากใช้ AIC …

2
AIC, ข้อผิดพลาด anova: โมเดลไม่ได้ติดตั้งทั้งหมดกับจำนวนการสังเกตเท่ากันทุกรุ่นไม่ได้พอดีกับชุดข้อมูลขนาดเดียวกันทั้งหมด
ฉันมีโมเดลเช่นนี้: require(nlme) set.seed(123) n <- 100 k <- 5 cat <- as.factor(rep(1:k, n)) cat_i <- 1:k # intercept per kategorie x <- rep(1:n, each = k) sigma <- 0.2 alpha <- 0.001 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) plot(x, y) m1 <- lm(y ~ x) …
10 r  mixed-model  aic 

2
REML vs ML stepAIC
ฉันรู้สึกท่วมท้นหลังจากพยายามขุดลงไปในวรรณคดีว่าจะใช้การวิเคราะห์แบบผสมของฉันได้อย่างไรหลังจากใช้ AIC เพื่อเลือกแบบจำลองหรือแบบจำลองที่ดีที่สุด ฉันไม่คิดว่าข้อมูลของฉันมีความซับซ้อน แต่ฉันกำลังมองหาการยืนยันว่าสิ่งที่ฉันทำถูกต้องแล้วแนะนำวิธีดำเนินการต่อ ฉันไม่แน่ใจว่าควรใช้ lme หรือ lmer หรือไม่ถ้าใช้อย่างใดอย่างหนึ่งควรใช้ REML หรือ ML ฉันมีคุณค่าในการเลือกและฉันต้องการรู้ว่า covariates ที่ดีที่สุดมีอิทธิพลต่อคุณค่านั้นและอนุญาตให้มีการคาดการณ์ นี่คือตัวอย่างข้อมูลและโค้ดสำหรับการทดสอบที่ฉันใช้: ID=as.character(rep(1:5,3)) season=c("s","w","w","s","s","s","s","w","w","w","s","w","s","w","w") time=c("n","d","d","n","d","d","n","n","n","n","n","n","d","d","d") repro=as.character(rep(1:3,5)) risk=runif(15, min=0, max=1.1) comp1=rnorm(15, mean = 0, sd = 1) mydata=data.frame(ID, season, time, repro, risk, comp1) c1.mod1<-lmer(comp1~1+(1|ID),REML=T,data=mydata) c1.mod2<-lmer(comp1~risk+(1|ID),REML=T,data=mydata) c1.mod3<-lmer(comp1~season+(1|ID),REML=T,data=mydata) c1.mod4<-lmer(comp1~repro+(1|ID),REML=T,data=mydata) c1.mod5<-lmer(comp1~time+(1|ID),REML=T,data=mydata) c1.mod6<-lmer(comp1~season+repro+time+(1|ID),REML=T,data=mydata) c1.mod7<-lmer(comp1~risk+season+season*time+(1|ID),REML=T,data=mydata) ฉันมีโมเดล 19 รุ่นที่สำรวจข้อมูลนี้ด้วยชุดค่าผสมที่หลากหลายและมีเงื่อนไขการโต้ตอบ 2 ทาง แต่จะใช้ …

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
เหตุใดจึงใช้เกณฑ์ข้อมูล (ไม่ได้ปรับ ) เพื่อเลือกลำดับความล่าช้าที่เหมาะสมในรุ่นอนุกรมเวลา
ในโมเดลอนุกรมเวลาเช่น ARMA-GARCH เพื่อเลือกความล่าช้าหรือลำดับของเกณฑ์ข้อมูลที่แตกต่างกันของโมเดลเช่น AIC, BIC, SIC เป็นต้น คำถามของฉันง่ายมากเหตุใดเราจึงไม่ใช้การปรับเพื่อเลือกรุ่นที่เหมาะสม เราสามารถเลือกรูปแบบที่นำไปสู่มูลค่าที่สูงขึ้นของการปรับ 2 เนื่องจากทั้งสองปรับและเกณฑ์ข้อมูลลงโทษสำหรับจำนวน regressors เพิ่มเติมในรูปแบบที่ซึ่งอดีตลงโทษและต่อมาลงโทษค่าโอกาส R2R2R^2R2R2R^2R2R2R^2R2R2R^2

4
การตีความค่า AIC
ค่าทั่วไปของ AIC ที่ฉันเห็นสำหรับโมเดลโลจิสติกอยู่ในหลักพันเป็นอย่างน้อยเป็นร้อย เช่นในhttp://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ AIC คือ 727.39 แม้ว่าจะมีการกล่าวเสมอว่าควรใช้ AIC เพื่อเปรียบเทียบแบบจำลองเท่านั้น แต่ฉันต้องการเข้าใจว่าค่า AIC นั้นหมายถึงอะไร ตามสูตร A Iค= - 2 บันทึก( L ) + 2 KAIC=−2log⁡(L)+2KAIC= -2 \log(L)+ 2K โดยที่ L = ความเป็นไปได้สูงสุดจากตัวประมาณ MLE K คือจำนวนพารามิเตอร์ ในตัวอย่างด้านบน K = 8 ดังนั้นด้วยเลขคณิตอย่างง่าย: 727.9 = -2*log(L)+ 2*8 Hence, 711.39 = -2*log(L) Hence, log (L)= …

1
ความเท่าเทียมกันของ AIC และ p-values ​​ในการเลือกแบบจำลอง
ในความคิดเห็นต่อคำตอบของคำถามนี้พบว่าการใช้ AIC ในการเลือกแบบจำลองนั้นเทียบเท่ากับการใช้ค่า p-0.154 ฉันลองใน R ที่ฉันใช้อัลกอริทึมการเลือกชุดย่อย "ย้อนกลับ" เพื่อโยนตัวแปรออกจากสเปคแบบเต็ม ครั้งแรกโดยการทิ้งตัวแปรที่มีค่า p-value สูงสุดและหยุดเมื่อ p-value ทั้งหมดต่ำกว่า 0.154 และอันดับที่สองโดยการวางตัวแปรซึ่งส่งผลให้ AIC ต่ำที่สุดเมื่อถูกลบออกจนกว่าจะไม่มีการปรับปรุงใด ๆ ปรากฎว่าพวกเขาให้ผลลัพธ์แบบคร่าวๆเมื่อฉันใช้ค่า p-0.154 เป็นเกณฑ์ จริงหรือไม่ ถ้ามีใครรู้ว่าทำไมหรือสามารถอ้างถึงแหล่งที่อธิบายได้ ป.ล. ฉันไม่สามารถถามคนที่แสดงความคิดเห็นหรือเขียนความเห็นได้เพราะเพิ่งสมัครใช้งาน ฉันรู้ว่านี่ไม่ใช่วิธีที่เหมาะสมที่สุดในการเลือกแบบจำลองและการอนุมานเป็นต้น

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.