คำถามติดแท็ก missing-data

เมื่อข้อมูลขาดข้อมูล (ช่องว่าง) เช่นไม่สมบูรณ์ ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องพิจารณาคุณสมบัตินี้เมื่อทำการวิเคราะห์หรือทดสอบ

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
STL ตรงเวลาที่มีค่าขาดหายไปสำหรับการตรวจจับความผิดปกติ
ฉันพยายามตรวจจับค่าที่ผิดปกติในอนุกรมเวลาของข้อมูลภูมิอากาศพร้อมกับการสังเกตที่หายไป ค้นหาเว็บฉันพบวิธีการมากมาย ในบรรดาเหล่านั้น stl การสลายตัวดูเหมือนน่าสนใจในแง่ของการลบแนวโน้มและองค์ประกอบตามฤดูกาล อ่านSTL: ฤดูกาล-Trend สลายตัวขั้นตอนบนพื้นฐานของดินเหลือง , stlดูเหมือนจะมีความยืดหยุ่นในการกำหนดค่าการตั้งค่าสำหรับการกำหนดแปรปรวนรับผลกระทบจากค่าผิดปกติและเป็นไปได้ที่จะใช้แม้จะมีค่าหายไป แต่พยายามที่จะใช้มันในRกับสี่ปีของการสังเกตและการกำหนดค่าพารามิเตอร์ทั้งหมดตามhttp://stat.ethz.ch/R-manual/R-patched/library/stats/html/stl.html , พบฉัน ข้อผิดพลาด: "time series contains internal NAs"(เมื่อna.action=na.omit) และ "series is not periodic or has less than two periods"(เมื่อna.action=na.exclude) ฉันตรวจสอบซ้ำแล้วซ้ำอีกว่าความถี่นั้นถูกต้องแล้ว ฉันเห็นคำถามที่เกี่ยวข้องในบล็อก แต่ไม่พบข้อเสนอแนะใด ๆ ที่สามารถแก้ปัญหานี้ได้ เป็นไปไม่ได้ที่จะใช้stlกับซีรี่ส์ที่มีค่าขาดหายไปหรือไม่? ฉันลังเลที่จะสอดแทรกพวกเขาเนื่องจากฉันไม่ต้องการที่จะแนะนำสิ่งประดิษฐ์ (และการตรวจจับ ... ) ด้วยเหตุผลเดียวกันฉันไม่ทราบว่าจะแนะนำให้ใช้วิธี ARIMA แทนอย่างไร (และหากค่าที่หายไปยังคงเป็นปัญหา) กรุณาแบ่งปันหากคุณรู้วิธีที่จะใช้stlในซีรีส์ที่มีค่าที่หายไปหรือถ้าคุณเชื่อว่าตัวเลือกของฉันไม่เป็นระเบียบแบบแผนหรือหากคุณมีข้อเสนอแนะที่ดีกว่านี้ ฉันค่อนข้างใหม่ในสนามและถูกครอบงำด้วยกองข้อมูลที่เกี่ยวข้อง (ดูเหมือน ... )

2
80% ของข้อมูลที่ขาดหายไปในตัวแปรเดียว
มีตัวแปรหนึ่งในข้อมูลของฉันมี 80% ของข้อมูลที่ขาดหายไป ข้อมูลขาดหายไปเนื่องจากไม่มีอยู่จริง (เช่นจำนวนเงินกู้ของธนาคารที่ บริษัท ค้างชำระ) ฉันเจอบทความที่บอกว่าวิธีการปรับตัวแปร dummy เป็นวิธีแก้ปัญหานี้ หมายความว่าฉันต้องเปลี่ยนตัวแปรต่อเนื่องนี้เป็นหมวดหมู่หรือไม่ นี่เป็นทางออกเดียวหรือไม่? ฉันไม่ต้องการวางตัวแปรนี้ตามที่คิดในทางทฤษฎีมันเป็นสิ่งสำคัญสำหรับคำถามการวิจัยของฉัน

3
เทคนิคในการจัดการข้อมูลที่ไม่สมบูรณ์ / ขาดหายไป
คำถามของฉันถูกส่งไปยังเทคนิคต่าง ๆ เพื่อจัดการกับข้อมูลที่ไม่สมบูรณ์ในระหว่างการจัดประเภท / การฝึกอบรม / การจำลองแบบ ตัวอย่างเช่นในชุดข้อมูลที่มีไม่กี่ร้อยแถวแต่ละแถวมีสมมุติห้ามิติและเลเบลคลาสเป็นรายการสุดท้ายจุดข้อมูลส่วนใหญ่จะมีลักษณะดังนี้: [0.74, 0.39, 0.14, 0.33, 0.34, 0] บางอย่างอาจมีลักษณะเช่นนี้: [0.21, 0.68,?, 0.82, 0.58, 1] ดังนั้นจุดข้อมูลประเภทนั้นคือจุดสนใจของคำถามนี้ เหตุผลแรกของฉันที่ถามคำถามนี้คือปัญหาตรงหน้าฉัน อย่างไรก็ตามก่อนที่จะโพสต์คำถามของฉันฉันคิดว่ามันอาจจะมีประโยชน์มากกว่าถ้าฉันเขียนอีกครั้งดังนั้นคำตอบจะเป็นประโยชน์กับชุมชนส่วนใหญ่ ในฐานะที่เป็นฮิวริสติกแบบง่ายเรามาแบ่งเทคนิคการจัดการข้อมูลเหล่านี้ตามช่วงเวลาของการประมวลผลที่ใช้ก่อนที่จะป้อนตัวจําแนกหรือในระหว่าง (เช่นเทคนิคอยู่ภายในตัวจําแนก) ตัวอย่างที่ดีที่สุดที่ฉันนึกได้สำหรับหลังคือเทคนิค 'การแยกกิ่งไม้สามทาง' ที่ชาญฉลาดที่ใช้ในต้นไม้การตัดสินใจ ไม่ต้องสงสัยเลยว่าหมวดหมู่เดิมนั้นใหญ่กว่าเดิมมาก เทคนิคที่ฉันรับรู้ทั้งหมดตกอยู่ในกลุ่มใดกลุ่มหนึ่งด้านล่าง ในขณะที่ฉันกำลังทบทวนบันทึกย่อส่วนบุคคลของฉันเกี่ยวกับ "การจัดการข้อมูลที่หายไป" ฉันสังเกตเห็นว่าฉันมีรายการเทคนิคที่น่าประทับใจ ฉันเก็บบันทึกเหล่านี้ไว้เพื่อความสบายใจทั่วไปและในกรณีที่เพื่อนร่วมงานรุ่นน้องขอให้ฉันจัดการกับข้อมูลที่หายไป ในทางปฏิบัติจริง ๆ ฉันไม่ได้ใช้สิ่งใดเลยยกเว้นครั้งสุดท้าย Imputation : รูบริกแบบกว้างสำหรับชุดของเทคนิคที่มีตัวหารร่วม (ฉันเชื่อ) คือข้อมูลที่ขาดหายไปจะถูกส่งโดยตรงโดยชุดข้อมูลเดียวกัน - การแทนที่มากกว่าการประมาณ / การทำนาย การสร้างใหม่ : ประเมินจุดข้อมูลที่ขาดหายไปโดยใช้เครือข่ายเชื่อมโยงอัตโนมัติ (เพียงเครือข่ายประสาทที่ขนาดของชั้นข้อมูลเข้าและส่งออกมีความเท่ากัน …

3
มีปัญหาร้ายแรงหรือไม่ในการลดการสังเกตด้วยค่าที่หายไปเมื่อคำนวณเมทริกซ์สหสัมพันธ์?
ฉันมีชุดข้อมูลขนาดใหญ่ที่มีตัวแปร 2500 ตัวและชอบการสังเกต 142 ครั้ง ฉันต้องการเรียกใช้ความสัมพันธ์ระหว่าง Variable X และส่วนที่เหลือของตัวแปร แต่สำหรับคอลัมน์จำนวนมากมีรายการขาดหายไป ฉันพยายามทำสิ่งนี้ใน R โดยใช้อาร์กิวเมนต์ "pairwise-complete" ( use=pairwise.complete.obs) และมันแสดงความสัมพันธ์จำนวนมาก แต่บางคนใน StackOverflow โพสต์ลิงก์ไปยังบทความนี้http://bwlewis.github.io/covar/missing.htmlและทำให้วิธีการ "จับคู่แบบเต็ม" ใน R ดูใช้ไม่ได้ คำถามของฉัน: ฉันจะรู้ได้อย่างไรว่าเมื่อใดที่เหมาะสมที่จะใช้ตัวเลือก "pairwise-complete" ฉันuse = complete.obsกลับมาno complete element pairsแล้วดังนั้นถ้าคุณสามารถอธิบายสิ่งที่มีความหมายเช่นนั้นก็จะดี

1
XGBoost สามารถจัดการข้อมูลที่ขาดหายไปในขั้นตอนการพยากรณ์
เมื่อเร็ว ๆ นี้ฉันได้ตรวจสอบอัลกอริทึม XGBoost และฉันสังเกตเห็นว่าอัลกอริทึมนี้สามารถจัดการข้อมูลที่ขาดหายไป (โดยไม่ต้องใส่ข้อมูล) ในขั้นตอนการฝึกอบรม ฉันสงสัยว่า XGboost สามารถจัดการข้อมูลที่หายไป (โดยไม่ต้องใส่ข้อมูล) เมื่อใช้สำหรับการคาดการณ์การสังเกตใหม่หรือมีความจำเป็นในการใส่ข้อมูลที่ขาดหายไป ขอบคุณล่วงหน้า.

3
วิธีจัดการค่า NA ในวิธีการหดตัว (Lasso) โดยใช้ glmnet
ฉันใช้ "glmnet" สำหรับการถดถอยแบบ lasso ใน GWAS ตัวแปรและบุคคลบางตัวมีค่าหายไปและดูเหมือนว่า glmnet ไม่สามารถจัดการค่าที่ขาดหายไปได้ มีวิธีแก้ไขปัญหานี้หรือไม่? หรือมีแพ็คเกจอื่นที่สามารถจัดการกับค่าที่ขาดหายไปในการถดถอยแบบ lasso ได้หรือไม่? นี่คือสคริปต์ของฉัน > library(glmnet) > geno6<-read.table("c6sigCnt.geno") > geno6[1:10,1:10] #genotype file (0,1,2 for minor allele counts) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 1 1 1 1 1 1 1 1 1 1 0 2 NA …

3
ฉันจะจัดการกับข้อมูลที่ไม่มีอยู่หรือหายไปได้อย่างไร
ฉันลองวิธีการพยากรณ์และต้องการตรวจสอบว่าวิธีการของฉันถูกต้องหรือไม่ การศึกษาของฉันเปรียบเทียบกองทุนรวมประเภทต่าง ๆ ฉันต้องการใช้ดัชนี GCC เป็นเกณฑ์มาตรฐานสำหรับหนึ่งในนั้น แต่ปัญหาคือดัชนี GCC หยุดในเดือนกันยายน 2011 และการศึกษาของฉันอยู่ระหว่างมกราคม 2546 ถึงกรกฎาคม 2557 ดังนั้นฉันจึงพยายามใช้ดัชนีอื่นดัชนี MSCI เพื่อสร้างการถดถอยเชิงเส้น แต่ปัญหาคือว่าดัชนี MSCI ขาดข้อมูลตั้งแต่เดือนกันยายน 2010 เพื่อหลีกเลี่ยงสิ่งนี้ฉันได้ทำสิ่งต่อไปนี้ ขั้นตอนเหล่านี้ใช้ได้หรือไม่ ดัชนี MSCI ไม่มีข้อมูลสำหรับเดือนกันยายน 2010 ถึงกรกฎาคม 2012 ฉัน "ให้" โดยการใช้ค่าเฉลี่ยเคลื่อนที่สำหรับการสังเกตห้าครั้ง วิธีนี้ใช้ได้หรือไม่ ถ้าเป็นเช่นนั้นฉันควรใช้การสังเกตกี่ครั้ง หลังจากประเมินข้อมูลที่ขาดหายไปฉันทำการถดถอยของดัชนี GCC (เป็นตัวแปรตาม) กับดัชนี MSCI (เป็นตัวแปรอิสระ) สำหรับช่วงเวลาที่ใช้ร่วมกันได้ (ตั้งแต่มกราคม 2550 ถึงกันยายน 2554) จากนั้นแก้ไขโมเดลจากปัญหาทั้งหมด ในแต่ละเดือนฉันจะแทนที่ x ด้วยข้อมูลจากดัชนี MSCI …

2
วิธีจัดการกับข้อมูลที่ไม่มีอยู่ (ไม่หายไป)?
ฉันไม่เคยพบข้อความหรือตัวอย่างที่ดีเกี่ยวกับวิธีจัดการข้อมูล 'ไม่มีอยู่จริง' สำหรับอินพุตไปยังตัวจําแนกประเภทใด ๆ ฉันได้อ่านข้อมูลที่ขาดหายไปมากมาย แต่สิ่งที่สามารถทำได้เกี่ยวกับข้อมูลที่ไม่สามารถหรือไม่มีอยู่ที่เกี่ยวข้องกับอินพุตหลายตัวแปร ฉันเข้าใจว่านี่เป็นคำถามที่ซับซ้อนมากและจะแตกต่างกันไปขึ้นอยู่กับวิธีการฝึกอบรมที่ใช้ ... เช่นถ้าพยายามทำนายเวลาวิ่งสำหรับนักวิ่งหลายคนด้วยข้อมูลที่แม่นยำดี ตัวแปรที่เป็นไปได้ในหลาย ๆ ปัจจัย ได้แก่ : ตัวแปรอินพุต - นักวิ่งครั้งแรก (Y / N) ตัวแปรอินพุต - รอบเวลาก่อนหน้า (0 - 500 วินาที) ตัวแปรอินพุต - อายุ ตัวแปรอินพุต - ความสูง . . ตัวแปรอินพุตอื่น ๆ อีกมากมาย & เอาท์พุททำนาย - เวลาที่คาดการณ์ไว้ Laptime (0 - 500 วินาที) 'ตัวแปรที่ขาดหายไป' สำหรับ '2. …

2
ความน่าจะเป็นที่ใครบางคนจะชอบภาพ
ฉันมีปัญหาต่อไปนี้: - เราได้ตั้งค่าของคน N - เรามีชุดของภาพ K - แต่ละคนให้คะแนนภาพจำนวนหนึ่ง บุคคลอาจจะชอบหรือไม่ชอบภาพ (สิ่งเหล่านี้เป็นเพียงสมบัติสองอย่าง) - ปัญหาคือวิธีการคำนวณความน่าจะเป็นที่บางคนชอบภาพที่เฉพาะเจาะจง ฉันจะยกตัวอย่างนำเสนอสัญชาตญาณของฉัน N = 4 K = 5 + หมายความว่าบุคคลนั้นชอบภาพ - หมายความว่าบุคคลนั้นไม่ชอบรูปภาพ 0 หมายความว่าบุคคลนั้นไม่ได้ถูกถามเกี่ยวกับภาพและควรคาดการณ์ค่านั้น x 1 2 3 4 5 1 + - 0 0 + 2 + - + 0 + 3 - - + + 0 …

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
การชั่งน้ำหนักเป็นไปตามความแม่นยำ (เช่นการแปรผกผัน) เป็นส่วนสำคัญของการวิเคราะห์อภิมาน
การชั่งน้ำหนักตามความแม่นยำเป็นศูนย์กลางของการวิเคราะห์เมตาหรือไม่ Borenstein และคณะ (2009) เขียนว่าสำหรับการวิเคราะห์อภิมานเป็นไปได้ทั้งหมดที่จำเป็นคือ: การศึกษารายงานการประเมินจุดที่สามารถแสดงเป็นตัวเลขเดียว ความแปรปรวนสามารถคำนวณได้สำหรับการประเมินจุดนั้น ไม่ชัดเจนสำหรับฉันทันทีว่าทำไม (2) จำเป็นอย่างยิ่ง แต่ที่จริงแล้ววิธีการวิเคราะห์เมตาดาต้าที่ได้รับการยอมรับอย่างกว้างขวางทั้งหมดนั้นขึ้นอยู่กับแผนการชั่งน้ำหนักที่มีความแม่นยำ (เช่นความแปรปรวนผกผัน) ซึ่งต้องการการประมาณความแปรปรวนสำหรับขนาดผลการศึกษาของแต่ละคน โปรดทราบว่าในขณะที่วิธีการของ Hedges (Hedges & Olkin, 1985; Hedges & Vevea, 1998) และวิธีของ Hunter and Schmidt (Hunter & Schmidt, 2004) โดยทั่วไปใช้การถ่วงน้ำหนักขนาดตัวอย่างวิธีการเหล่านี้ใช้เฉพาะกับความแตกต่างของค่าเฉลี่ย ค่าเบี่ยงเบนมาตรฐานที่อื่น มันทำให้รู้สึกว่าน้ำหนักแปรผกผันกับความแปรปรวนในการศึกษาแต่ละครั้งจะลดความแปรปรวนในการประมาณขนาดผลกระทบโดยรวมดังนั้นรูปแบบการให้น้ำหนักนี้เป็นคุณสมบัติที่จำเป็นของวิธีการทั้งหมดหรือไม่? เป็นไปได้หรือไม่ที่จะทำการตรวจสอบอย่างเป็นระบบโดยไม่ต้องเข้าถึงความแปรปรวนของขนาดเอฟเฟกต์แต่ละขนาดและยังคงเรียกผลลัพธ์ว่าเป็นการวิเคราะห์อภิมาน ขนาดตัวอย่างดูเหมือนจะมีศักยภาพในฐานะพร็อกซีเพื่อความแม่นยำเมื่อความแปรปรวนไม่พร้อมใช้งาน ยกตัวอย่างเช่นเราสามารถใช้น้ำหนักตัวอย่างขนาดหนึ่งในการศึกษาที่กำหนดขนาดเอฟเฟกต์เป็นความแตกต่างของค่าเฉลี่ยดิบหรือไม่ สิ่งนั้นจะส่งผลต่อความสอดคล้องและประสิทธิภาพของขนาดผลเฉลี่ยที่ได้อย่างไร

3
ประโยชน์ของการใส่ความมากกว่าการสร้างแบบจำลองหลายรูปแบบในการถดถอยคืออะไร?
ฉันสงสัยว่าใครบางคนสามารถให้ข้อมูลเชิงลึกว่าทำไมการใส่ข้อมูลที่ขาดหายไปนั้นดีกว่าการสร้างแบบจำลองที่แตกต่างกันสำหรับกรณีที่ไม่มีข้อมูล โดยเฉพาะอย่างยิ่งในกรณีของแบบจำลองเชิงเส้น [แบบทั่วไป] (ฉันอาจเห็นในกรณีที่ไม่ใช่แบบเส้นตรงสิ่งต่าง ๆ ) สมมติว่าเรามีโมเดลเชิงเส้นพื้นฐาน: Y=β1X1+β2X2+β3X3+ϵY=β1X1+β2X2+β3X3+ϵ Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon แต่ชุดข้อมูลของเรามีบันทึกบางส่วนที่ไม่มีในชุดข้อมูลที่ทำนายรูปแบบจะถูกนำมาใช้มีก็จะเป็นกรณีของการขาดหายไปX_3ดูเหมือนจะมีสองวิธีในการดำเนินการ:X3X3X_3X3X3X_3 หลายรุ่น เราสามารถแบ่งข้อมูลออกเป็นและไม่ใช่เคสและสร้างโมเดลแยกต่างหากสำหรับแต่ละกรณี หากเราสมมติว่านั้นมีความสัมพันธ์ใกล้ชิดกับโมเดลข้อมูลที่หายไปอาจมีน้ำหนักเกินเพื่อให้ได้คำทำนายที่ดีที่สุดสองตัวทำนาย นอกจากนี้หากกรณีข้อมูลที่ขาดหายไปนั้นแตกต่างกันเล็กน้อย (เนื่องจากกลไกข้อมูลหายไป) ก็สามารถรวมความแตกต่างนั้นได้ ที่ด้านล่างทั้งสองรุ่นมีการปรับให้เหมาะสมกับข้อมูลเพียงบางส่วนเท่านั้นและไม่ได้ "ช่วยเหลือ" ซึ่งกันและกันดังนั้นชุดข้อมูลอาจไม่ดีกับชุดข้อมูลที่มี จำกัดX3X3X_3X3X3X_3X3X3X_3X2X2X_2X2X2X_2 การใส่ร้าย การถดถอยการใส่หลายครั้งก่อนจะเติมในโดยการสร้างแบบจำลองตามและแล้วสุ่มตัวอย่างแบบสุ่มเพื่อรักษาสัญญาณรบกวนในข้อมูลที่ใส่เข้าไป เนื่องจากนี่เป็นสองรุ่นอีกต่อไปสิ่งนี้จะไม่จบลงด้วยวิธีเดียวกับวิธีการหลายแบบข้างต้นหรือไม่ หากสามารถทำได้ดีกว่า - กำไรมาจากไหน เป็นความเหมาะสมของทำกับทั้งชุดหรือไม่X3X3X_3X1X1X_1X2X2X_2X1X1X_1 แก้ไข: ในขณะที่คำตอบของ Steffan อธิบายไว้ว่าการปรับแบบจำลองของกรณีที่สมบูรณ์บนข้อมูลที่มีการใส่ข้อมูลจะมีประสิทธิภาพสูงกว่าข้อมูลที่สมบูรณ์และดูเหมือนว่าการย้อนกลับเป็นความจริง แต่ก็ยังมีความเข้าใจผิดเกี่ยวกับการพยากรณ์ข้อมูลที่หายไป ถ้าฉันมีโมเดลด้านบนติดตั้งได้อย่างสมบูรณ์แบบโดยทั่วไปจะเป็นตัวแบบพยากรณ์ที่แย่มากถ้าฉันใส่ศูนย์ลงไปเมื่อทำนาย ลองนึกภาพเช่นว่าแล้วจะไม่ได้ผลอย่างสมบูรณ์ ( ) เมื่อเป็นปัจจุบัน แต่ก็ยังจะเป็นประโยชน์ในกรณีที่ไม่มีของX_3X2=X3+ηX2=X3+ηX_2 = …

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
ไม่มีค่าในตัวแปรตอบกลับใน JAGS
Gelman & Hill (2006) พูดว่า: ใน Bugs ผลลัพธ์ที่หายไปในการถดถอยสามารถจัดการได้อย่างง่ายดายโดยเพียงแค่รวมเวกเตอร์ข้อมูล, NA และทั้งหมด บักเป็นแบบจำลองตัวแปรผลลัพธ์อย่างชัดเจนและดังนั้นจึงเป็นเรื่องเล็กน้อยที่จะใช้โมเดลนี้ในการกำหนดค่าที่ขาดหายไปในแต่ละรอบ นี่เป็นวิธีที่ง่ายในการใช้ JAGS ในการทำนายผล แต่การสังเกตด้วยผลลัพธ์ที่หายไปยังส่งผลต่อการประมาณพารามิเตอร์ด้วยหรือไม่ หากเป็นเช่นนั้นจะมีวิธีง่ายๆในการเก็บการสังเกตเหล่านี้ไว้ในชุดข้อมูลที่ JAGS เห็น แต่จะไม่ส่งผลกระทบต่อค่าประมาณพารามิเตอร์หรือไม่ ฉันกำลังคิดเกี่ยวกับฟังก์ชั่นการตัด แต่มีให้เฉพาะใน BUGS ไม่ใช่ JAGS

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.