คำถามติดแท็ก clustered-standard-errors

4
ข้อผิดพลาดมาตรฐานการจัดกลุ่มใน R (ทั้งด้วยตนเองหรือใน PLM)
ฉันพยายามที่จะเข้าใจข้อผิดพลาดมาตรฐาน "การจัดกลุ่ม" และวิธีการดำเนินการใน R (มันเป็นเรื่องเล็กน้อยใน Stata) ใน RI ไม่ประสบความสำเร็จในการใช้งานplmหรือเขียนฟังก์ชั่นของตัวเอง ฉันจะใช้diamondsข้อมูลจากggplot2แพ็คเกจ ฉันสามารถแก้ไขเอฟเฟกต์ด้วยตัวแปรจำลองได้ > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t …

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
ควรใช้เอฟเฟกต์คงที่เมื่อใดกับการใช้คลัสเตอร์ SE
สมมติว่าคุณมีข้อมูลข้ามส่วนเดียวที่บุคคลตั้งอยู่ภายในกลุ่ม (เช่นนักเรียนในโรงเรียน) และคุณต้องการประเมินแบบจำลองของแบบฟอร์มY_i = a + B*X_iที่Xเป็นเวกเตอร์ของลักษณะระดับบุคคลและaค่าคงที่ ในกรณีนี้สมมติว่าไม่มีความแตกต่างระหว่างกลุ่มที่แตกต่างกันทำให้ลำเอียงประเมินจุดของคุณBและ SEs ของพวกเขาเนื่องจากมีความสัมพันธ์กับตัวแปรอิสระที่คุณสนใจ ทางเลือกหนึ่งคือการจัดกลุ่ม SE ของคุณตามกลุ่ม (โรงเรียน) อีกประการหนึ่งคือการรวมกลุ่ม FE อีกอย่างคือให้ใช้ทั้ง สิ่งที่ควรพิจารณาเมื่อเลือกระหว่างตัวเลือกเหล่านี้ ไม่ชัดเจนว่าทำไมกลุ่มหนึ่งอาจรวมกลุ่ม SE ตามกลุ่มและใช้กลุ่ม FE ในกรณีเฉพาะของฉันฉันมี 35 กลุ่มและ 5,000 คนซ้อนกันภายในแต่ละกลุ่ม ฉันได้ติดตามการสนทนาในไฟล์ PDF นี้แต่ไม่ชัดเจนว่าทำไมและเมื่อใดจึงอาจใช้ทั้ง SEs แบบคลัสเตอร์และเอฟเฟกต์คงที่ (โปรดอภิปรายข้อดีและข้อเสียของ SEs เทียบกับ FE แทนการแนะนำฉันพอดีกับโมเดลหลายระดับ)

1
ข้อผิดพลาดมาตรฐานแบบกลุ่มเทียบกับการสร้างแบบจำลองหลายระดับ?
ฉันอ่านผ่านหนังสือหลายเล่ม (Raudenbush & Bryk, Snijders & Bosker, Gelman & Hill ฯลฯ ) และอีกหลายบทความ (Gelman, Jusko, Primo & Jacobsmeier ฯลฯ ) และฉันก็ยังไม่ได้คาดหัว ความแตกต่างที่สำคัญระหว่างการใช้ข้อผิดพลาดมาตรฐานแบบกลุ่มการสร้างแบบจำลองหลายระดับ ฉันเข้าใจส่วนต่าง ๆ ที่เกี่ยวข้องกับคำถามการวิจัยในมือ มีคำตอบบางประเภทที่คุณจะได้รับจากการสร้างแบบจำลองหลายระดับเท่านั้น อย่างไรก็ตามตัวอย่างเช่นสำหรับแบบจำลองสองระดับที่ค่าสัมประสิทธิ์ที่คุณสนใจอยู่ที่ระดับที่สองข้อดีของการทำหนึ่งวิธีเหนืออีกวิธีหนึ่งคืออะไร ในกรณีนี้ฉันไม่กังวลเกี่ยวกับการคาดการณ์หรือแยกค่าสัมประสิทธิ์บุคคลสำหรับกลุ่ม ข้อแตกต่างที่สำคัญที่ฉันสามารถพบได้คือข้อผิดพลาดมาตรฐานที่กลุ่มประสบเมื่อกลุ่มมีขนาดตัวอย่างไม่เท่ากันและการสร้างแบบจำลองหลายระดับนั้นอ่อนแอเมื่อพิจารณาว่าเป็นข้อกำหนดของการกระจายสัมประสิทธิ์แบบสุ่ม (ในขณะที่ใช้ข้อผิดพลาดมาตรฐาน . และท้ายที่สุดแล้วทั้งหมดนี้หมายความว่าสำหรับแบบจำลองที่สามารถใช้วิธีใดวิธีหนึ่งอย่างชัดเจนเราควรได้ผลลัพธ์ที่คล้ายคลึงกันในแง่ของค่าสัมประสิทธิ์และข้อผิดพลาดมาตรฐานหรือไม่ คำตอบหรือแหล่งข้อมูลที่เป็นประโยชน์จะได้รับการชื่นชมอย่างมาก

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.