คำถามติดแท็ก group-differences

ความแตกต่างของกลุ่มหมายถึงสถิติอย่างกว้าง ๆ ซึ่งวัดความแตกต่างระหว่างประชากรย่อยสองกลุ่มขึ้นไป

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
ขนาดเอฟเฟกต์คืออะไร ... และทำไมถึงมีประโยชน์?
ฉันมีพื้นหลังสถิติระดับเบื้องต้น - ระดับบัณฑิตศึกษา (สมมติว่าฉันรู้สถิติทางคณิตศาสตร์และความน่าจะเป็นในระดับปริญญาตรี (เช่น Wackerly et al., ความน่าจะเป็นของรอสส์) และมีความรู้เกี่ยวกับทฤษฎีการวัด) ฉันเพิ่งเริ่มงานออกแบบการทดลองและการรายงานสถิติในสถิติการศึกษาและได้ถูกวางไว้ในโครงการที่โดยทั่วไปฉันกำลังประเมินตัวชี้วัดความรับผิดชอบสำหรับโรงเรียนและต้องวิเคราะห์ข้อมูลเสนอการเปลี่ยนแปลง ฯลฯ โปรดทราบว่าฉันเป็นเพียงคนเดียว หนึ่งในแผนกของฉันมีพื้นหลังสถิติทางคณิตศาสตร์ ในตำแหน่งของฉันผู้คนแนะนำอย่างยิ่งให้ใช้ขนาดเอฟเฟกต์เพื่อวัดประสิทธิภาพของโปรแกรม ครั้งเดียวที่ฉันเคยได้ยินเรื่องขนาดเอฟเฟกต์มาจากเพื่อนของฉันซึ่งเรียนจิตวิทยา ความประทับใจของฉันคือEffect Size=Difference of MeansStandard Deviation.Effect Size=Difference of MeansStandard Deviation.\text{Effect Size} = \dfrac{\text{Difference of Means}}{\text{Standard Deviation}}\text{.} มีประโยชน์อย่างไรเกี่ยวกับตัวชี้วัดนี้ผ่านการทดสอบสมมติฐานแบบดั้งเดิมและทำไมฉันจึงต้องสนใจมัน ให้ฉันดูเหมือนว่าไม่มีอะไรมากไปกว่าสถิติทดสอบสำหรับสองตัวอย่าง -test ฉันไม่เห็นว่ามีประโยชน์เลยนอกจากอาจทำให้ทุกอย่างในระดับเดียวกัน (ซึ่งเป็นเหตุผลว่าทำไมทุกคน "ทำให้ปกติ" อะไรก็ได้) แต่ฉันคิดว่าสถิติการทดสอบ และp- value เป็นที่ต้องการtttppp

3
การเปรียบเทียบรายการอันดับ
สมมติว่าทั้งสองกลุ่มประกอบด้วยและแต่ละชุดมี 25 รายการจากมากไปน้อยสำคัญ อะไรคือวิธีที่ดีที่สุดในการเปรียบเทียบอันดับเหล่านี้n 2n1n1n_1n2n2n_2 เห็นได้ชัดว่ามีความเป็นไปได้ที่จะทำการทดสอบ Mann-Whitney U 25 ครั้ง แต่สิ่งนี้จะส่งผลให้ผลการทดสอบ 25 รายการตีความได้ซึ่งอาจมากเกินไป (และในการใช้อย่างเข้มงวด มันยังไม่ชัดเจนสำหรับฉันที่จะจัดอันดับความพึงพอใจทุกข้อสันนิษฐานของการทดสอบนี้ ฉันจะสนใจพอยน์เตอร์ในวรรณคดีเรื่องเรตติ้งและอันดับ บริบทบางอย่าง: 25 รายการเหล่านี้เกี่ยวข้องกับการศึกษาและทั้งสองกลุ่มเป็นนักการศึกษาประเภทต่างๆ ทั้งสองกลุ่มมีขนาดเล็ก แก้ไขในการตอบสนองต่อ @ttnphns: ฉันไม่ได้ตั้งใจจะเปรียบเทียบลำดับทั้งหมดของรายการในกลุ่ม 1 กับกลุ่ม 2 - นั่นคงเป็นค่าคงที่ @ttnphns ชี้ให้เห็น แต่อันดับในกลุ่ม 1 และกลุ่ม 2 จะแตกต่างกัน นั่นคือกลุ่ม 1 อาจจัดอันดับรายการ 1 สูงกว่ากลุ่ม 2 ฉันสามารถเปรียบเทียบพวกเขาแต่ละรายการได้รับค่าเฉลี่ยหรืออันดับเฉลี่ยของแต่ละรายการและทำการทดสอบ 25 ครั้ง แต่ฉันสงสัยว่ามีวิธีที่ดีกว่าในการทำเช่นนี้

2
ขนาดตัวอย่างที่ไม่เท่ากัน: เมื่อใดที่จะเรียกมันจะหยุดทำงาน
ฉันกำลังตรวจสอบบทความวารสารวิชาการและผู้เขียนได้เขียนสิ่งต่อไปนี้เป็นเหตุผลสำหรับการไม่รายงานสถิติเชิงอนุมาน (ฉันระบุลักษณะของทั้งสองกลุ่ม): รวม 25 แห่ง 2,349 (1.1%) ผู้ตอบแบบสอบถามรายงานX เรางดเว้นอย่างเหมาะสมจากการนำเสนอการวิเคราะห์ที่เปรียบเทียบกลุ่มXกับกลุ่มY (ผู้เข้าร่วมอื่น 2,324 คน) เนื่องจากผลลัพธ์เหล่านั้นอาจได้รับแรงผลักดันอย่างมากจากโอกาสด้วยผลลัพธ์ที่หายากนี้ คำถามของฉันคือผู้เขียนของการศึกษานี้เป็นธรรมในการขว้างปาในผ้าขนหนูที่เกี่ยวกับการเปรียบเทียบกลุ่ม? ถ้าไม่ฉันจะแนะนำอะไรให้พวกเขาบ้าง

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
เปรียบเทียบนัยสำคัญทางสถิติของความแตกต่างระหว่างการถดถอยพหุนามทั้งสองใน R
ดังนั้นก่อนอื่นเลยฉันทำการค้นคว้าเกี่ยวกับฟอรัมนี้และฉันรู้ว่ามี คำถามที่คล้ายกันมากถูกถาม แต่พวกเขามักจะไม่ได้รับคำตอบที่ถูกต้องหรือบางครั้งคำตอบนั้นไม่ละเอียดพอที่จะเข้าใจ ดังนั้นเวลานี้คำถามของฉันคือฉันมีชุดข้อมูลสองชุดในแต่ละชุดฉันทำการถดถอยพหุนามดังนี้: Ratio<-(mydata2[,c(2)]) Time_in_days<-(mydata2[,c(1)]) fit3IRC <- lm( Ratio~(poly(Time_in_days,2)) ) พหุนามถดถอยพหุนามคือ: ค่าสัมประสิทธิ์คือ: > as.vector(coef(fit3CN)) [1] -0.9751726 -4.0876782 0.6860041 > as.vector(coef(fit3IRC)) [1] -1.1446297 -5.4449486 0.5883757 และตอนนี้ฉันอยากรู้ว่าถ้ามีวิธีใช้ฟังก์ชัน R เพื่อทำการทดสอบที่จะบอกฉันว่ามีนัยสำคัญทางสถิติหรือไม่ในความแตกต่างระหว่างการถดถอยพหุนามทั้งสองที่รู้ว่าช่วงเวลาที่เกี่ยวข้องของวันคือ [ 1,100] จากสิ่งที่ฉันเข้าใจฉันไม่สามารถใช้การทดสอบ anova โดยตรงเพราะค่ามาจากชุดข้อมูลที่แตกต่างกันสองชุดหรือ AIC ซึ่งใช้ในการเปรียบเทียบแบบจำลอง / ข้อมูลจริง ฉันพยายามทำตามคำแนะนำของ @Roland ในคำถามที่เกี่ยวข้อง แต่ฉันอาจเข้าใจผิดบางอย่างเมื่อดูผลลัพธ์ของฉัน: นี่คือสิ่งที่ฉันทำ: ฉันรวมทั้งชุดข้อมูลของฉันเป็นหนึ่ง fเป็นตัวแปรที่ @Roland พูดถึง ฉันใส่ 1s สำหรับเซตแรกและ 0s …

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
กำลังตรวจสอบความแตกต่างระหว่างประชากร
บอกว่าเรามีตัวอย่างจากประชากรสองกลุ่ม A: และA Bสมมติว่าประชากรเหล่านี้ทำจากบุคคลและเราเลือกที่จะอธิบายบุคคลในแง่ของคุณสมบัติ คุณสมบัติบางอย่างเหล่านี้มีการจัดหมวดหมู่ (เช่นพวกเขาขับรถไปทำงานหรือไม่) และบางส่วนเป็นตัวเลข (เช่นความสูง) ขอเรียกคุณสมบัติเหล่านี้:X_n เรารวบรวมคุณลักษณะเหล่านี้หลายร้อยรายการ (เช่น n = 200) สมมติว่าใช้งานง่ายโดยไม่มีข้อผิดพลาดหรือเสียงรบกวนในทุกคนX1...XnX1...XnX_1 \ldots X_n เราตั้งสมมติฐานว่าประชากรสองคนนั้นแตกต่างกัน เป้าหมายของเราคือการตอบคำถามสองข้อต่อไปนี้: จริง ๆ แล้วพวกเขาแตกต่างกันอย่างมีนัยสำคัญ? อะไรคือความแตกต่างระหว่างพวกเขา? วิธีการเช่นต้นไม้ตัดสินใจ (เช่นป่าสุ่ม) และการวิเคราะห์การถดถอยเชิงเส้นสามารถช่วยได้ ตัวอย่างเช่นเราสามารถดูความสำคัญของคุณลักษณะในป่าสุ่มหรือสัมประสิทธิ์ที่เหมาะสมในการถดถอยเชิงเส้นเพื่อทำความเข้าใจกับสิ่งที่อาจแยกแยะกลุ่มเหล่านี้และสำรวจความสัมพันธ์ระหว่างคุณลักษณะและประชากร ก่อนที่ฉันจะไปตามเส้นทางนี้ฉันต้องการเข้าใจตัวเลือกของฉันที่นี่สิ่งที่ดีและทันสมัยกับการปฏิบัติที่ไม่ดี โปรดทราบว่าเป้าหมายของฉันไม่ใช่การคาดการณ์ต่อการทดสอบและการค้นหาความแตกต่างที่สำคัญระหว่างกลุ่ม อะไรคือหลักการในการแก้ไขปัญหานี้ ต่อไปนี้เป็นข้อกังวลของฉัน: วิธีการเช่นการวิเคราะห์การถดถอยเชิงเส้นอาจไม่ตอบอย่างเต็มที่ (2) ใช่ไหม? เช่นความพอดีสามารถช่วยค้นหาความแตกต่างบางอย่าง แต่ไม่ใช่ความแตกต่างที่สำคัญทั้งหมด ตัวอย่างเช่นความหลากหลายหลายระดับอาจทำให้เราไม่สามารถค้นหาคุณลักษณะทั้งหมดที่แตกต่างกันในแต่ละกลุ่ม (อย่างน้อยก็ในรูปแบบเดียว) ด้วยเหตุผลเดียวกันฉันคาดหวังว่า ANOVA จะไม่สามารถให้คำตอบเต็ม (2) ได้เช่นกัน ยังไม่ชัดเจนว่าวิธีการคาดการณ์จะตอบได้อย่างไร (1) ตัวอย่างเช่นฟังก์ชั่นการสูญเสียการจำแนกประเภท / การทำนายใดที่เราควรลด และเราจะทดสอบได้อย่างไรว่ากลุ่มแตกต่างกันอย่างมีนัยสำคัญเมื่อเรามีความเหมาะสมหรือไม่? ในที่สุดฉันกังวลว่าคำตอบที่ฉันได้รับ …

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

3
วิธีการทดสอบว่ากลุ่มย่อยหมายถึงแตกต่างจากกลุ่มโดยรวมที่มีกลุ่มย่อยหรือไม่
ฉันจะทดสอบได้อย่างไรว่าค่าเฉลี่ย (เช่นความดันโลหิต) ของกลุ่มย่อย (เช่นผู้ที่เสียชีวิต) แตกต่างจากกลุ่มทั้งหมด (เช่นทุกคนที่เป็นโรครวมถึงผู้ที่เสียชีวิต)? เห็นได้ชัดว่ากลุ่มแรกเป็นกลุ่มย่อยของกลุ่มที่สอง ฉันควรใช้การทดสอบสมมติฐานแบบใด

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.