คำถามติดแท็ก multivariate-analysis

วิเคราะห์ที่มีมากกว่าหนึ่งตัวแปรวิเคราะห์พร้อมกันและตัวแปรเหล่านี้อาจขึ้นอยู่กับ (ตอบสนอง) หรือคนเดียวในการวิเคราะห์ สิ่งนี้สามารถเปรียบเทียบกับการวิเคราะห์ "หลาย" หรือ "หลายตัวแปร" ซึ่งมีความหมายมากกว่าหนึ่งตัวแปร (อิสระ) ตัวแปร

5
ทักษะใดที่จำเป็นสำหรับการวิเคราะห์ทางสถิติขนาดใหญ่
งานสถิติหลายงานขอประสบการณ์กับข้อมูลขนาดใหญ่ ทักษะทางสถิติและการคำนวณประเภทใดที่จำเป็นสำหรับการทำงานกับชุดข้อมูลขนาดใหญ่ ตัวอย่างเช่นวิธีการสร้างแบบจำลองการถดถอยที่ให้ชุดข้อมูลที่มีตัวอย่าง 10 ล้านตัวอย่าง

13
วิธีที่ดีที่สุดในการระบุค่าผิดปกติในข้อมูลหลายตัวแปรคืออะไร
สมมติว่าฉันมีชุดข้อมูลหลายตัวแปรขนาดใหญ่ที่มีตัวแปรอย่างน้อยสามตัว ฉันจะหาผู้ผิดได้อย่างไร Scatterplots แบบ Pairwise จะไม่ทำงานอย่างที่เป็นไปได้สำหรับค่าที่มีอยู่ใน 3 มิติที่ไม่ได้เป็นค่าที่เกินในพื้นที่ย่อย 2 มิติใด ๆ ฉันไม่ได้คิดถึงปัญหาการถดถอย แต่เป็นข้อมูลหลายตัวแปรที่แท้จริง ดังนั้นคำตอบที่เกี่ยวข้องกับการถดถอยที่แข็งแกร่งหรือการใช้ประโยชน์จากการคำนวณนั้นไม่มีประโยชน์ ความเป็นไปได้อย่างหนึ่งคือการคำนวณคะแนนองค์ประกอบหลักและมองหาค่าที่ผิดเพี้ยนในการกระจาย bivariate ของสองคะแนนแรก นั่นจะรับประกันได้หรือไม่ มีแนวทางที่ดีกว่านี้ไหม?

3
เป็นไปได้ไหมที่จะมีตัวแปรสุ่มแบบเกาส์ซึ่งเป็นการกระจายข้อต่อไม่ใช่เกาส์เซียน
ใครบางคนถามคำถามนี้กับฉันในการสัมภาษณ์งานและฉันตอบว่าการกระจายข้อต่อเป็นแบบเกาส์น ฉันคิดว่าฉันสามารถเขียนเกาส์ไบรอาริเอตด้วยวิธีและความแปรปรวนและความแปรปรวนร่วมได้ ฉันสงสัยว่าอาจมีกรณีที่น่าจะเป็นร่วมกันของ Gaussians สองไม่ Gaussian?

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
การถดถอยหลายตัวแปรหลายตัวแปรใน R
ฉันมี 2 ตัวแปรตาม (DVs) ซึ่งแต่ละคะแนนอาจได้รับอิทธิพลจากชุดของตัวแปรอิสระ 7 ตัว (IVs) DV เป็นแบบต่อเนื่องในขณะที่ชุดของ IV ประกอบด้วยการผสมผสานของตัวแปรแบบต่อเนื่องและแบบไบนารี (ในรหัสด้านล่างตัวแปรต่อเนื่องจะเขียนด้วยตัวอักษรตัวพิมพ์ใหญ่และตัวแปรไบนารีในตัวอักษรตัวพิมพ์เล็ก) จุดประสงค์ของการศึกษาคือการเปิดเผยว่า DVs เหล่านี้ได้รับอิทธิพลจากตัวแปร IV อย่างไร ฉันเสนอรูปแบบหลายตัวแปรการถดถอย (MMR) หลายตัวแปรต่อไปนี้: my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I) เมื่อต้องการตีความผลลัพธ์ที่ฉันเรียกสองคำสั่ง: summary(manova(my.model)) Manova(my.model) เอาต์พุตจากการโทรทั้งสองวางด้านล่างและแตกต่างกันอย่างมาก ใครช่วยกรุณาอธิบายว่าควรเลือกข้อความใดในการสรุปผล MMR อย่างถูกต้องและทำไม ข้อเสนอแนะใด ๆ จะได้รับการชื่นชมอย่างมาก เอาต์พุตโดยใช้summary(manova(my.model))ข้อความสั่ง: …

2
ความสัมพันธ์ระหว่างการวิเคราะห์องค์ประกอบอิสระและการวิเคราะห์ปัจจัยคืออะไร?
ฉันยังใหม่กับการวิเคราะห์ส่วนประกอบอิสระ (ICA) และมีเพียงความเข้าใจพื้นฐานของวิธีการ สำหรับฉันดูเหมือนว่า ICA จะคล้ายกับการวิเคราะห์ปัจจัย (FA) โดยมีข้อยกเว้นอย่างหนึ่ง: ICA ถือว่าตัวแปรสุ่มที่สังเกตนั้นเป็นการรวมกันของส่วนประกอบ / ปัจจัยอิสระที่ไม่ใช่แบบเกาส์ในขณะที่แบบจำลอง FA ดั้งเดิมสันนิษฐานว่าตัวแปรสุ่มสังเกต เป็นการรวมกันเชิงเส้นขององค์ประกอบ / ปัจจัยที่มีความสัมพันธ์แบบเกาส์เซียน ถูกต้องหรือไม่

5
การปรับค่า p ในการถดถอยหลายครั้งสำหรับการเปรียบเทียบหลายรายการเป็นแนวคิดที่ดีหรือไม่
สมมติว่าคุณเป็นนักวิจัยสังคมศาสตร์ / เศรษฐมิติที่พยายามค้นหาตัวทำนายที่เกี่ยวข้องของความต้องการใช้บริการ คุณมี 2 ผลลัพธ์ / ตัวแปรตามที่อธิบายความต้องการ (ใช้บริการใช่ / ไม่ใช่และจำนวนครั้ง) คุณมีตัวแปรทำนาย 10 ตัว / ตัวแปรอิสระที่สามารถอธิบายความต้องการในทางทฤษฎี (เช่นอายุเพศรายได้ราคาเชื้อชาติ ฯลฯ ) การรันการถดถอยหลาย ๆ ตัวสองตัวที่แยกกันจะให้ค่าประมาณ 20 สัมประสิทธิ์และค่า p เมื่อมีตัวแปรอิสระเพียงพอในการถดถอยของคุณคุณจะพบตัวแปรอย่างน้อยหนึ่งตัวแปรที่มีความสัมพันธ์อย่างมีนัยสำคัญทางสถิติระหว่างตัวแปรที่ขึ้นอยู่กับตัวแปรอิสระ คำถามของฉัน: เป็นความคิดที่ดีหรือไม่ที่จะแก้ไขค่า p สำหรับการทดสอบหลายครั้งถ้าฉันต้องการรวมตัวแปรอิสระทั้งหมดในการถดถอย การอ้างอิงถึงงานก่อนหน้านี้ชื่นชมมาก

3
สัญชาตญาณของการแจกแจงแบบเกาส์ที่มีเงื่อนไขคืออะไร
สมมติว่าSigma}) จากนั้นการแจกแจงตามเงื่อนไขของเนื่องจากนั้นมีการกระจายหลายตัวแปรตามปกติด้วยค่าเฉลี่ยX∼N2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})X1X1X_1X2=x2X2=x2X_2 = x_2 E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) และความแปรปรวน:Var[P(X1|X2=x2)]=σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} มันสมเหตุสมผลที่ความแปรปรวนจะลดลงเนื่องจากเรามีข้อมูลเพิ่มเติม แต่สัญชาตญาณที่อยู่เบื้องหลังสูตรหมายถึงอะไร ความแปรปรวนร่วมระหว่างและเป็นปัจจัยที่มีเงื่อนไขอย่างไรX 2X1X1X_1X2X2X_2

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
คะแนนความชอบต่างจากการเพิ่ม covariates ในการถดถอยอย่างไรและเมื่อใดที่พวกเขาต้องการคะแนนหลัง
ฉันยอมรับว่าฉันค่อนข้างใหม่กับคะแนนความชอบและการวิเคราะห์เชิงสาเหตุ สิ่งหนึ่งที่ไม่ชัดเจนสำหรับฉันในฐานะผู้มาใหม่คือ "การปรับสมดุล" โดยใช้คะแนนความชอบมีความแตกต่างทางคณิตศาสตร์จากสิ่งที่เกิดขึ้นเมื่อเราเพิ่ม covariates ลงในการถดถอย มีอะไรแตกต่างกันเกี่ยวกับการผ่าตัดและทำไมมันถึงดีกว่าการเพิ่มประชากรย่อยในการถดถอย ฉันเคยเห็นการศึกษาบางอย่างที่ทำการเปรียบเทียบเชิงประจักษ์ของวิธีการ แต่ฉันไม่เคยเห็นการสนทนาที่ดีเกี่ยวกับคุณสมบัติทางคณิตศาสตร์ของทั้งสองวิธีและทำไม PSM ให้ยืมตัวเองไปสู่การตีความเชิงสาเหตุ ดูเหมือนจะมีความสับสนและการโต้เถียงกันมากมายในสาขานี้ซึ่งทำให้สิ่งต่าง ๆ ยากขึ้น ความคิดใด ๆ เกี่ยวกับสิ่งนี้หรือตัวชี้ไปยังแหล่งข้อมูลที่ดี / กระดาษเพื่อทำความเข้าใจความแตกต่าง? (ฉันค่อย ๆ เดินผ่านหนังสือเวรกรรมของจูเดียเพิร์ลดังนั้นไม่จำเป็นต้องชี้ให้ฉันเห็น)

1
PCA และการวิเคราะห์สารบรรณที่เกี่ยวข้องกับ Biplot
Biplot มักใช้เพื่อแสดงผลลัพธ์ของการวิเคราะห์องค์ประกอบหลัก (และเทคนิคที่เกี่ยวข้อง) เป็นรูปแบบการกระจายแบบสองทางหรือแบบซ้อนทับซึ่งแสดงการโหลดส่วนประกอบและคะแนนส่วนประกอบพร้อมกัน ฉันได้รับแจ้งจาก @amoeba วันนี้ว่าเขาได้รับคำตอบจากความคิดเห็นของฉันไปยังคำถามที่ถามเกี่ยวกับวิธีการสร้าง / ปรับขนาดพิกัด biplot; และคำตอบของเขาพิจารณาหลายวิธีในรายละเอียดบางอย่าง และ @amoeba ถามว่าฉันจะแบ่งปันประสบการณ์ของฉันกับ biplot หรือไม่ ประสบการณ์ของฉัน (ทั้งทางทฤษฎีและโดยการทดลอง) ถึงแม้จะค่อนข้างเรียบง่าย nevetherless เน้นสองสิ่งที่ไม่ได้รับการยอมรับบ่อย: (1) biplot ควรจัดเป็นเทคนิคการวิเคราะห์มากกว่า scatterplot ในเครือ (2) PCA การวิเคราะห์การติดต่อ (และเทคนิคอื่น ๆ ที่รู้จักกันดี) เป็นกรณีเฉพาะของ biplot หรืออย่างน้อยพวกเขาทั้งคู่เกือบจะเป็นแฝด หากคุณสามารถทำ biplot คุณสามารถทำอีกสอง คำถามของฉันคือคุณ: พวกเขาเชื่อมต่อ (PCA, CA, Biplot) ได้อย่างไร? ได้โปรดแบ่งปันความคิดของคุณ ในขณะที่ฉันกำลังโพสต์บัญชีของตัวเองเกี่ยวกับเรื่องนี้ ฉันอยากจะขอให้เพิ่มคำตอบและพูดอย่างมีวิจารณญาณ

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

7
มีคำจำกัดความที่ยอมรับได้สำหรับค่ามัธยฐานของตัวอย่างบนระนาบหรือเว้นวรรคที่สูงขึ้นหรือไม่
ถ้าเป็นเช่นนั้นอะไร ถ้าไม่ทำไมไม่ สำหรับตัวอย่างในบรรทัดค่ามัธยฐานจะลดความเบี่ยงเบนสัมบูรณ์ทั้งหมด มันดูเหมือนเป็นธรรมชาติที่จะขยายคำจำกัดความให้เป็น R2 เป็นต้น แต่ฉันไม่เคยเห็นมาก่อน แต่ฉันออกไปจากสนามไปนานแล้ว

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
SVD ของเมทริกซ์ที่สัมพันธ์กันควรเป็นสารเติมแต่ง แต่ดูเหมือนจะไม่เป็นเช่นนั้น
ฉันแค่พยายามที่จะทำซ้ำการอ้างสิทธิ์ที่ทำในกระดาษต่อไปนี้การค้นหาความสัมพันธ์ Biclusters จาก Gene Expression Dataซึ่งก็คือ: โจทย์ 4. ถ้า J จากนั้นเรามี:XผมJ= RผมCTJXผมJ=RผมCJTX_{IJ}=R_{I}C^{T}_{J} ผม. ถ้าเป็นคนขี้เกียจที่สมบูรณ์แบบที่มีแบบจำลองเสริมแล้วX I Jก็เป็นคนที่สองที่สมบูรณ์แบบที่มีความสัมพันธ์กับคอลัมน์; ii ถ้าC Jเป็น bicluster สมบูรณ์แบบด้วยรูปแบบการเติมแต่งแล้วX ฉันJเป็น bicluster สมบูรณ์แบบด้วยความสัมพันธ์ในแถว; iii หากทั้งสองR ฉันและC Jมี biclusters สมบูรณ์แบบด้วยรูปแบบการเติมแต่งแล้วX ฉันJเป็นที่สมบูรณ์แบบความสัมพันธ์ biclusterRผมRผมR_{I}XผมJXผมJX_{IJ}CJCJC_JXผมJXผมJX_{IJ}RผมRผมR_ICJCJC_JXผมJXผมJX_{IJ} ข้อเสนอเหล่านี้สามารถพิสูจน์ได้อย่างง่ายดาย ... ... แต่แน่นอนพวกเขาไม่ได้พิสูจน์ ฉันกำลังใช้ตัวอย่างง่ายๆบางอย่างในกระดาษรวมทั้ง base + code R แบบกำหนดเองเพื่อดูว่าฉันสามารถแสดงข้อเสนอนี้ได้หรือไม่ corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4) (จากตารางที่ 1F) รหัสที่กำหนดเองเพื่อแปลงรูปแบบมาตรฐาน X …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.