คำถามติดแท็ก covariance

ความแปรปรวนร่วมเป็นปริมาณที่ใช้วัดความแข็งแรงและทิศทางของความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว ความแปรปรวนร่วมนั้นไม่มีการลดขนาดดังนั้นบ่อยครั้งที่ยากต่อการตีความ เมื่อปรับขนาดด้วย SD ของตัวแปรมันจะกลายเป็นค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน

2
การวิเคราะห์องค์ประกอบหลักสามารถนำมาใช้กับราคาหุ้น / ข้อมูลที่ไม่คงที่ได้หรือไม่?
ฉันอ่านตัวอย่างที่กำหนดในหนังสือเครื่องเรียนรู้สำหรับแฮกเกอร์ ฉันจะทำอย่างละเอียดในตัวอย่างก่อนแล้วพูดคุยเกี่ยวกับคำถามของฉัน ตัวอย่าง : ใช้ชุดข้อมูลเป็นเวลา 10 ปีของราคาหุ้น 25 ใช้ PCA ในราคาหุ้น 25 เปรียบเทียบองค์ประกอบหลักกับดัชนี Dow Jones สังเกตความคล้ายคลึงกันที่แข็งแกร่งระหว่าง PC และ DJI! จากสิ่งที่ฉันเข้าใจตัวอย่างเป็นเหมือนของเล่นที่ช่วยให้มือใหม่อย่างฉันเข้าใจว่าเครื่องมือ PCA นั้นมีประสิทธิภาพเพียงใด! อย่างไรก็ตามการอ่านจากแหล่งข้อมูลอื่นฉันเห็นว่าราคาหุ้นไม่คงที่และใช้ PCA ในราคาหุ้นนั้นเป็นเรื่องไร้สาระ แหล่งที่มาจากที่ฉันอ่านเยาะเย้ยความคิดทั้งหมดของการคำนวณความแปรปรวนร่วมและ PCA สำหรับราคาหุ้น คำถาม : ตัวอย่างทำงานได้ดีอย่างไร PCA ของราคาหุ้นและ DJI นั้นใกล้กันมาก และข้อมูลนั้นเป็นข้อมูลจริงจากราคาหุ้น 2545-2554 ใครบางคนสามารถบอกให้ฉันทราบถึงแหล่งข้อมูลที่ดีสำหรับการอ่านข้อมูลที่อยู่กับที่ / ไม่อยู่นิ่ง ฉันเป็นโปรแกรมเมอร์ ฉันมีพื้นฐานคณิตศาสตร์ที่ดี แต่ฉันไม่ได้ทำคณิตศาสตร์อย่างจริงจังเป็นเวลา 3 ปี ฉันเริ่มอ่านอีกครั้งเกี่ยวกับสิ่งต่าง ๆ เช่นการเดินแบบสุ่ม ฯลฯ

2
เกี่ยวกับความเป็นอิสระตามเงื่อนไขและการแสดงกราฟิก
เมื่อศึกษาการเลือกความแปรปรวนร่วมฉันเคยอ่านตัวอย่างต่อไปนี้ ด้วยความเคารพต่อรูปแบบดังต่อไปนี้: เมทริกซ์ความแปรปรวนร่วมและเมทริกซ์ความแปรปรวนร่วมผกผันมีดังต่อไปนี้ ฉันไม่เข้าใจว่าทำไมความอิสระของและจึงถูกตัดสินโดยความแปรปรวนร่วมที่นี่?yxxxyyy ตรรกะทางคณิตศาสตร์ที่เป็นรากฐานของความสัมพันธ์นี้คืออะไร? นอกจากนี้กราฟด้านซ้ายในรูปต่อไปนี้อ้างว่าสามารถจับความสัมพันธ์ที่เป็นอิสระระหว่างและ ; ทำไม?yxxxyyy

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
การทดสอบสมมติฐานเกี่ยวกับเมทริกซ์ความแปรปรวนร่วมแบบผกผัน
สมมติว่าฉันสังเกตIID และความปรารถนาในการทดสอบเอช0 :เวช( Σ - 1 ) =สำหรับเมทริกซ์คล้อยตามและเวกเตอร์ มีงานที่รู้จักกับปัญหานี้หรือไม่?xผม∼ N( μ , Σ )xi∼N(μ,Σ)x_i \sim \mathcal{N}\left(\mu,\Sigma\right)H0: A H0:A H_0: A\ ( Σ- 1) =a(Σ−1)=a\left(\Sigma^{-1}\right) = aAAAaaa ความพยายามที่ชัดเจน (กับฉัน) จะผ่านการทดสอบอัตราส่วนความน่าจะเป็น แต่ดูเหมือนว่าการเพิ่มความเป็นไปได้สูงสุดภายใต้ข้อ จำกัด ของจะต้องใช้ตัวแก้ SDPและอาจมีขนดกสวยH0H0H_0

1
ความแปรปรวนร่วมของตัวแปรมาตรฐานมีความสัมพันธ์กันหรือไม่?
ฉันมีคำถามพื้นฐาน ว่าฉันมีสองตัวแปรสุ่มและYฉันสามารถสร้างมาตรฐานให้พวกเขาโดยการหักค่าเฉลี่ยและหารด้วยค่าเบี่ยงเบนมาตรฐานคือ(X))}XXXYYYXstandardized=(X−E(X))(SD(X))Xstandardized=(X−E(X))(SD(X))X_{standardized} = \frac{(X - E(X))}{(SD(X))} ความสัมพันธ์ของและ ,เท่ากับความแปรปรวนร่วมของและเวอร์ชันมาตรฐานหรือไม่? นั่นคือหรือไม่XXXYYYCor(X,Y)Cor(X,Y)Cor(X, Y)XXXYYYCor(X,Y)=Cov(Xstandardized,Ystandardized)Cor(X,Y)=Cov(Xstandardized,Ystandardized)Cor(X, Y) = Cov(X_{standardized}, Y_{standardized})

1
เมทริกซ์ความแปรปรวนร่วมซีโมติกคืออะไร?
มันเป็นความจริงไหมที่เมทริกซ์ความแปรปรวนร่วมซีโมติกเท่ากับเมทริกซ์ความแปรปรวนร่วมของการประมาณค่าพารามิเตอร์? ถ้าไม่มันคืออะไร อะไรคือความแตกต่างระหว่างเมทริกซ์ความแปรปรวนร่วมกับเมทริกซ์ความแปรปรวนร่วมแบบเชิงซ้อนในกรณีนั้น? ขอบคุณล่วงหน้า!

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
ระยะทาง Mahalanobis ผ่าน PCA เมื่อ
ฉันมีเมทริกซ์โดยที่คือจำนวนยีนและคือจำนวนผู้ป่วย ทุกคนที่ทำงานกับข้อมูลดังกล่าวรู้ว่านั้นใหญ่กว่าเสมอ โดยใช้การเลือกคุณลักษณะฉันมีอากาศลงไปจำนวนที่เหมาะสมมากขึ้น แต่ยังคงสูงกว่าnn×pn×pn\times ppppnnnpppnnnppppppnnn ฉันต้องการคำนวณความคล้ายคลึงกันของผู้ป่วยตามโปรไฟล์ทางพันธุกรรมของพวกเขา ฉันสามารถใช้ระยะทางแบบยุคลิดได้ แต่มาฮาโลโนบิสดูเหมือนจะเหมาะสมกว่าเพราะมันเกี่ยวข้องกับความสัมพันธ์ระหว่างตัวแปร ปัญหาที่เกิดขึ้น (ตามที่ระบุไว้ในนี้โพสต์ ) เป็นว่าระยะทาง Mahalanobis เฉพาะเมทริกซ์ความแปรปรวนร่วมไม่ทำงานเมื่อ&lt;p เมื่อฉันเรียกใช้ระยะทาง Mahalanobis ใน R ข้อผิดพลาดที่ฉันได้รับคือ:n&lt;pn&lt;pn < p Error in solve.default(cov, ...) : system is computationally singular: reciprocal condition number = 2.81408e-21 จนถึงตอนนี้ที่จะลองแก้ปัญหานี้ฉันใช้ PCA และแทนที่จะใช้ยีนฉันใช้ส่วนประกอบและดูเหมือนว่าจะทำให้ฉันคำนวณระยะทาง Mahalanobis ได้ 5 ส่วนประกอบแทนประมาณ 80% ของความแปรปรวนดังนั้นตอนนี้Pn&gt;pn&gt;pn > p คำถามของฉันคือ:ฉันสามารถใช้ PCA เพื่อให้ได้ระยะทาง Mahalanobis …

2
ฉันจะอธิบายความแปรปรวนเชิงพื้นที่ในรูปแบบเชิงเส้นได้อย่างไร
พื้นหลัง ฉันมีข้อมูลจากการศึกษาภาคสนามซึ่งมีสี่ระดับการรักษาและหกซ้ำในแต่ละช่วงตึก (4x6x2 = 48 การสังเกต) บล็อกอยู่ห่างกันประมาณ 1 ไมล์และภายในบล็อกมีตารางของ 42, 2m x 4m แปลงและทางเดินกว้าง 1m; การศึกษาของฉันใช้เพียง 24 แปลงในแต่ละบล็อก ฉันต้องการประเมินความแปรปรวนร่วมเชิงพื้นที่ นี่คือตัวอย่างการวิเคราะห์โดยใช้ข้อมูลจากบล็อกเดียวโดยไม่มีการบัญชีสำหรับความแปรปรวนร่วมเชิงพื้นที่ ในชุดข้อมูลplotคือ id ของพล็อตxคือตำแหน่ง x และyตำแหน่ง y ของแต่ละพล็อตที่มีพล็อต 1 อยู่ตรงกลางที่ 0, 0 levelคือระดับการรักษาและresponseเป็นตัวแปรตอบกลับ layout &lt;- structure(list(plot = c(1L, 3L, 5L, 7L, 8L, 11L, 12L, 15L, 16L, 17L, 18L, 22L, 23L, 26L, …

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
ทำไมชุดข้อมูลนี้จึงไม่มีความแปรปรวนร่วม
ความเข้าใจของฉันเกี่ยวกับความแปรปรวนร่วมในการทำงานคือข้อมูลที่มีความสัมพันธ์ควรมีความแปรปรวนร่วมค่อนข้างสูง ฉันเจอสถานการณ์ที่ข้อมูลของฉันดูมีความสัมพันธ์ (ดังที่แสดงในพล็อตกระจาย) แต่ความแปรปรวนร่วมอยู่ใกล้ศูนย์ ความแปรปรวนร่วมของข้อมูลจะเป็นศูนย์ได้อย่างไรถ้าพวกมันมีความสัมพันธ์กัน? import numpy as np x1 = np.array([ 0.03551153, 0.01656052, 0.03344669, 0.02551755, 0.02344788, 0.02904475, 0.03334179, 0.02683399, 0.02966126, 0.03947681, 0.02537157, 0.03015175, 0.02206443, 0.03590149, 0.03702152, 0.02697212, 0.03777607, 0.02468797, 0.03489873, 0.02167536]) x2 = np.array([ 0.0372599 , 0.02398212, 0.03649548, 0.03145494, 0.02925334, 0.03328783, 0.03638871, 0.03196318, 0.03347346, 0.03874528, 0.03098697, 0.03357531, 0.02808358, 0.03747998, …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.