คำถามติดแท็ก correlation

การวัดระดับความสัมพันธ์เชิงเส้นระหว่างตัวแปรหนึ่งตัว

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
ผูกพันกับความสัมพันธ์ของตัวแปรสุ่มสามตัว
มีสามตัวแปรสุ่มเป็นx,y,zx,y,zx,y,z Z ความสัมพันธ์สามประการระหว่างตัวแปรทั้งสามนั้นเหมือนกัน นั่นคือ, ρ=cor(x,y)=cor(x,z)=cor(y,z)ρ=cor(x,y)=cor(x,z)=cor(y,z)\rho=\textrm{cor}(x,y)=\textrm{cor}(x,z)=\textrm{cor}(y,z) แคบผูกคุณสามารถให้สำหรับคืออะไรρρ\rho ?

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
เมื่อความสัมพันธ์สามารถเป็นประโยชน์โดยไม่มีสาเหตุได้อย่างไร
สัตว์เลี้ยงพูดถึงนักสถิติหลายคนคือ "สหสัมพันธ์ไม่ได้บอกเป็นนัยถึงสาเหตุ" นี่เป็นเรื่องจริง แต่สิ่งหนึ่งที่ดูเหมือนว่าส่อให้เห็นในที่นี้คือความสัมพันธ์มีค่าเพียงเล็กน้อยหรือไม่มีเลย มันเป็นเรื่องจริงเหรอ? มันไร้ประโยชน์หรือไม่ที่จะมีความรู้ว่าตัวแปรสองตัวมีความสัมพันธ์กัน? ฉันไม่สามารถจินตนาการได้ว่าเป็นกรณี ฉันไม่คุ้นเคยกับการวิเคราะห์เชิงทำนายอย่างน่ากลัว แต่ดูเหมือนว่าหากXเป็นตัวทำนายYมันจะมีประโยชน์ในการทำนายค่าในอนาคตที่YอิงตามXโดยไม่คำนึงถึงสาเหตุ ฉันเห็นคุณค่าของสหสัมพันธ์อย่างไม่ถูกต้องหรือไม่? และถ้าไม่นักสถิติหรือนักวิทยาศาสตร์ข้อมูลอาจใช้ความสัมพันธ์โดยไม่มีสาเหตุในสถานการณ์ใด

2
ทำไมการเดินแบบสุ่มมีความสัมพันธ์กัน?
ฉันสังเกตว่าโดยเฉลี่ยแล้วค่าสัมประสิทธิ์สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันนั้นใกล้เคียงกับการเดินสุ่มคู่ใด ๆ โดยไม่คำนึงถึงความยาวการเดิน0.560.42 มีคนอธิบายปรากฏการณ์นี้ได้ไหม ฉันคาดว่าความสัมพันธ์จะเล็กลงเมื่อความยาวเดินเพิ่มขึ้นเช่นเดียวกับการสุ่มลำดับ สำหรับการทดลองของฉันฉันใช้การสุ่ม gaussian walk พร้อม step เฉลี่ย 0 และเบี่ยงเบนมาตรฐาน step 1 UPDATE: ฉันลืมไปยังศูนย์ข้อมูลที่ว่าทำไมมันเป็นแทน0.560.42 นี่คือสคริปต์ Python เพื่อคำนวณสหสัมพันธ์: import numpy as np from itertools import combinations, accumulate import random def compute(length, count, seed, center=True): random.seed(seed) basis = [] for _i in range(count): walk = np.array(list(accumulate( random.gauss(0, 1) for …

7
ความสัมพันธ์นั้นเทียบเท่ากับความสัมพันธ์หรือไม่?
ศาสตราจารย์สถิติของฉันอ้างว่าคำว่า "สหสัมพันธ์" นั้นใช้กับความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรในขณะที่คำว่า "การเชื่อมโยง" นั้นใช้กับความสัมพันธ์ทุกประเภทอย่างกว้างขวาง กล่าวอีกนัยหนึ่งเขาอ้างว่าคำว่า "ความสัมพันธ์แบบไม่เป็นเชิงเส้น" คือคำปฏิสนธิ จากสิ่งที่ฉันสามารถทำในส่วนนี้ในบทความ Wikipedia ที่ " ความสัมพันธ์และการพึ่งพา " สัมประสิทธิ์สหสัมพันธ์ Pearson อธิบายถึงระดับของ "เส้นตรง" ในความสัมพันธ์ระหว่างสองตัวแปร นี่แสดงให้เห็นว่าคำว่า "สหสัมพันธ์" นั้นใช้กับความสัมพันธ์เชิงเส้นเท่านั้น ในทางกลับกันการค้นหาอย่างรวดเร็วของ Google สำหรับ " ความสัมพันธ์ที่ไม่ใช่เชิงเส้น " จะปรากฏขึ้นจำนวนเอกสารเผยแพร่ที่ใช้คำว่า อาจารย์ของฉันถูกต้องหรือว่า "สหสัมพันธ์" เป็นเพียงคำพ้องความหมายของ "สมาคม"?

3
หากการถดถอยเชิงเส้นสัมพันธ์กับสหสัมพันธ์ของเพียร์สันมีเทคนิคการถดถอยใด ๆ ที่เกี่ยวข้องกับสหสัมพันธ์ของเคนดัลล์และสเปียร์แมนหรือไม่?
บางทีคำถามนี้อาจไร้เดียงสา แต่: หากการถดถอยเชิงเส้นสัมพันธ์อย่างใกล้ชิดกับสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันมีเทคนิคการถดถอยใด ๆ ที่เกี่ยวข้องกับสัมประสิทธิ์สหสัมพันธ์ของเคนดัลล์และสเปียร์แมนหรือไม่?

2
ความสัมพันธ์ถือว่ามีความคงที่ของข้อมูลหรือไม่?
การวิเคราะห์ระหว่างตลาดเป็นวิธีการสร้างแบบจำลองพฤติกรรมของตลาดโดยใช้วิธีการค้นหาความสัมพันธ์ระหว่างตลาดที่แตกต่างกัน บ่อยครั้งที่ความสัมพันธ์ถูกคำนวณระหว่างสองตลาดพูดว่า S&P 500 และสมบัติ 30 ปีของสหรัฐฯ การคำนวณเหล่านี้มักจะไม่ได้ขึ้นอยู่กับข้อมูลราคาซึ่งเห็นได้ชัดสำหรับทุกคนว่ามันไม่เหมาะกับคำจำกัดความของอนุกรมเวลาคงที่ วิธีแก้ปัญหาที่เป็นไปได้ (ใช้การส่งคืนแทน) การคำนวณความสัมพันธ์ซึ่งข้อมูลไม่อยู่นิ่งแม้จะคำนวณทางสถิติที่ถูกต้องหรือไม่ คุณจะบอกว่าการคำนวณสหสัมพันธ์นั้นค่อนข้างไม่น่าเชื่อถือหรือไร้สาระธรรมดา ๆ ?

7
การทดสอบการพึ่งพาเชิงเส้นระหว่างคอลัมน์ของเมทริกซ์
ฉันมีเมทริกซ์สหสัมพันธ์ของการรักษาความปลอดภัยที่ส่งกลับซึ่งปัจจัยเป็นศูนย์ (นี่เป็นเรื่องที่น่าแปลกใจเล็กน้อยเนื่องจากเมทริกซ์สหสัมพันธ์ตัวอย่างและเมทริกซ์ความแปรปรวนร่วมที่สอดคล้องกันในทางทฤษฎีควรเป็นบวกแน่นอน) สมมติฐานของฉันคือความปลอดภัยอย่างน้อยหนึ่งรายการขึ้นอยู่กับหลักทรัพย์อื่น ๆ มีฟังก์ชั่นใน R ที่ทดสอบเมทริกซ์เชิงเส้นสำหรับการพึ่งพาเชิงเส้นแต่ละคอลัมน์หรือไม่? ตัวอย่างเช่นวิธีหนึ่งคือการสร้างเมทริกซ์ความสัมพันธ์หนึ่งการรักษาความปลอดภัยในแต่ละครั้งและคำนวณปัจจัยในแต่ละขั้นตอน เมื่อดีเทอร์มิแนนต์ = 0 แล้วหยุดตามที่คุณระบุความปลอดภัยซึ่งเป็นการรวมกันเชิงเส้นของหลักทรัพย์อื่น ๆ เทคนิคอื่นใดที่สามารถระบุการพึ่งพาเชิงเส้นในเมทริกซ์นั้นได้รับการชื่นชม

3
การหาค่า p-pearson ในสหสัมพันธ์ p
เป็นไปได้หรือไม่ที่จะหาค่า p-pearson correlation ใน R? เพื่อค้นหาความสัมพันธ์ลูกแพร์สันฉันมักจะทำเช่นนี้ col1 = c(1,2,3,4) col2 = c(1,4,3,5) cor(col1,col2) # [1] 0.8315218 แต่ฉันจะหาค่า p ของสิ่งนี้ได้อย่างไร

7
ตัวอย่างง่าย ๆ ของ uncorrelated แต่ไม่ใช่อิสระและ
นักเรียนที่ทำงานหนัก ๆ ทุกคนเป็นตัวอย่างของ "นักเรียนทุกคนขี้เกียจ" อะไรคือตัวอย่างของตัวอย่างง่ายๆที่ว่า "ถ้าตัวแปรสุ่มและไม่ได้มีความสัมพันธ์กันแล้วพวกมันมีความเป็นอิสระ"?YXXXYYY

3
ความสัมพันธ์ระหว่างมุมฉากความสัมพันธ์และความเป็นอิสระคืออะไร?
ฉันได้อ่านบทความที่บอกว่าเมื่อใช้การเปรียบเทียบความแตกต่างที่วางแผนไว้เพื่อค้นหาวิธีการที่แตกต่างกันในการวิเคราะห์ความแปรปรวนทางเดียวคอนดิชั่นเนอร์ควรเป็นมุมฉากเพื่อไม่ให้สัมพันธ์กันและป้องกันข้อผิดพลาดประเภทที่ 1 ฉันไม่เข้าใจว่าทำไมฉากมุมฉากถึงไม่เกี่ยวข้องกันไม่ว่าในกรณีใด ๆ ฉันไม่สามารถหาคำอธิบายที่เข้าใจง่าย / เข้าใจง่ายดังนั้นฉันจึงพยายามเข้าใจบทความ / คำตอบ https://www.psych.umn.edu/faculty/waller/classes/FA2010/Readings/rodgers.pdf มุมฉากมีความหมายอย่างไรในบริบทของสถิติ แต่สำหรับฉันพวกเขาขัดแย้งกัน คนแรกบอกว่าถ้าสองตัวแปร uncorrelated และ / หรือ orthogonal แล้วพวกเขาก็เป็นอิสระเป็นเส้นตรง แต่ความจริงที่ว่าพวกเขาเป็นอิสระเชิงเส้นตรงไม่ได้หมายความว่าพวกเขาจะไม่เกี่ยวข้องกันและ / หรือ orthogonal ตอนนี้ในลิงค์ที่สองมีคำตอบว่าสิ่งที่รัฐเช่น "orthogonal หมายถึง uncorrelated" และ "ถ้า X และ Y เป็นอิสระแล้วพวกเขาจะ Orthogonal แต่การสนทนาไม่เป็นความจริง" ความคิดเห็นที่น่าสนใจอีกข้อหนึ่งในการเชื่อมโยงครั้งที่สองที่สัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรสองตัวเท่ากับโคไซน์ของมุมระหว่างเวกเตอร์สองตัวที่สอดคล้องกับตัวแปรเหล่านี้ซึ่งบอกว่าเวกเตอร์มุมฉากทั้งสองนั้นไม่เกี่ยวข้องกันอย่างสมบูรณ์ การเรียกร้อง) ดังนั้นความสัมพันธ์ที่แท้จริงระหว่างอิสรภาพมุมฉากและสหสัมพันธ์คืออะไร บางทีฉันอาจจะพลาดอะไรบางอย่าง แต่ฉันไม่สามารถหาได้ว่ามันคืออะไร

5
วิธีการทดสอบและหลีกเลี่ยงความหลากสีในโมเดลเชิงเส้นผสม?
ฉันกำลังใช้โมเดลเชิงเส้นเชิงเส้นผสม ฉันใช้แพ็คเกจ "lme4" ใน R แบบจำลองของฉันอยู่ในรูปแบบ: model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) ก่อนใช้แบบจำลองของฉันฉันตรวจสอบความเป็นไปได้หลายทางระหว่างตัวทำนาย ฉันทำสิ่งนี้โดย: ทำดาต้าเฟรมของเครื่องทำนาย dummy_df <- data.frame(predictor1, predictor2) ใช้ฟังก์ชัน "cor" เพื่อคำนวณความสัมพันธ์ของ Pearson ระหว่างตัวทำนาย correl_dummy_df <- round(cor(dummy_df, use = "pair"), 2) หาก "correl_dummy_df" มากกว่า 0.80 แล้วฉันตัดสินใจว่าตัวทำนาย 1 และทำนาย 2 มีความสัมพันธ์สูงเกินไปและไม่รวมอยู่ในแบบจำลองของฉัน ในการอ่านหนังสือบางส่วนจะมีวิธีที่เป็นไปได้มากกว่าในการตรวจสอบความหลากหลายของสี ใครมีคำแนะนำเกี่ยวกับเรื่องนี้หรือไม่? "Variance Inflation …

5
การอ่านเบื้องต้นเกี่ยวกับ Copulas
ตอนนี้ฉันกำลังมองหาการอ่านเบื้องต้นเกี่ยวกับ Copulas สำหรับการสัมมนาของฉัน ฉันกำลังค้นหาเนื้อหามากมายที่พูดถึงแง่มุมทางทฤษฎีซึ่งเป็นเรื่องที่ดี แต่ก่อนที่ฉันจะพูดถึงสิ่งเหล่านั้นฉันกำลังมองหาเพื่อสร้างความเข้าใจที่เข้าใจง่ายในหัวข้อนี้ ใครช่วยแนะนำเอกสารที่ดีที่ให้รากฐานที่ดีให้กับผู้เริ่มต้น (ฉันมี 1-2 หลักสูตรในสถิติและเข้าใจ marginals การกระจายหลายตัวแปรการแปลงผกผัน ฯลฯ ในระดับที่เหมาะสม)?

1
การตีความทางเรขาคณิตของสัมประสิทธิ์สหสัมพันธ์
ฉันสนใจในความหมายทางเรขาคณิตของค่าสหสัมพันธ์และสัมประสิทธิ์การตัดสินใจในการถดถอยหรือในสัญกรณ์เวกเตอร์RRRR2R2R^2yi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} นี่คือการออกแบบเมทริกซ์มีแถวและคอลัมน์ที่แรกคือ , เวกเตอร์ของ 1s ที่สอดคล้องกับการตัด\XX\mathbf{X}nnnkkkx1=1nx1=1n\mathbf{x}_1 = \mathbf{1}_nβ1β1\beta_1 รูปทรงเรขาคณิตน่าสนใจยิ่งขึ้นในพื้นที่หัวเรื่อง -dimensional มากกว่าในพื้นที่ตัวแปร -dimensional กำหนดเมทริกซ์หมวก:nnnkkk H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top นี่คือการฉายฉากบนพื้นที่คอลัมน์ของคือแบน ผ่านกำเนิดทอดโดยเวกเตอร์เป็นตัวแทนของแต่ละตัวแปรคนแรกซึ่งเป็น\จากนั้นโครงการเวกเตอร์ของการตอบสนองที่สังเกตบน "เงา" ของมันบนพื้นราบเวกเตอร์ของค่าติดตั้งและถ้าเรา มองไปตามเส้นทางของเส้นโครงที่เราเห็นเวกเตอร์ของเศษเหลือสร้างด้านที่สามของรูปสามเหลี่ยม สิ่งนี้น่าจะให้ทางเราสองทางในการตีความทางเรขาคณิตของXX\mathbf{X}xฉัน1 n H Y Y = H …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.