คำถามติดแท็ก correlation

การวัดระดับความสัมพันธ์เชิงเส้นระหว่างตัวแปรหนึ่งตัว

3
วิธีการค้นหาความคล้ายคลึงกันระหว่างอนุกรมเวลา?
ในตัวอย่างต่อไปนี้ผมมีกรอบข้อมูลซึ่งประกอบด้วยอนุกรมเวลาของการวัดอุณหภูมิของน้ำบันทึกที่ 5 ระดับความลึกในมหาสมุทรที่แต่ละค่าในTempสอดคล้องกับวันที่และความลึกในDateTimeDepth set.seed(1) Temp <- rnorm(43800,sd=20) AirT <- rnorm(8760,sd=20) Depth <- c(1:5) DateTime = seq(from=as.POSIXct("2010-01-01 00:00"), to=as.POSIXct("2010-12-31 23:00"), length=8760) Time <- as.POSIXct(DateTime, format = "%Y-%m-%d %H:%M") DatT <- data.frame(Temp) ## bind together FinalDat <- cbind(DatT, Date = rep(Time,5)) FinalDat <- cbind(FinalDat, AirT = rep(AirT, 5), Depth = rep(Depth, each …

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
ระยะทาง Mahalanobis ผ่าน PCA เมื่อ
ฉันมีเมทริกซ์โดยที่คือจำนวนยีนและคือจำนวนผู้ป่วย ทุกคนที่ทำงานกับข้อมูลดังกล่าวรู้ว่านั้นใหญ่กว่าเสมอ โดยใช้การเลือกคุณลักษณะฉันมีอากาศลงไปจำนวนที่เหมาะสมมากขึ้น แต่ยังคงสูงกว่าnn×pn×pn\times ppppnnnpppnnnppppppnnn ฉันต้องการคำนวณความคล้ายคลึงกันของผู้ป่วยตามโปรไฟล์ทางพันธุกรรมของพวกเขา ฉันสามารถใช้ระยะทางแบบยุคลิดได้ แต่มาฮาโลโนบิสดูเหมือนจะเหมาะสมกว่าเพราะมันเกี่ยวข้องกับความสัมพันธ์ระหว่างตัวแปร ปัญหาที่เกิดขึ้น (ตามที่ระบุไว้ในนี้โพสต์ ) เป็นว่าระยะทาง Mahalanobis เฉพาะเมทริกซ์ความแปรปรวนร่วมไม่ทำงานเมื่อ&lt;p เมื่อฉันเรียกใช้ระยะทาง Mahalanobis ใน R ข้อผิดพลาดที่ฉันได้รับคือ:n&lt;pn&lt;pn < p Error in solve.default(cov, ...) : system is computationally singular: reciprocal condition number = 2.81408e-21 จนถึงตอนนี้ที่จะลองแก้ปัญหานี้ฉันใช้ PCA และแทนที่จะใช้ยีนฉันใช้ส่วนประกอบและดูเหมือนว่าจะทำให้ฉันคำนวณระยะทาง Mahalanobis ได้ 5 ส่วนประกอบแทนประมาณ 80% ของความแปรปรวนดังนั้นตอนนี้Pn&gt;pn&gt;pn > p คำถามของฉันคือ:ฉันสามารถใช้ PCA เพื่อให้ได้ระยะทาง Mahalanobis …

1
เราสามารถเปรียบเทียบความสัมพันธ์ระหว่างกลุ่มโดยการเปรียบเทียบความชันถดถอยได้หรือไม่?
ในคำถามนี้พวกเขาถามวิธีเปรียบเทียบ Pearson r สำหรับกลุ่มอิสระสองกลุ่ม (เช่นเพศชายและหญิง) ตอบและแสดงความคิดเห็นแนะนำสองวิธี: ใช้สูตรที่รู้จักกันดีของฟิชเชอร์โดยใช้ "z-tranformation" ของ r; ใช้การเปรียบเทียบความชัน (สัมประสิทธิ์การถดถอย) หลังสามารถทำได้อย่างง่ายดายเพียงแค่ผ่านโมเดลเชิงเส้นอิ่มตัว: Y= a + b X+ c G + dXGY=a+bX+cG+dXGY = a + bX + cG + dXGที่ไหน XXX และ YYY เป็นตัวแปรที่มีความสัมพันธ์และ GGGเป็นตัวแปรดัมมี่ (0 vs 1) ที่ระบุถึงสองกลุ่ม ขนาดของddd (ค่าสัมประสิทธิ์การโต้ตอบ) คือความแตกต่างของสัมประสิทธิ์ bbb หลังจากรูปแบบ Y=a+bXY=a+bXY = a + bX ดำเนินการในสองกลุ่มเป็นรายบุคคลและ …

3
วิธีทดสอบสมมติฐานว่าสหสัมพันธ์เท่ากับค่าที่กำหนดโดยใช้ R อย่างไร
มีฟังก์ชั่นในการทดสอบสมมติฐานว่าสหสัมพันธ์ของเวกเตอร์สองตัวมีค่าเท่ากับตัวเลขที่กำหนดหรือไม่พูดว่า 0.75? การใช้ cor.test ฉันสามารถทดสอบ cor = 0 และฉันเห็นได้ว่า 0.75 อยู่ในช่วงความมั่นใจหรือไม่ แต่มีฟังก์ชั่นในการคำนวณค่า p สำหรับ cor = 0.75 หรือไม่? x &lt;- rnorm(10) y &lt;- x+rnorm(10) cor.test(x, y)
10 r  correlation 

1
ขอบเขตของความแตกต่างของตัวแปรสุ่มที่สัมพันธ์กัน
ด้วยตัวแปรสุ่มที่มีความสัมพันธ์สูงสองตัวและฉันต้องการที่จะจำกัดความน่าจะเป็นที่ความแตกต่างเกินจำนวนที่กำหนด: XXXYYY|X−Y||X−Y| |X - Y| P(|X−Y|&gt;K)&lt;δP(|X−Y|&gt;K)&lt;δ P( |X - Y| > K) < \delta สมมติว่าความเรียบง่ายนั้น: สัมประสิทธิ์สหสัมพันธ์เป็นที่รู้กันว่า "สูง" พูดว่า: ρX,Y=covar(X,Y)/σXσY≥1−ϵρX,Y=covar(X,Y)/σXσY≥1−ϵ \rho_{X,Y}= {covar(X,Y)} / {\sigma_X \sigma_Y} \geq 1 - \epsilon X,YX,YX,Y มีค่าเฉลี่ยเป็นศูนย์:μx=μy=0μx=μy=0 \mu_x = \mu_y = 0 −1≤xi,yi≤1−1≤xi,yi≤1-1 \leq x_i, y_i \leq 1 (หรือ ถ้ามันง่ายกว่า)0≤xi,yi≤10≤xi,yi≤1 0 \leq x_i, y_i \leq 1 (ถ้าทำให้สิ่งต่าง …

3
จะทำอย่างไรกับสหสัมพันธ์แบบสุ่มที่มีค่าเท่ากับ 1 หรือ -1
ไม่ใช่เรื่องแปลกที่เกิดขึ้นเมื่อต้องรับมือกับตัวแบบผสมที่ซับซ้อนสูงสุด (การประมาณค่าเอฟเฟกต์แบบสุ่มที่เป็นไปได้ทั้งหมดสำหรับข้อมูลและตัวแบบที่กำหนด) นั้นสมบูรณ์แบบ (+1 หรือ -1) หรือสัมพันธ์ที่สมบูรณ์แบบ สำหรับวัตถุประสงค์ของการสนทนาเรามาดูรูปแบบและสรุปแบบจำลองต่อไปนี้ Model: Y ~ X*Cond + (X*Cond|subj) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects …

2
ความสัมพันธ์ที่ตีพิมพ์ส่วนใหญ่ในสังคมศาสตร์ไม่น่าไว้วางใจและจะต้องทำอย่างไร [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา แม้จะมีความสำคัญ แต่ smacking ของ "gotcha" ความพยายาม -istic โดยบุคคลที่จะเปิดเผยการปฏิบัติของวารสารล่ามากขึ้นและภัยคุกคาม looms พื้นฐานในร่มเงาของการวิจัยด้านวิทยาศาสตร์สังคม ( แม้ว่าจะมีปัญหาอย่างแน่นอนหลายตัวที่นักวิจัยต้องอยู่ ) เพื่อให้ได้ตรงไปยังจุดที่เป็นไปตามมุมมองหนึ่งที่เราอาจจะไม่สามารถที่จะไว้วางใจค่าสัมประสิทธิ์สหสัมพันธ์ที่ได้มาจากกลุ่มตัวอย่างที่มีขนาดเล็กกว่า 250 หนึ่งจะยากที่จะหาการทดสอบมากขึ้นอาศัยการอนุมานทิศทางและความแข็งแกร่งของการเชื่อมโยงระหว่างกับการวัดในสังคมศาสตร์กว่าค่าสัมประสิทธิ์สหสัมพันธ์ที่เชื่อถือได้ อย่างไรก็ตามจะไม่ถูกกดทับอย่างหนักเพื่อค้นหารายงานที่มีการตรวจสอบโดยเพื่อนโดยอ้างว่ามีความสัมพันธ์ที่ดีระหว่างสองโครงสร้างตามค่าสัมประสิทธิ์สหสัมพันธ์ซึ่งคำนวณจากข้อมูลที่มีน้อยกว่า 250 ราย จากวิกฤตการจำลองแบบในปัจจุบันที่เผชิญกับสังคมศาสตร์ (ดูลิงค์ที่สองด้านบน) เราจะดูรายงานนี้อย่างไรเกี่ยวกับการรักษาเสถียรภาพของค่าสัมประสิทธิ์สหสัมพันธ์ในตัวอย่างขนาดใหญ่เท่านั้น (อย่างน้อยตามมาตรฐานสาขาสังคมศาสตร์) มันเป็นอีกรอยร้าวในกำแพงของการวิจัยทางสังคมศาสตร์ที่ผ่านการตรวจสอบโดยเพื่อนหรือมันเป็นเรื่องเล็กน้อยที่ได้รับการนำเสนอมากเกินไปหรือไม่? เนื่องจากไม่มีคำตอบที่ถูกต้องสำหรับคำถามนี้ฉันหวังว่าจะสร้างเธรดที่ทรัพยากรเกี่ยวกับคำถามนี้สามารถใช้ร่วมกันพิจารณาอย่างรอบคอบและถกเถียงกัน (แน่นอนและสุภาพด้วยความเคารพ)

4
ฉันจะตรวจสอบว่าสองสหสัมพันธ์มีความแตกต่างอย่างมีนัยสำคัญได้อย่างไร
ฉันต้องการพิจารณาว่าชุดข้อมูลสองชุดใด (B1, B2) ดีกว่าสัมพันธ์ (pearsons r) กับชุดอื่น (A) ไม่มีข้อมูลในชุดข้อมูลทั้งหมด ฉันจะทราบได้อย่างไรว่าความสัมพันธ์ที่เกิดขึ้นมีความแตกต่างอย่างมีนัยสำคัญหรือไม่? เช่นค่า 8426 มีทั้ง A และ B1, r = 0.74 8798 มีอยู่ทั้ง A และ B2, r = 0.72 ฉันคิดว่าคำถามนี้อาจช่วยได้ แต่ก็ยังไม่ได้รับคำตอบ: จะรู้ได้อย่างไรว่าระบบหนึ่งดีกว่าอีกระบบหนึ่งอย่างมาก

2
อนุญาตให้ใช้ค่าเฉลี่ยในชุดข้อมูลเพื่อปรับปรุงความสัมพันธ์ได้หรือไม่
ฉันมีชุดข้อมูลที่มีตัวแปรตามและตัวแปรอิสระ ทั้งคู่ไม่ใช่อนุกรมเวลา ฉันมี 120 ข้อสังเกต ค่าสัมประสิทธิ์สหสัมพันธ์เท่ากับ 0.43 หลังจากการคำนวณนี้ฉันได้เพิ่มคอลัมน์สำหรับตัวแปรทั้งสองโดยมีค่าเฉลี่ยสำหรับการสังเกตทุก 12 ครั้งทำให้เกิดคอลัมน์ใหม่ 2 คอลัมน์ที่มีการสังเกต 108 ครั้ง (คู่) ค่าสัมประสิทธิ์สหสัมพันธ์ของคอลัมน์เหล่านี้คือ 0.77 ดูเหมือนว่าฉันจะปรับปรุงความสัมพันธ์ในลักษณะนี้ อนุญาตให้ทำเช่นนี้หรือไม่ ฉันเพิ่มอำนาจการอธิบายของตัวแปรอิสระโดยใช้ค่าเฉลี่ยหรือไม่

2
ตัวอย่างชีวิตจริงของความแตกต่างระหว่างความเป็นอิสระและสหสัมพันธ์
เป็นที่ทราบกันดีว่าความเป็นอิสระของตัวแปรสุ่มหมายถึงความสัมพันธ์แบบศูนย์ แต่ความสัมพันธ์แบบศูนย์นั้นไม่จำเป็นต้องหมายความถึงความเป็นอิสระ ฉันเจอตัวอย่างทางคณิตศาสตร์มากมายที่แสดงถึงการพึ่งพาแม้ว่าจะไม่มีสหสัมพันธ์ มีตัวอย่างชีวิตจริงที่สนับสนุนความจริงข้อนี้หรือไม่?

1
ความแปรปรวนของความสัมพันธ์กับการแปลงเชิงเส้น:
นี่เป็นหนึ่งในปัญหาในBasic Econometricsรุ่นที่ 4 (Q3.11) ของ Gujarati และกล่าวว่าสัมประสิทธิ์สหสัมพันธ์นั้นมีค่าคงที่เมื่อเทียบกับการเปลี่ยนแปลงของต้นกำเนิดและมาตราส่วนนั่นคือโดยที่ , , ,เป็นค่าคงที่โดยพลการcorr ( a X)+ b , c Y+ d) = corr ( X, วาย)corr(aX+b,cY+d)=corr(X,Y)\text{corr}(aX+b, cY+d) = \text{corr}(X,Y)aaaขbbคccddd แต่คำถามหลักของฉันคือต่อไปนี้: Letและจะจับคู่สังเกตและคิดว่าและมีความสัมพันธ์ในเชิงบวกคือ 0 ฉันรู้ว่าจะเป็นลบตามสัญชาตญาณ อย่างไรก็ตามถ้าเราใช้ , มันจะตามมาว่าซึ่งทำ ไม่สมเหตุสมผลXXXYYYXXXYYYcorr ( X), วาย) &gt; 0corr(X,Y)&gt;0\text{corr}(X,Y)>0corr ( - X, วาย)corr(-X,Y)\text{corr}(-X,Y)a = - 1 , b = 0 …

3
ชุดของตัวแปรที่ไม่เกี่ยวข้อง แต่เชิงเส้น
เป็นไปได้ไหมที่จะมีชุดของ KKK ตัวแปรที่ไม่เกี่ยวข้อง แต่เชิงเส้นขึ้นอยู่กับ? กล่าวคือ c o r (xผม,xJ) = 0cor(xi,xj)=0cor(x_i, x_j)=0 และ ΣKi = 1aผมxผม= 0∑i=1Kaixi=0 \sum_{i=1}^K a_ix_i=0 ถ้าใช่คุณสามารถเขียนตัวอย่างได้หรือไม่? แก้ไข: จากคำตอบมันตามมาว่ามันเป็นไปไม่ได้ อย่างน้อยมันจะเป็นไปได้ไหม P(|ρ^xi,xj−ρ^xi,v|&lt;ϵ)P(|ρ^xi,xj−ρ^xi,v|&lt;ϵ)\mathbb{P}(|\hat \rho_{x_i, x_j}-\hat \rho_{x_i, v}|<\epsilon) ที่ไหน ρ^ρ^\hat\rho คือค่าสัมประสิทธิ์สหสัมพันธ์ประมาณจาก nnn ตัวอย่างของตัวแปรและ vvv เป็นตัวแปรที่ไม่เกี่ยวข้องกับ xixix_i. ฉันกำลังคิดอะไรบางอย่างเช่น xK=1K∑K−1i=1xixK=1K∑i=1K−1xix_K=\dfrac{1}{K} \sum_{i=1}^{K-1} x_i K&gt;&gt;0K&gt;&gt;0K>>0

3
วิธีการจัดเรียงข้อมูล 2D ใหม่เพื่อให้ได้ค่าสหสัมพันธ์อย่างไร
ฉันมีชุดข้อมูลอย่างง่ายต่อไปนี้ที่มีตัวแปรต่อเนื่องสองตัว เช่น: d = data.frame(x=runif(100,0,100),y = runif(100,0,100)) plot(d$x,d$y) abline(lm(y~x,d), col="red") cor(d$x,d$y) # = 0.2135273 ฉันต้องจัดเรียงข้อมูลใหม่เพื่อให้มีความสัมพันธ์ระหว่างตัวแปรให้เป็น ~ 0.6 ฉันต้องการเก็บค่าเฉลี่ยและสถิติเชิงพรรณนาอื่น ๆ (sd, min, max, ฯลฯ .) ของตัวแปรทั้งสองให้คงที่ ฉันรู้ว่าเป็นไปได้ที่จะสร้างความสัมพันธ์กับข้อมูลที่ได้รับเช่น: d2 = with(d,data.frame(x=sort(x),y=sort(y))) plot(d2$x,d2$y) abline(lm(y~x,d2), col="red") cor(d2$x,d2$y) # i.e. 0.9965585 ถ้าฉันพยายามใช้sampleฟังก์ชั่นสำหรับงานนี้: cor.results = c() for(i in 1:1000){ set.seed(i) d3 = with(d,data.frame(x=sample(x),y=sample(y))) cor.results = c(cor.results,cor(d3$x,d3$y)) …
9 r  correlation 

2
สร้างเมทริกซ์แน่นอนบวกที่เป็นสมมาตรพร้อมรูปแบบการระบุช่องว่างที่กำหนดไว้ล่วงหน้า
ฉันกำลังพยายามสร้างเมทริกซ์สหสัมพันธ์ (symmetric psd) ด้วยโครงสร้าง sparsity ที่ระบุไว้ล่วงหน้า (ระบุโดยกราฟบนโหนด ) โหนดที่เชื่อมต่อในกราฟมีความสัมพันธ์ส่วนที่เหลือทั้งหมดคือ 0 และเส้นทแยงมุมคือ 1 ทั้งหมดหน้า× pp×pp\times pพีppρ ∼ U( 0 , 1 )ρ∼U(0,1)\rho \sim U(0,1) ฉันพยายามสร้างเมทริกซ์นี้หลายครั้ง แต่ไม่ค่อยได้เมทริกซ์สหสัมพันธ์ที่ถูกต้อง มีวิธีที่ฉันสามารถรับประกันเมทริกซ์สหสัมพันธ์หรือไม่? โปรดทราบว่าฉันสามารถมีความสัมพันธ์เชิงบวกเท่านั้นดังนั้นเป็นต้นไม่ใช่ตัวเลือกρ ∼ U( - 1 , 1 )ρ∼U(−1,1)\rho \sim U(-1,1) ความช่วยเหลือใด ๆ ที่ชื่นชมอย่างมาก!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.