คำถามติดแท็ก correlation

การวัดระดับความสัมพันธ์เชิงเส้นระหว่างตัวแปรหนึ่งตัว

9
ความสัมพันธ์ไม่ได้บ่งบอกถึงสาเหตุ แต่สิ่งที่เกี่ยวกับเมื่อหนึ่งในตัวแปรเป็นเวลาหรือไม่
ฉันรู้ว่าคำถามนี้ถูกถามเป็นพันล้านครั้งดังนั้นหลังจากดูออนไลน์ฉันเชื่อมั่นอย่างเต็มที่ว่าความสัมพันธ์ระหว่าง 2 ตัวแปรไม่ได้บ่งบอกถึงสาเหตุ ในหนึ่งในการบรรยายสถิติของฉันในวันนี้เรามีการบรรยายแบบแขกรับเชิญจากนักฟิสิกส์เกี่ยวกับความสำคัญของวิธีการทางสถิติในฟิสิกส์ เขากล่าวว่าคำสั่งที่น่าประหลาดใจ: สหสัมพันธ์ไม่ได้บอกถึงสาเหตุ แต่อย่างใดอย่างหนึ่งของตัวแปรคือเวลา ดังนั้นหากมีความสัมพันธ์ที่ดีระหว่างตัวแปรอิสระและเวลาบางอย่างนี่ก็แสดงถึงสาเหตุเช่นกัน ฉันไม่เคยได้ยินคำแถลงนี้มาก่อน นักฟิสิกส์ / นักสัมพัทธภาพเห็น "สาเหตุ" ต่างจากสถิติของคนหรือไม่?

4
ทำไมความสัมพันธ์แบบศูนย์ไม่จำเป็นต้องหมายความถึงความเป็นอิสระ
หากตัวแปรสองตัวมีค่าสหสัมพันธ์ 0 เหตุใดจึงไม่จำเป็นต้องเป็นอิสระ ตัวแปรที่สัมพันธ์กันเป็นศูนย์ไม่มีอิสระภายใต้สถานการณ์พิเศษหรือไม่? หากเป็นไปได้ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายไม่ใช่คำศัพท์ทางเทคนิคขั้นสูง

5
ความสัมพันธ์ระหว่างตัวแปรต่อเนื่องและหมวดหมู่ (ระบุ)
ฉันต้องการหาความสัมพันธ์ระหว่างตัวแปรแบบต่อเนื่อง (ตัวแปรตาม) และหมวดหมู่ (ชื่อ: เพศตัวแปรอิสระ) ข้อมูลต่อเนื่องจะไม่กระจายตามปกติ ก่อนหน้านี้ผมได้คำนวณโดยใช้สเปียร์แมนρอย่างไรก็ตามฉันได้รับแจ้งว่าไม่ถูกต้องρρ\rho ในขณะที่ค้นหาบนอินเทอร์เน็ตฉันพบว่ากล่องควบคุมสามารถให้แนวคิดเกี่ยวกับจำนวนที่เกี่ยวข้อง แต่ผมกำลังมองหาค่าเชิงปริมาณเช่นค่าสัมประสิทธิ์เพียร์สันหรือสเปียร์แมนρคุณช่วยฉันเกี่ยวกับวิธีการทำสิ่งนี้ได้ไหม หรือแจ้งวิธีการใดที่เหมาะสมρρ\rho Point Biserial Coefficient เป็นตัวเลือกที่ถูกต้องหรือไม่?

5
ความสัมพันธ์ระหว่างและค่าสัมประสิทธิ์สหสัมพันธ์
สมมติว่าผมมีอาร์เรย์สอง 1 มิติและA_2แต่ละจุดมี 100 จุดข้อมูล เป็นข้อมูลจริงและคือการทำนายแบบจำลอง ในกรณีนี้ค่าจะเป็น: ในขณะเดียวกันนี่จะเท่ากับค่ากำลังสองของสัมประสิทธิ์สหสัมพันธ์ ตอนนี้ถ้าฉันสลับทั้งสอง:เป็นข้อมูลจริงและคือการทำนายแบบจำลอง จากสมการ , เนื่องจากค่าสัมประสิทธิ์สหสัมพันธ์ไม่สนใจซึ่งมาก่อน,a1a1a_1a2a2a_2a1a1a_1a2a2a_2R2R2R^2R2=1−SSresSStot (1).R2=1−SSresSStot (1). R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \quad\quad\quad\quad\quad\ \ \quad\quad(1). R2=(Correlation Coefficient)2(2).R2=(Correlation Coefficient)2(2). R^2 = (\text{Correlation Coefficient})^2 \quad (2). a2a2a_2a1a1a_1(2)(2)(2)R2R2R^2จะเหมือนกัน อย่างไรก็ตามจากสมการ , , ค่าจะเปลี่ยนเนื่องจากSS_ {tot}เปลี่ยนถ้าเราเปลี่ยนyจากa_1เป็นa_2 ; ในขณะเดียวกันSS_ {res} = \ sum_i (f_i- \ bar y) ^ 2จะไม่เปลี่ยนแปลง(1)(1)(1)SStot=∑i(yi−y¯)2SStot=∑i(yi−y¯)2SS_{tot}=\sum_i(y_i - …

9
ความสัมพันธ์ระหว่าง
ความสัมพันธ์ระหว่างและในโครงเรื่องต่อไปนี้คืออะไร? ในมุมมองของฉันมีความสัมพันธ์เชิงเส้นเชิงลบ แต่เนื่องจากเรามีค่าผิดจำนวนมากความสัมพันธ์จึงอ่อนมาก ฉันถูกไหม? ฉันต้องการเรียนรู้วิธีที่เราสามารถอธิบายแผนการกระจายXYYYXXX

3
ความแตกต่างระหว่างป่าสุ่มและต้นไม้ที่สุ่มมาก
ฉันเข้าใจว่าป่าสุ่มและต้นไม้ที่สุ่มมากที่สุดนั้นแตกต่างกันในแง่ที่ว่าต้นไม้ในป่าสุ่มนั้นแตกต่างกันไปในขณะที่พวกมันสุ่มในกรณีของต้นไม้ที่สุ่มมาก ๆ (เพื่อความแม่นยำมากขึ้น ท่ามกลางการแยกแบบสุ่มในตัวแปรที่เลือกสำหรับต้นไม้ปัจจุบัน) แต่ฉันไม่เข้าใจถึงผลกระทบของการแบ่งแยกที่แตกต่างกันนี้ในสถานการณ์ต่างๆ พวกเขาเปรียบเทียบในแง่ของอคติ / ความแปรปรวนได้อย่างไร พวกเขาจะเปรียบเทียบต่อหน้าตัวแปรที่ไม่เกี่ยวข้องได้อย่างไร? พวกเขาจะเปรียบเทียบในที่ที่มีตัวแปรที่สัมพันธ์กันอย่างไร?

1
คำนวณด้วยตนเอง
ฉันรู้ว่านี่เป็นRคำถามที่ค่อนข้างเฉพาะแต่ฉันอาจกำลังคิดถึงความแปรปรวนสัดส่วนที่อธิบายว่าไม่ถูกต้อง นี่ไงR2R2R^2 ฉันพยายามที่จะใช้แพคเกจR randomForestฉันมีข้อมูลการฝึกอบรมและข้อมูลการทดสอบ เมื่อฉันพอดีกับโมเดลฟอเรสต์แบบสุ่มrandomForestฟังก์ชันจะอนุญาตให้คุณป้อนข้อมูลการทดสอบใหม่เพื่อทดสอบ จากนั้นจะบอกเปอร์เซ็นต์ความแปรปรวนที่อธิบายไว้ในข้อมูลใหม่นี้ เมื่อฉันดูสิ่งนี้ฉันจะได้หมายเลขหนึ่ง เมื่อฉันใช้predict()ฟังก์ชั่นเพื่อทำนายค่าผลลัพธ์ของข้อมูลการทดสอบตามแบบจำลองที่พอดีกับข้อมูลการฝึกอบรมและฉันใช้ค่าสัมประสิทธิ์สหสัมพันธ์กำลังสองระหว่างค่าเหล่านี้กับค่าผลลัพธ์จริงสำหรับข้อมูลการทดสอบฉันได้ตัวเลขที่แตกต่างกัน ค่าเหล่านี้ไม่ตรงกัน นี่คือRรหัสบางส่วนเพื่อแสดงปัญหา # use the built in iris data data(iris) #load the randomForest library library(randomForest) # split the data into training and testing sets index <- 1:nrow(iris) trainindex <- sample(index, trunc(length(index)/2)) trainset <- iris[trainindex, ] testset <- iris[-trainindex, ] # fit a …

1
ทำไมการทดสอบของ Mantel จึงเป็นที่ต้องการมากกว่า Moran I
การทดสอบของ Mantelใช้กันอย่างแพร่หลายในการศึกษาทางชีววิทยาเพื่อตรวจสอบความสัมพันธ์ระหว่างการกระจายของพื้นที่ของสัตว์ (ตำแหน่งในอวกาศ) ด้วยเช่นความสัมพันธ์ทางพันธุกรรมอัตราการรุกรานหรือคุณลักษณะอื่น ๆ มีวารสารที่ดีมากมายที่ใช้มัน ( PNAS, พฤติกรรมสัตว์, นิเวศวิทยาโมเลกุล ... ) ฉันประดิษฐ์รูปแบบบางอย่างที่อาจเกิดขึ้นตามธรรมชาติ แต่การทดสอบของ Mantel ดูเหมือนว่าไม่มีประโยชน์เลยที่จะตรวจจับพวกมัน บนมืออื่น ๆ , โมแรนฉันได้ผลลัพธ์ที่ดีกว่า(ดูหน้าค่าในแต่ละล็อต) ทำไมนักวิทยาศาสตร์ไม่ใช้โมแรนฉันแทน? มีเหตุผลซ่อนเร้นที่ฉันไม่เห็นหรือไม่? และถ้ามีเหตุผลบางอย่างฉันจะรู้ได้อย่างไร (จะต้องสร้างสมมติฐานต่างกันอย่างไร) เพื่อใช้การทดสอบของ Mantel หรือ Moran I อย่างเหมาะสม? ตัวอย่างในชีวิตจริงจะเป็นประโยชน์ ลองนึกภาพสถานการณ์นี้:มีสวนผลไม้ (17 x 17 ต้น) ที่มีอีกากำลังนั่งอยู่บนต้นไม้แต่ละต้น ระดับของ "เสียงรบกวน" สำหรับแต่ละอีกานั้นมีให้บริการและคุณต้องการทราบว่าการกระจายของอีกาในอวกาศนั้นถูกกำหนดโดยเสียงรบกวนหรือไม่ มี (อย่างน้อย) 5 ความเป็นไปได้: "นกขนนกแห่กันไป" กาที่คล้ายกันมากขึ้นมีขนาดเล็กของระยะทางระหว่างพวกเขา(กลุ่มเดียว) "นกขนนกแห่กันไป" อีกครั้งที่อีกาที่คล้ายกันคือระยะทางทางภูมิศาสตร์ที่เล็กกว่า(หลายกลุ่ม)แต่กลุ่มที่มีเสียงดังกาไม่มีความรู้เกี่ยวกับการมีอยู่ของกระจุกดาวที่สอง "แนวโน้มแบบโมโนโทนิก" "ตรงกันข้ามดึงดูด" …

2
สมมาตรแบบผสมในภาษาอังกฤษธรรมดาคืออะไร
ฉันเพิ่งตระหนักว่าโมเดลผสมที่มีหัวเรื่องเป็นปัจจัยสุ่มเท่านั้นและปัจจัยอื่น ๆ ที่เป็นปัจจัยคงที่เทียบเท่ากับ ANOVA เมื่อตั้งค่าโครงสร้างสหสัมพันธ์ของโมเดลผสมกับสมมาตรผสม ดังนั้นฉันอยากจะรู้ว่าสมมาตรผสมหมายถึงอะไรในบริบทของ ANOVA แบบผสม (เช่นการแบ่งส่วนย่อย) ที่อธิบายได้ดีที่สุดในภาษาอังกฤษแบบธรรมดา นอกจากนี้สมมาตรแบบผสมlmeยังมีโครงสร้างความสัมพันธ์ประเภทอื่นเช่น corSymm เมทริกซ์สหสัมพันธ์ทั่วไปที่ไม่มีโครงสร้างเพิ่มเติม หรือความแตกต่างของความสัมพันธ์เชิงพื้นที่ ดังนั้นฉันมีคำถามที่เกี่ยวข้องกับโครงสร้างความสัมพันธ์ประเภทอื่น ๆ ที่อาจจะแนะนำให้ใช้ในบริบทของการทดลองออกแบบ (กับปัจจัยระหว่างและภายในเรื่อง)? มันจะดีถ้าคำตอบสามารถชี้ไปที่การอ้างอิงบางอย่างสำหรับโครงสร้างความสัมพันธ์ที่แตกต่างกัน

4
X และ Y ไม่มีความสัมพันธ์ แต่ X เป็นตัวทำนายที่สำคัญของ Y ในการถดถอยหลายครั้ง มันหมายความว่าอะไร?
X และ Y ไม่มีความสัมพันธ์ (-.01); อย่างไรก็ตามเมื่อฉันวาง X ลงในการพยากรณ์การถดถอยหลายครั้งพร้อมกับตัวแปร (A, B, C) อื่น (ที่เกี่ยวข้อง) ตัวแปรสามตัว, X และตัวแปรอื่นอีกสองตัว (A, B) เป็นตัวทำนายที่สำคัญของ Y โปรดทราบว่าอีกสอง ( ตัวแปร A, B) มีความสัมพันธ์อย่างมีนัยสำคัญกับ Y นอกการถดถอย ฉันควรตีความข้อค้นพบเหล่านี้อย่างไร X ทำนายความแปรปรวนที่ไม่ซ้ำกันใน Y แต่เนื่องจากสิ่งเหล่านี้ไม่มีความสัมพันธ์ (Pearson) จึงยากที่จะตีความ ฉันรู้กรณีตรงกันข้าม (เช่นตัวแปรสองตัวมีความสัมพันธ์กัน แต่การถดถอยไม่สำคัญ) และค่อนข้างง่ายกว่าที่จะเข้าใจจากมุมมองเชิงทฤษฎีและสถิติ โปรดทราบว่าตัวพยากรณ์บางตัวมีความสัมพันธ์กันค่อนข้างมาก (เช่น. 70) แต่ไม่ใช่ในระดับที่ฉันคาดหวังว่าจะมีความหลากหลายทางชีวภาพที่สำคัญ บางทีฉันอาจเข้าใจผิด หมายเหตุ: ฉันถามคำถามนี้ก่อนหน้านี้และมันถูกปิด เหตุผลก็คือคำถามนี้ซ้ำซ้อนกับคำถามที่ว่า " การถดถอยจะมีความสำคัญได้อย่างไรบางทีฉันไม่เข้าใจคำถามอื่น แต่ฉันเชื่อว่าคำถามเหล่านี้เป็นคำถามที่แยกจากกันทั้งในเชิงคณิตศาสตร์และเชิงทฤษฎีคำถามของฉันไม่ขึ้นอยู่กับว่า …

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
ความแปรปรวนของผลผลิตของตัวแปรตาม
สูตรสำหรับความแปรปรวนของผลิตภัณฑ์ของตัวแปรตามคืออะไร ในกรณีของตัวแปรอิสระสูตรนั้นง่าย: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 แต่สูตรสำหรับตัวแปรที่เกี่ยวข้องคืออะไร โดยวิธีการฉันจะค้นหาความสัมพันธ์ตามข้อมูลทางสถิติได้อย่างไร

6
หาก 'ความสัมพันธ์ไม่ได้บ่งบอกถึงสาเหตุ' ถ้าฉันพบความสัมพันธ์ที่มีนัยสำคัญทางสถิติฉันจะพิสูจน์ความเป็นเหตุเป็นผลได้อย่างไร
ผมเข้าใจว่าความสัมพันธ์ไม่ได้เป็นสาเหตุ สมมติว่าเรามีความสัมพันธ์สูงระหว่างตัวแปรสองตัว คุณจะตรวจสอบว่าความสัมพันธ์นี้เป็นเพราะสาเหตุได้อย่างไร? หรือภายใต้เงื่อนไขใดที่เราสามารถใช้ข้อมูลทดลองเพื่ออนุมานความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรสองตัวหรือมากกว่าได้

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
SVD ของเมทริกซ์ที่สัมพันธ์กันควรเป็นสารเติมแต่ง แต่ดูเหมือนจะไม่เป็นเช่นนั้น
ฉันแค่พยายามที่จะทำซ้ำการอ้างสิทธิ์ที่ทำในกระดาษต่อไปนี้การค้นหาความสัมพันธ์ Biclusters จาก Gene Expression Dataซึ่งก็คือ: โจทย์ 4. ถ้า J จากนั้นเรามี:XผมJ= RผมCTJXผมJ=RผมCJTX_{IJ}=R_{I}C^{T}_{J} ผม. ถ้าเป็นคนขี้เกียจที่สมบูรณ์แบบที่มีแบบจำลองเสริมแล้วX I Jก็เป็นคนที่สองที่สมบูรณ์แบบที่มีความสัมพันธ์กับคอลัมน์; ii ถ้าC Jเป็น bicluster สมบูรณ์แบบด้วยรูปแบบการเติมแต่งแล้วX ฉันJเป็น bicluster สมบูรณ์แบบด้วยความสัมพันธ์ในแถว; iii หากทั้งสองR ฉันและC Jมี biclusters สมบูรณ์แบบด้วยรูปแบบการเติมแต่งแล้วX ฉันJเป็นที่สมบูรณ์แบบความสัมพันธ์ biclusterRผมRผมR_{I}XผมJXผมJX_{IJ}CJCJC_JXผมJXผมJX_{IJ}RผมRผมR_ICJCJC_JXผมJXผมJX_{IJ} ข้อเสนอเหล่านี้สามารถพิสูจน์ได้อย่างง่ายดาย ... ... แต่แน่นอนพวกเขาไม่ได้พิสูจน์ ฉันกำลังใช้ตัวอย่างง่ายๆบางอย่างในกระดาษรวมทั้ง base + code R แบบกำหนดเองเพื่อดูว่าฉันสามารถแสดงข้อเสนอนี้ได้หรือไม่ corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4) (จากตารางที่ 1F) รหัสที่กำหนดเองเพื่อแปลงรูปแบบมาตรฐาน X …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.