คำถามติดแท็ก correlation

การวัดระดับความสัมพันธ์เชิงเส้นระหว่างตัวแปรหนึ่งตัว

2
LASSO เลือกตัวทำนายที่สัมพันธ์กันเมื่อใด
ฉันใช้แพ็คเกจ 'lars' ใน R ด้วยรหัสต่อไปนี้: > library(lars) > set.seed(3) > n <- 1000 > x1 <- rnorm(n) > x2 <- x1+rnorm(n)*0.5 > x3 <- rnorm(n) > x4 <- rnorm(n) > x5 <- rexp(n) > y <- 5*x1 + 4*x2 + 2*x3 + 7*x4 + rnorm(n) > x <- cbind(x1,x2,x3,x4,x5) > …

1
ทำไมการ squaringถึงอธิบายความแปรปรวน?
นี่อาจเป็นคำถามพื้นฐาน แต่ฉันสงสัยว่าทำไมค่าในตัวแบบการถดถอยสามารถยกกำลังสองเพื่ออธิบายความแปรปรวนที่อธิบายได้RRR ฉันเข้าใจว่าสัมประสิทธิ์สามารถให้ความแข็งแกร่งของความสัมพันธ์ แต่ฉันไม่เข้าใจว่าการยกกำลังสองค่านี้เป็นการวัดความแปรปรวนที่อธิบายได้ง่ายเพียงใดRRR มีคำอธิบายง่ายๆเกี่ยวกับเรื่องนี้หรือไม่? ขอบคุณมากที่ช่วยด้วย!

1
จะคำนวณช่วงความมั่นใจสำหรับความสัมพันธ์อันดับของ Spearman ได้อย่างไร
Wikipediaมีการแปลง Fisher ของ the Spearman อันดับความสัมพันธ์กับคะแนน z โดยประมาณ บางทีคะแนน z คือความแตกต่างจากสมมติฐานว่าง (อันดับสหสัมพันธ์ 0)? หน้านี้มีตัวอย่างดังต่อไปนี้: 4, 10, 3, 1, 9, 2, 6, 7, 8, 5 5, 8, 6, 2, 10, 3, 9, 4, 7, 1 rank correlation 0.684848 "95% CI for rho (Fisher's z transformed)= 0.097085 to 0.918443" พวกเขาใช้ฟิชเชอร์เปลี่ยนรูปเพื่อให้ได้ช่วงความมั่นใจ 95% อย่างไร

6
แพ็คเกจ R สำหรับการระบุความสัมพันธ์ระหว่างตัวแปร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน4 ปีที่แล้ว มีแพ็คเกจ R ที่ฉันสามารถใช้เพื่อสำรวจว่ามีความสัมพันธ์ระหว่างตัวแปรหรือไม่? โดยทั่วไปเมื่อฉันกำลังมองหารูปแบบที่ฉันดูที่ความสัมพันธ์แล้วพล็อตด้าน จากนั้นฉันใช้การแปลงบางอย่างกับตัวแปรในข้อมูลด้วยตนเอง ฉันสงสัยว่าฉันสามารถเร่งกระบวนการนี้ผ่านแพ็คเกจ R ได้หรือไม่

4
ปรีชา / การตีความของการกระจายตัวของค่าลักษณะเฉพาะของเมทริกซ์ความสัมพันธ์?
สัญชาตญาณ / การตีความของคุณคือการกระจายตัวของค่าลักษณะเฉพาะของเมทริกซ์ความสัมพันธ์คืออะไร? ฉันมักจะได้ยินว่าค่าลักษณะเฉพาะที่ใหญ่ที่สุด 3 ค่าเป็นสิ่งที่สำคัญที่สุดในขณะที่ค่าที่ใกล้เคียงกับศูนย์จะมีเสียง นอกจากนี้ฉันได้เห็นงานวิจัยสองสามฉบับที่สำรวจว่าการกระจายตัวของไอเคิลแวลูเกิดจากการคำนวณค่าความสัมพันธ์แบบสุ่ม (อีกครั้งโดยแยกเสียงจากสัญญาณ) โปรดอธิบายอย่างละเอียดเกี่ยวกับข้อมูลเชิงลึกของคุณ

2
ICC ตามความคาดหวังความสัมพันธ์ระหว่างหน่วยสุ่มสองหน่วยที่อยู่ในกลุ่มเดียวกัน
ในการสร้างแบบจำลองหลายระดับความสัมพันธ์ intraclass มักจะได้รับการคำนวณจากการสุ่มผลกระทบ ANOVA yij=γ00+uj+eijyij=γ00+uj+eij y_{ij} = \gamma_{00} + u_j + e_{ij} โดยที่เป็นค่าระดับ 2 และเป็นค่าระดับ 1 จากนั้นเราจะได้รับการประมาณและสำหรับความแปรปรวนของและตามลำดับและเสียบเข้ากับสมการต่อไปนี้:ujuju_jeijeije_{ij}σ^2uσ^u2\hat{\sigma}_u^2σ^2eσ^e2\hat{\sigma}_e^2ujuju_jeijeije_{ij} ρ=σ^2uσ^2u+σ^2eρ=σ^u2σ^u2+σ^e2 ρ = \frac{\hat{\sigma}_u^2}{\hat{\sigma}_u^2 +\hat{\sigma}_e^2} Hox (2002) เขียนบน p15ที่ ความสัมพันธ์ภายใน intraclass ρยังสามารถตีความได้ว่าเป็นความสัมพันธ์ที่คาดหวังระหว่างหน่วยสุ่มสองหน่วยที่อยู่ในกลุ่มเดียวกัน มีคำถามอยู่ที่นี่ซึ่งถามคำถามขั้นสูง (เพราะเหตุใดมันจึงมีค่าเท่ากับนี้แทนที่จะเท่ากับโดยประมาณ) และได้รับคำตอบขั้นสูง อย่างไรก็ตามฉันต้องการถามคำถามที่ง่ายกว่านี้มาก คำถาม:การพูดคุยเกี่ยวกับความสัมพันธ์ระหว่างหน่วยสุ่มสองหน่วยที่อยู่ในกลุ่มเดียวกันหมายความว่าอย่างไร ฉันมีความเข้าใจพื้นฐานเกี่ยวกับความจริงที่ว่าความสัมพันธ์ภายในอินทราเน็ตทำงานในกลุ่มและไม่ได้อยู่ในข้อมูลที่จับคู่ อย่างไรก็ตามฉันยังไม่เข้าใจว่าสามารถคำนวณความสัมพันธ์ได้อย่างไรหากเรามีหน่วยสุ่มสองกลุ่มจากกลุ่มเดียวกัน ถ้าฉันดูจุดแปลงในหน้า Wikipedia สำหรับ ICCเช่นเรามีหลายกลุ่มและหลายจุดภายในแต่ละกลุ่ม

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
สามารถคำนวณค่า p สำหรับการทดสอบความสัมพันธ์ของ Pearson จากค่าสัมประสิทธิ์สหสัมพันธ์และขนาดตัวอย่างได้หรือไม่?
ข้อมูลประกอบ:ฉันอ่านบทความหนึ่งที่ผู้เขียนรายงานความสัมพันธ์ของเพียร์สัน 0.754 จากขนาดตัวอย่าง 878 ผล p-value สำหรับการทดสอบความสัมพันธ์คือ "สองดาว" อย่างมีนัยสำคัญ (เช่น p <0.01) อย่างไรก็ตามฉันคิดว่าด้วยขนาดตัวอย่างขนาดใหญ่ค่า p ที่สอดคล้องกันควรน้อยกว่า 0.001 (นั่นคือนัยสำคัญระดับสามดาว) สามารถคำนวณค่า p สำหรับการทดสอบนี้ได้จากสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันและขนาดตัวอย่างหรือไม่? ถ้าใช่สิ่งนี้สามารถทำได้ใน R

3
สหสัมพันธ์หรือสัมประสิทธิ์การตัดสินใจเกี่ยวข้องกับเปอร์เซ็นต์ของค่าที่ตกไปตามเส้นการถดถอยหรือไม่?
สหสัมพันธ์, , เป็นการวัดความสัมพันธ์เชิงเส้นระหว่างสองตัวแปร ค่าสัมประสิทธิ์ของการตัดสินใจเป็นการวัดความแปรปรวนในตัวแปรหนึ่งที่สามารถอธิบาย "การเปลี่ยนแปลง" ในอีกตัวแปรหนึ่งrrrr2r2r^2 ตัวอย่างเช่นถ้าความสัมพันธ์ระหว่างสองตัวแปรแล้ว0.64 ดังนั้น 64% ของความแปรปรวนในหนึ่งสามารถอธิบายได้ด้วยความแตกต่างในอีก ขวา?r 2 = 0.64r=0.8r=0.8r = 0.8r2=0.64r2=0.64r^2 = 0.64 คำถามของฉันสำหรับตัวอย่างที่ระบุไว้ข้อความใดข้อความหนึ่งต่อไปนี้ถูกต้อง? 64% ของค่าอยู่ในแนวเส้นถดถอย 80% ของค่าอยู่ในแนวเส้นถดถอย

2
ความสัมพันธ์เชิงบวกและเครื่องหมายสัมประสิทธิ์การถดถอยเชิงลบ
เป็นไปได้ไหมที่จะได้ความสัมพันธ์เชิงบวกระหว่าง regressor กับการตอบสนอง ( +0,43) และหลังจากนั้นจะได้สัมประสิทธิ์เชิงลบในตัวแบบการถดถอยแบบพอดีสำหรับ regressor นี้หรือไม่? ฉันไม่ได้พูดถึงการเปลี่ยนแปลงในเครื่องหมายของ regressor ในบางรุ่น เครื่องหมายสัมประสิทธิ์ยังคงอยู่เสมอ ตัวแปรที่เหลือของรุ่นที่ติดตั้งสามารถมีอิทธิพลต่อการเปลี่ยนแปลงของสัญญาณได้หรือไม่?

1
เหตุใดจึงต้องใช้ตัวแปรที่บันทึกไว้
อาจเป็นคำถามพื้นฐานมาก แต่ฉันดูเหมือนจะไม่สามารถหาคำตอบที่ชัดเจนสำหรับมัน ฉันหวังว่าที่นี่ฉันสามารถ ตอนนี้ฉันกำลังอ่านเอกสารเพื่อเตรียมสำหรับวิทยานิพนธ์ปริญญาโทของฉันเอง ขณะนี้ฉันกำลังอ่านกระดาษที่ค้นคว้าความสัมพันธ์ระหว่างทวีตและคุณลักษณะของตลาดหุ้น หนึ่งในสมมติฐานของพวกเขาพวกเขาเสนอว่า "ปริมาณทวีตที่เพิ่มขึ้นนั้นเกี่ยวข้องกับปริมาณการซื้อขายที่เพิ่มขึ้น" ผมจะคาดหวังให้พวกเขาในความสัมพันธ์คู่ที่จะมีความสัมพันธ์tweetVolumeกับtradingVolume, แต่พวกเขารายงานโดยใช้รุ่นเข้าสู่ระบบ: และLN(tweetVolume)LN(tradingVolume) สำหรับวิทยานิพนธ์ของฉันฉันได้ทำซ้ำเอกสารนี้ ฉันรวบรวมทวีตประมาณ 100 บริษัท มานานกว่า 6 เดือน ( tweetVolume) และปริมาณการซื้อขายหุ้นในช่วงเวลาเดียวกัน ถ้าฉันมีความสัมพันธ์ตัวแปรแน่นอนผมพบr=.282, p.000แต่เมื่อผมใช้ verions r=.488, p=.000ทะเบียนผมพบ ฉันไม่เข้าใจว่าทำไมนักวิจัยบางครั้งใช้ตัวแปรที่บันทึกไว้และทำไมความสัมพันธ์จึงดูสูงขึ้นมากถ้าคุณทำเช่นนั้น อะไรคือเหตุผลที่นี่และทำไมจึงใช้ตัวแปรที่บันทึกไว้ ความช่วยเหลือของคุณได้รับการชื่นชมอย่างมาก :-)

2
การเชื่อมโยงชุดเวลาของปริมาณ
พิจารณากราฟต่อไปนี้: เส้นสีแดง (แกนซ้าย) อธิบายปริมาณการซื้อขายของหุ้นหนึ่ง ๆ เส้นสีฟ้า (แกนขวา) อธิบายปริมาณข้อความทวิตเตอร์สำหรับหุ้นนั้น ตัวอย่างเช่นในวันที่ 9 พฤษภาคม (05-09) มีการซื้อขายประมาณ 1.100 ล้านครั้งและทวีต 4.000 รายการ ฉันต้องการคำนวณว่ามีความสัมพันธ์กันระหว่างไทม์ซีรี่ส์หรือไม่ในวันเดียวกันหรือมีความล่าช้าตัวอย่างเช่นปริมาณทวีตสัมพันธ์กับปริมาณการซื้อขายในอีกหนึ่งวันต่อมา ฉันกำลังอ่านบทความมากมายที่ได้ทำการวิเคราะห์เช่นCorrelating Financial Time Series กับ Micro-Blogging Activityแต่พวกเขาไม่ได้อธิบายว่าการวิเคราะห์ดังกล่าวเกิดขึ้นได้อย่างไรในแง่ของการปฏิบัติ ต่อไปนี้ระบุไว้ในบทความ: อย่างไรก็ตามฉันมีประสบการณ์น้อยมากเกี่ยวกับการวิเคราะห์ทางสถิติและไม่ทราบวิธีการดำเนินการนี้ในซีรี่ส์ที่ฉันมี ฉันใช้ SPSS (หรือที่รู้จักกันว่า PASW) และคำถามของฉันคือ: ขั้นตอนในการวิเคราะห์เช่นนี้คืออะไรจากจุดที่ฉันมี datafile ที่อ้างอิงภาพข้างบน การทดสอบดังกล่าวเป็นคุณสมบัติเริ่มต้น (และเรียกว่าอะไร) และ / หรือฉันจะใช้งานได้อย่างไร? ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมอย่างมาก :-)

2
มูลค่าที่คาดหวังของความสัมพันธ์ปลอม
เราวาดตัวอย่างแต่ละขนาดอิสระจากปกติการจัดจำหน่ายn ( μ , σ 2 )NNNnnn(μ,σ2)(μ,σ2)(\mu,\sigma^2) จากตัวอย่างเราเลือก 2 ตัวอย่างที่มีความสัมพันธ์แบบเพียร์สันสูงสุด (แบบสัมบูรณ์) กับแต่ละอื่น ๆNNN ค่าที่คาดหวังของความสัมพันธ์นี้คืออะไร? ขอบคุณ [PS นี่ไม่ใช่การบ้าน]


4
เพียร์สันสหสัมพันธ์ของชุดข้อมูลที่มีค่าเบี่ยงเบนมาตรฐานอาจเป็นศูนย์หรือไม่
ฉันมีปัญหาในการคำนวณสัมประสิทธิ์สหสัมพันธ์ของชุดข้อมูลที่มีค่าเบี่ยงเบนมาตรฐานอาจเป็นศูนย์ (เช่นข้อมูลทั้งหมดมีค่าเท่ากัน) สมมติว่าฉันมีชุดข้อมูลสองชุดต่อไปนี้: float x[] = {2, 2, 2, 3, 2}; float y[] = {2, 2, 2, 2, 2}; สัมประสิทธิ์สหสัมพันธ์ "r" จะถูกคำนวณโดยใช้สมการต่อไปนี้: float r = covariance(x, y) / (std_dev(x) * std_dev(y)); อย่างไรก็ตามเนื่องจากข้อมูลทั้งหมดในชุดข้อมูล "y" มีค่าเท่ากันค่าเบี่ยงเบนมาตรฐาน std_dev (y) จะเป็นศูนย์และ "r" จะไม่ถูกกำหนด มีวิธีแก้ไขปัญหานี้หรือไม่? หรือฉันควรใช้วิธีอื่นในการวัดความสัมพันธ์ของข้อมูลในกรณีนี้?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.