คำถามติดแท็ก association-measure

การวัดความสัมพันธ์ระหว่างตัวแปรแนวคิดทั่วไปมากกว่าความสัมพันธ์

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
ฉันจะทดสอบความสัมพันธ์ที่ไม่เชิงเส้นได้อย่างไร
สำหรับเนื้อเรื่องที่ 1 ฉันสามารถทดสอบการเชื่อมโยงระหว่าง x และ y ได้โดยทำการสหสัมพันธ์อย่างง่าย สำหรับพล็อต 2 ที่ความสัมพันธ์ไม่เป็นเชิงเส้น แต่มีความสัมพันธ์ที่ชัดเจนระหว่าง x และ y ฉันจะทดสอบความสัมพันธ์และเลเบลลักษณะของมันได้อย่างไร

1
วิธีการมองเห็นตารางฉุกเฉินที่กระจัดกระจายอย่างมาก?
ฉันมีสองตัวแปร: ชื่อยา (DN) และเหตุการณ์ไม่พึงประสงค์ที่เกี่ยวข้อง (AE) ที่เกี่ยวข้องซึ่งมีความสัมพันธ์แบบกลุ่มต่อกลุ่ม ชื่อยา 33,556 รายการและเหตุการณ์ไม่พึงประสงค์ 9,516 รายการ ขนาดตัวอย่างประมาณ 5.8 ล้านข้อสังเกต ฉันต้องการศึกษาและเข้าใจความสัมพันธ์ / ความสัมพันธ์ระหว่าง DN และ AE ฉันกำลังคิดเกี่ยวกับวิธีการมองภาพชุดนี้ใน R เพราะจะดีกว่าที่จะดูรูปภาพ ฉันไม่แน่ใจว่าจะทำอย่างไร ...

2
ค่าสัมประสิทธิ์ความคล้ายคลึงกันสำหรับข้อมูลไบนารี: ทำไมต้องเลือก Jaccard เหนือ Russell และ Rao
จากสารานุกรมวิทยาศาสตร์สถิติฉันเข้าใจว่าได้รับ dichotomous (binary: 1 = ปัจจุบัน; 0 = ขาด) แอตทริบิวต์ (ตัวแปร) เราสามารถสร้างตารางฉุกเฉินสำหรับวัตถุสองชนิดที่ฉันและjของตัวอย่าง:พีพีp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a = number of variables on which both objects i and j are 1 b = number of variables …

5
ฉันจะศึกษา“ ความสัมพันธ์” ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาดได้อย่างไร
การวัด "สหสัมพันธ์" ที่มีความหมายเพื่อศึกษาความสัมพันธ์ระหว่างตัวแปรทั้งสองประเภทนี้คืออะไร? ใน R ทำอย่างไร?

1
การวัดความสัมพันธ์ที่เหมาะสมของตัวแปรด้วยองค์ประกอบ PCA คืออะไร (บน biplot / plot plot)
ฉันกำลังใช้FactoMineRเพื่อลดชุดข้อมูลการวัดของฉันเป็นตัวแปรแฝง แผนที่ตัวแปรด้านบนมีความชัดเจนสำหรับฉันในการตีความ แต่ฉันสับสนเมื่อมันมาถึงความสัมพันธ์ระหว่างตัวแปรและองค์ประกอบ 1 มองที่แผนที่ตัวแปรddpและcovอยู่ใกล้กับส่วนประกอบในแผนที่ddpAbsมากขึ้นอีกเล็กน้อย ไป แต่นี่ไม่ใช่สิ่งที่สหสัมพันธ์แสดง: $Dim.1 $Dim.1$quanti correlation p.value jittAbs 0.9388158 1.166116e-11 rpvi 0.9388158 1.166116e-11 sd 0.9359214 1.912641e-11 ddpAbs 0.9327135 3.224252e-11 rapAbs 0.9327135 3.224252e-11 ppq5 0.9319101 3.660014e-11 ppq5Abs 0.9247266 1.066303e-10 cov 0.9150209 3.865897e-10 npvi 0.8853941 9.005243e-09 ddp 0.8554260 1.002460e-07 rap 0.8554260 1.002460e-07 jitt 0.8181207 1.042053e-06 cov5_x 0.6596751 4.533596e-04 …

2
การบังคับใช้การทดสอบไคสแควร์ถ้าเซลล์จำนวนมากมีความถี่น้อยกว่า 5
เพื่อค้นหาความสัมพันธ์ระหว่างการสนับสนุนของเพื่อน (ตัวแปรอิสระ) และความพึงพอใจในการทำงาน (ตัวแปรตาม) ฉันต้องการใช้การทดสอบไคสแควร์ การสนับสนุนของเพื่อนคือหมวดหมู่ในสี่กลุ่มตามขอบเขตของการสนับสนุน: 1 = ขอบเขตที่น้อยมาก 2 = บางส่วน 3 = ถึงมากและ 4 = ถึงระดับที่ดีมาก ความพึงพอใจในการทำงานคือหมวดหมู่เป็นสอง: 0 = ไม่พอใจและ 1 = พอใจ ผลลัพธ์ SPSS บอกว่าความถี่เซลล์ 37.5 เปอร์เซ็นต์น้อยกว่า 5 ขนาดตัวอย่างของฉันคือ 101 และฉันไม่ต้องการลดหมวดหมู่ในตัวแปรอิสระให้มีจำนวนน้อยลง ในสถานการณ์นี้มีการทดสอบอื่นใดที่สามารถนำไปใช้เพื่อทดสอบการเชื่อมโยงนี้ได้หรือไม่

2
การวัดแบบไม่อิงพารามิเตอร์ของความแข็งแรงของการเชื่อมโยงระหว่างลำดับและตัวแปรสุ่มแบบต่อเนื่อง
ฉันทิ้งปัญหาไว้ที่นี่เพื่อรับมัน ฉันมีตัวแปรสุ่มสองตัว หนึ่งในนั้นคือต่อเนื่อง (Y) และอีกอันหนึ่งซึ่งไม่ต่อเนื่องและจะเข้าหาเป็นลำดับ (X) ฉันวางพล็อตด้านล่างที่ฉันได้รับพร้อมกับข้อความค้นหา คนที่ส่งข้อมูลมาให้ฉันต้องการวัดความแข็งแกร่งของการเชื่อมโยงระหว่าง X และ Y ฉันกำลังมองหาแนวคิดที่จะไม่มาพร้อมกับข้อสันนิษฐานเกี่ยวกับกระบวนการที่สร้างข้อมูล หมายเหตุว่านี้ไม่ได้เกี่ยวกับการหาวิธีที่พาราไม่ใช่เพื่อทดสอบความแข็งแรงของความสัมพันธ์ (ในขณะที่บูต) แต่เกี่ยวกับการหาวิธีที่ไม่ใช่ตัวแปรที่จะวัดมัน ในทางตรงกันข้ามประสิทธิภาพไม่ใช่ปัญหาเนื่องจากมีจุดข้อมูลจำนวนมาก

1
ฟังก์ชั่นระยะทางที่ดีที่สุดสำหรับบุคคลคืออะไรเมื่อมีการระบุคุณสมบัติ?
ฉันไม่ทราบว่าฟังก์ชั่นระยะทางระหว่างบุคคลที่จะใช้ในกรณีที่มีคุณสมบัติระบุ (unordered เด็ดขาด) ฉันกำลังอ่านหนังสือเรียนและพวกเขาแนะนำฟังก์ชั่นการจับคู่อย่างง่ายแต่หนังสือบางเล่มแนะนำว่าฉันควรเปลี่ยนชื่อเป็นแอตทริบิวต์ไบนารีและใช้ค่าสัมประสิทธิ์Jaccard อย่างไรก็ตามจะเกิดอะไรขึ้นถ้าค่าของแอตทริบิวต์ที่ระบุไม่ใช่ 2 เกิดอะไรขึ้นถ้ามีค่าสามหรือสี่ค่าในแอตทริบิวต์นั้น ฉันควรใช้ฟังก์ชันระยะทางใดสำหรับคุณลักษณะที่ระบุ

3
ฉันสามารถใช้วิธีการทางสถิติเพื่อค้นหาชุดค่าผสมที่นิยมหรือร่วมกันของตัวแปรเด็ดขาดได้อย่างไร
ฉันกำลังศึกษาเรื่องการใช้ polydrug ฉันมีชุดข้อมูลของผู้ติดยา 400 คนซึ่งแต่ละคนระบุว่าพวกเขาเสพยา มีมากกว่า 10 ยาเสพติดและด้วยเหตุนี้จึงมีการรวมกันเป็นไปได้ที่มีขนาดใหญ่ ฉันคำนวณส่วนใหญ่ของยาเสพติดที่พวกเขาใช้เป็นตัวแปรไบนารี (เช่นเฮโรอีนคือ 1 หากผู้เสพติดเฮโรอีนเสพติด 0) ฉันต้องการค้นหาชุดยายอดนิยมหรือยาสามัญ 2 หรือ 3 ตัว มีวิธีการทางสถิติที่ฉันสามารถใช้ได้หรือไม่?

2
ความสัมพันธ์ระหว่างตัวแปรสองขั้วและตัวแปรต่อเนื่อง
ฉันพยายามที่จะหาความสัมพันธ์ระหว่างคู่และตัวแปรต่อเนื่อง จากการทำงานภาคพื้นดินของฉันในเรื่องนี้ฉันพบว่าฉันต้องใช้การทดสอบแบบอิสระและเงื่อนไขที่จำเป็นสำหรับมันคือการกระจายตัวของตัวแปรจะต้องเป็นปกติ ฉันทำการทดสอบ Kolmogorov-Smirnov เพื่อทดสอบความปกติและพบว่าตัวแปรต่อเนื่องไม่ปกติและเอียง (ประมาณ 4,000 จุดข้อมูล) ฉันทำการทดสอบ Kolmogorov-Smirnov สำหรับตัวแปรทั้งหมด ฉันควรแบ่งพวกเขาออกเป็นกลุ่มและทำแบบทดสอบหรือไม่? กล่าวคือถ้าฉันมีrisk level( 0= ไม่เสี่ยง1= เสี่ยง) และระดับคอเลสเตอรอลฉันควร: แบ่งพวกมันออกเป็นสองกลุ่มอย่างเช่น Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS พาพวกเขาไปด้วยกันและทำการทดสอบ? (ฉันใช้กับชุดข้อมูลทั้งหมดเท่านั้น) หลังจากนั้นฉันควรทำอย่างไรหากมันยังไม่ปกติ แก้ไข: สถานการณ์ข้างต้นเป็นเพียงคำอธิบายที่ฉันพยายามให้สำหรับปัญหาของฉัน ฉันมีชุดข้อมูลซึ่งมีตัวแปรมากกว่า 1,000 รายการและตัวอย่างประมาณ 4000 รายการ พวกมันมีทั้งต่อเนื่องหรือเด็ดขาดในธรรมชาติ งานของฉันคือการทำนายตัวแปรแบบแบ่งขั้วตามตัวแปรเหล่านี้ (อาจเกิดขึ้นกับแบบจำลองการถดถอยโลจิสติก) ดังนั้นฉันคิดว่าการตรวจสอบเบื้องต้นจะเกี่ยวข้องกับการค้นหาความสัมพันธ์ระหว่างโดมิโนและตัวแปรต่อเนื่อง ฉันพยายามที่จะดูว่าการกระจายตัวของตัวแปรเป็นอย่างไรและด้วยเหตุนี้จึงพยายามไปทดสอบ …

13
หาก 'B มีแนวโน้มว่าจะได้รับ A' มากกว่า 'A ก็จะได้รับ B' มากกว่า
ฉันพยายามที่จะทำให้สัญชาตญาณชัดเจนขึ้น: "ถ้าทำให้มีแนวโน้มมากขึ้นก็ทำให้Aมีแนวโน้มมากขึ้น" เช่นAAABBBBBBAAA ให้n(S)n(S)n(S)แทนขนาดของพื้นที่ที่AAAและBBBเป็นเช่นนั้น อ้างสิทธิ์: P(B|A)>P(B)P(B|A)>P(B)P(B|A)>P(B)ดังนั้นn(AB)/n(A)>n(B)/n(S)n(AB)/n(A)>n(B)/n(S)n(AB)/n(A) > n(B)/n(S) so n(AB)/n(B)>n(A)/n(S)n(AB)/n(B)>n(A)/n(S)n(AB)/n(B) > n(A)/n(S) อันไหนP(A|B)>P(A)P(A|B)>P(A)P(A|B)>P(A) ฉันเข้าใจคณิตศาสตร์ แต่ทำไมสิ่งนี้ถึงสมเหตุสมผล

3
การคำนวณ Jaccard หรือสัมประสิทธิ์การเชื่อมโยงอื่น ๆ สำหรับข้อมูลไบนารีโดยใช้การคูณเมทริกซ์
ฉันต้องการทราบว่ามีวิธีใดที่เป็นไปได้ในการคำนวณสัมประสิทธิ์ Jaccard โดยใช้การคูณเมทริกซ์ ฉันใช้รหัสนี้ jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) jaccard[j,i]=jaccard[i,j] } } มันค่อนข้างโอเคที่จะนำไปใช้ในอาร์ฉันได้ทำลูกเต๋าที่มีความคล้ายคลึงกัน แต่ติดกับ Tanimoto / Jaccard ใครช่วยได้บ้าง

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.