คำถามติดแท็ก similarities

การวัดความใกล้ชิดระหว่างการแจกแจงคลัสเตอร์ชุดข้อมูลหรือวัตถุอื่น ๆ

2
วิธีหาน้ำหนักสำหรับมาตรการที่ไม่คุ้นเคย
ฉันต้องการเรียนรู้คุณลักษณะน้ำหนัก (อนุมาน) สำหรับการวัดความแตกต่างของฉันที่ฉันสามารถใช้สำหรับการจัดกลุ่ม ฉันมีตัวอย่างของคู่ของวัตถุที่ "คล้ายกัน" (ควรอยู่ในกลุ่มเดียวกัน) รวมถึงตัวอย่างบางส่วนของคู่ของวัตถุที่ "ไม่เหมือนกัน" (ไม่ควรเหมือนกัน อยู่ในกลุ่มเดียวกัน) แต่ละวัตถุมีจำนวนคุณลักษณะ: ถ้าคุณต้องการเราสามารถคิดว่าแต่ละวัตถุเป็นเวกเตอร์ -dimensional ของคุณลักษณะโดยที่แต่ละคุณลักษณะนั้นเป็นจำนวนเต็มไม่เป็นลบ มีเทคนิคในการใช้ตัวอย่างของวัตถุที่คล้ายกัน / แตกต่างกันเพื่อประเมินจากน้ำหนักคุณลักษณะที่เหมาะสมที่สุดสำหรับการวัดที่แตกต่างกันหรือไม่?(aผม,ขผม)(ai,bi)(a_i,b_i)(คผม,dผม)(ci,di)(c_i,d_i)ddd ถ้ามันช่วยได้ในแอปพลิเคชันของฉันมันอาจจะสมเหตุสมผลที่จะมุ่งเน้นไปที่การเรียนรู้การวัดที่แตกต่างซึ่งเป็นมาตรฐาน L2 แบบถ่วงน้ำหนัก d( x , y) =ΣJαJ( x [ j ] - y[ j ])2.d(x,y)=∑jαj(x[j]−y[j])2.d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2. ที่ไม่รู้จักน้ำหนักและควรเรียนรู้ (หรือการวัดความคล้ายคลึงโคไซน์แบบถ่วงน้ำหนักบางชนิดก็มีเหตุผลเช่นกัน) มีอัลกอริทึมที่ดีในการเรียนรู้น้ำหนักสำหรับการวัดเช่นนี้หรือไม่ หรือมีวิธีอื่นในการเรียนรู้วิธีวัดความเหมือน / ความแตกต่างที่ฉันควรพิจารณาαJαj\alpha_jαJαj\alpha_j จำนวนมิติมีขนาดใหญ่มาก (เป็นพันหรือสูงกว่านั้นมาจากคุณสมบัติถุงคำ) อย่างไรก็ตามฉันมีตัวอย่างเป็นหมื่น ๆ ตัวอย่าง …

3
การคำนวณ Jaccard หรือสัมประสิทธิ์การเชื่อมโยงอื่น ๆ สำหรับข้อมูลไบนารีโดยใช้การคูณเมทริกซ์
ฉันต้องการทราบว่ามีวิธีใดที่เป็นไปได้ในการคำนวณสัมประสิทธิ์ Jaccard โดยใช้การคูณเมทริกซ์ ฉันใช้รหัสนี้ jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) jaccard[j,i]=jaccard[i,j] } } มันค่อนข้างโอเคที่จะนำไปใช้ในอาร์ฉันได้ทำลูกเต๋าที่มีความคล้ายคลึงกัน แต่ติดกับ Tanimoto / Jaccard ใครช่วยได้บ้าง

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.