คำถามติดแท็ก clustering

การวิเคราะห์กลุ่มเป็นหน้าที่ของการแบ่งข้อมูลออกเป็นส่วนย่อยของวัตถุตาม "ความคล้ายคลึงกัน" ซึ่งกันและกันโดยไม่ใช้ความรู้ที่มีมาก่อนเช่นป้ายชื่อชั้นเรียน [ข้อผิดพลาดมาตรฐานและ / หรือกลุ่มตัวอย่างควรติดแท็กเช่น; อย่าใช้แท็ก "การจัดกลุ่ม" สำหรับพวกเขา]

5
การทำคลัสเตอร์ชุดข้อมูลที่มีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง
ฉันมีชุดข้อมูล X ซึ่งมี 10 มิติซึ่ง 4 ในนั้นเป็นค่าที่ไม่ต่อเนื่อง อันที่จริงแล้วตัวแปรที่แยก 4 ตัวนั้นเป็นเลขลำดับนั่นคือค่าที่สูงกว่าหมายถึงความหมายที่สูงกว่า / ดีกว่า 2 ของตัวแปรที่ไม่ต่อเนื่องเหล่านี้มีการจัดหมวดหมู่ในแง่ที่ว่าสำหรับแต่ละตัวแปรเหล่านี้ระยะทางจาก 11 ถึง 12 จะไม่เหมือนกับระยะทางจาก 5 ถึง 6 ในขณะที่ค่าตัวแปรที่สูงกว่าหมายถึงความเป็นจริงที่สูงขึ้น ไม่จำเป็นต้องเป็นเชิงเส้น (อันที่จริงแล้วมันไม่ได้กำหนดจริงๆ) คำถามของฉันคือ: เป็นความคิดที่ดีหรือไม่ที่จะใช้อัลกอริธึมการจัดกลุ่มร่วมกัน (เช่น K-Means และ Gaussian Mixture (GMM)) กับชุดข้อมูลนี้ซึ่งมีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง? ถ้าไม่: ฉันควรจะลบตัวแปรที่แยกกันและมุ่งเน้นเฉพาะตัวแปรที่ต่อเนื่องหรือไม่? ฉันควรแยกแยะสิ่งที่ต่อเนื่องกันดีกว่าและใช้อัลกอริทึมการจัดกลุ่มสำหรับข้อมูลที่ไม่ต่อเนื่องหรือไม่

2
การเลือกวิธีการเชื่อมโยงที่ถูกต้องสำหรับการทำคลัสเตอร์แบบลำดับชั้น
ฉันกำลังทำการจัดกลุ่มตามลำดับชั้นกับข้อมูลที่ฉันรวบรวมและประมวลผลจากการถ่ายโอนข้อมูล reddit ใน Google BigQuery กระบวนการของฉันมีดังต่อไปนี้: รับโพสต์ล่าสุด 1,000 รายการใน / r / การเมือง รวบรวมความคิดเห็นทั้งหมด ประมวลผลข้อมูลและคำนวณn x mเมทริกซ์ข้อมูล (n: ผู้ใช้ / ตัวอย่าง, m: โพสต์ / คุณสมบัติ) คำนวณเมทริกซ์ระยะทางสำหรับการจัดกลุ่มลำดับชั้น เลือกวิธีการลิงก์และดำเนินการจัดกลุ่มตามลำดับชั้น ลงจุดข้อมูลเป็น dendrogram คำถามของฉันคือฉันจะกำหนดวิธีการเชื่อมโยงที่ดีที่สุดได้อย่างไร ฉันกำลังใช้Wardแต่ฉันจะรู้ว่าฉันควรจะใช้single, complete, averageetc? ฉันยังใหม่กับสิ่งนี้ แต่ฉันไม่สามารถหาคำตอบที่ชัดเจนออนไลน์ได้เพราะฉันไม่แน่ใจว่ามี ดังนั้นอาจเป็นความคิดที่ดีสำหรับใบสมัครของฉัน? โปรดทราบว่าข้อมูลค่อนข้างเบาบางในแง่ที่ว่าn x mเมทริกซ์มีศูนย์เป็นจำนวนมาก (คนส่วนใหญ่ไม่แสดงความคิดเห็นในโพสต์มากกว่าสองสามโพสต์)

1
PCA จะช่วยในการวิเคราะห์การจัดกลุ่ม k-mean อย่างไร
ความเป็นมา : ฉันต้องการแบ่งเขตที่อยู่อาศัยของเมืองออกเป็นกลุ่มตามลักษณะทางเศรษฐกิจสังคมรวมถึงความหนาแน่นของที่อยู่อาศัยความหนาแน่นของประชากรพื้นที่สีเขียวราคาที่อยู่อาศัยจำนวนโรงเรียน / ศูนย์สุขภาพ / ศูนย์ดูแลเด็กเล็ก ฯลฯ ฉันต้องการที่จะเข้าใจว่ากลุ่มที่แตกต่างกันสามารถแบ่งออกเป็นพื้นที่ที่อยู่อาศัยและสิ่งที่เป็นเอกลักษณ์ของพวกเขา ข้อมูลนี้สามารถอำนวยความสะดวกในการวางแผนเมือง จากตัวอย่างบางส่วน (เปรียบเทียบบล็อกโพสต์นี้: PCA และ K-mean Clustering ของ Delta Aircraft ) ฉันคิดวิธีการวิเคราะห์: ก่อนทำการวิเคราะห์ PCA กำหนดจำนวนของกลุ่มที่ไม่ซ้ำกัน (กลุ่ม) ขึ้นอยู่กับผล PCA (เช่นใช้วิธี "ข้อศอก" หรืออีกทางหนึ่งจำนวนขององค์ประกอบที่อธิบายถึง 80 ถึง 90% ของความแปรปรวนทั้งหมด) หลังจากพิจารณาจำนวนของคลัสเตอร์ให้ใช้การจัดกลุ่ม k-mean เพื่อทำการจำแนก คำถามของฉัน:ดูเหมือนว่าจำนวนขององค์ประกอบ PCA เกี่ยวข้องกับการวิเคราะห์กลุ่ม นั่นคือความจริงถ้าเราพบ 5 ส่วนประกอบ PCA อธิบายมากกว่า 90% ของการเปลี่ยนแปลงของคุณสมบัติทั้งหมดจากนั้นเราจะใช้การจัดกลุ่ม k-mean และรับ 5 …

3
เกณฑ์การหยุดสำหรับการจัดกลุ่มแบบลำดับชั้นแบบ agglomerative ในการฝึกใช้คืออะไร?
ฉันได้พบวรรณกรรมมากมายที่เสนอเกณฑ์ทุกประเภท (เช่นGlenn et al. 1985 (pdf) และJung et al. 2002 (pdf)) อย่างไรก็ตามสิ่งเหล่านี้ส่วนใหญ่ไม่ง่ายที่จะใช้ (อย่างน้อยจากมุมมองของฉัน) ฉันกำลังใช้scipy.cluster.hierarchyเพื่อรับลำดับชั้นของคลัสเตอร์และตอนนี้ฉันกำลังพยายามตัดสินใจว่าจะสร้างกลุ่มแบบแฟลตจากนั้น เป้าหมายของฉันคือการค้นพบรูปแบบทั่วไปในการสังเกตของฉันดังนั้นฉันจึงไม่มีการอ้างอิงเพื่อเปรียบเทียบการจัดกลุ่มที่ได้รับ ใครสามารถแนะนำวิธีแก้ปัญหาอย่างจริงจัง?
32 clustering 

3
การจัดกลุ่มรายการสตริง (คำ) แบบยาวเป็นกลุ่มที่คล้ายคลึงกัน
ฉันมีปัญหาต่อไปนี้: ฉันมีรายการคำที่ยาวมากอาจเป็นชื่อนามสกุล ฯลฯ ฉันต้องจัดกลุ่มรายการคำศัพท์นี้เช่นคำที่คล้ายกันเช่นคำที่มีการแก้ไขที่คล้ายกัน (Levenshtein) ระยะทางปรากฏใน คลัสเตอร์เดียวกัน ตัวอย่างเช่น "อัลกอริทึม" และ "alogrithm" ควรมีโอกาสสูงที่จะปรากฏในคลัสเตอร์เดียวกัน ฉันตระหนักดีถึงวิธีการจัดกลุ่มแบบไม่ได้รับการสนับสนุนแบบคลาสสิกเช่นการจัดกลุ่ม k-mean, การจัดกลุ่ม EM ในวรรณคดีการจดจำรูปแบบ ปัญหานี่คือวิธีการเหล่านี้ทำงานในจุดที่อยู่ในพื้นที่เวกเตอร์ ฉันมีคำพูดในมืออยู่ที่นี่ ดูเหมือนว่าคำถามของวิธีการแสดงสตริงในพื้นที่เวกเตอร์ที่เป็นตัวเลขและการคำนวณ "หมายถึง" ของกลุ่มสตริงนั้นยังไม่ได้รับคำตอบที่เพียงพอตามความพยายามในการสำรวจของฉันจนถึงตอนนี้ วิธีการที่ไร้เดียงสาในการโจมตีปัญหานี้คือการรวมกลุ่ม k-Means กับระยะทาง Levenshtein แต่คำถามยังคงเป็น "วิธีการแสดง" หมายถึง "ของสตริงหรือไม่? มีน้ำหนักที่เรียกว่าน้ำหนัก TF-IDF แต่ดูเหมือนว่าส่วนใหญ่เกี่ยวข้องกับพื้นที่ของการจัดกลุ่ม "เอกสารข้อความ" ไม่ใช่สำหรับการจัดกลุ่มคำเดียว http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf การค้นหาของฉันในพื้นที่นี้ยังดำเนินต่อไป แต่ฉันต้องการได้แนวคิดจากที่นี่เช่นกัน คุณจะแนะนำอะไรในกรณีนี้มีใครรู้วิธีการใด ๆ สำหรับปัญหาประเภทนี้บ้าง

3
การวิเคราะห์ระดับแฝงกับการวิเคราะห์กลุ่ม - ความแตกต่างในการอนุมาน?
การอนุมานที่แตกต่างกันสามารถทำอะไรได้จากการวิเคราะห์ระดับแฝง (LCA) กับการวิเคราะห์คลัสเตอร์ มันถูกต้องหรือไม่ที่ LCA ถือว่าตัวแปรแฝงแฝงที่ก่อให้เกิดคลาสในขณะที่การวิเคราะห์กลุ่มเป็นคำอธิบายเชิงประจักษ์ของคุณลักษณะที่สัมพันธ์กันจากอัลกอริทึมการจัดกลุ่ม? ดูเหมือนว่าในสังคมศาสตร์ LCA ได้รับความนิยมและได้รับการพิจารณาว่าเป็นระบบที่เหนือกว่าเนื่องจากมีการทดสอบความสำคัญแบบไคสแควร์อย่างเป็นทางการซึ่งการวิเคราะห์กลุ่มไม่ได้ มันจะเป็นการดีถ้าตัวอย่างสามารถเสนอในรูปแบบของ "LCA จะเหมาะสมกับสิ่งนี้ (แต่ไม่ใช่การวิเคราะห์คลัสเตอร์) และการวิเคราะห์กลุ่มจะเหมาะสมสำหรับสิ่งนี้ (แต่ไม่ใช่การวิเคราะห์ระดับที่ซ่อนเร้น) ขอบคุณ! ไบรอัน

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
การเปรียบเทียบการจัดกลุ่มลำดับชั้นแบบย่อที่ได้จากระยะทางและวิธีการต่าง ๆ
[ชื่อเริ่มต้น "การวัดความคล้ายคลึงกันสำหรับต้นไม้การจัดกลุ่มแบบลำดับชั้น" ถูกเปลี่ยนในภายหลังโดย @ttnphns เพื่อให้สะท้อนหัวข้อได้ดียิ่งขึ้น] ฉันกำลังทำการวิเคราะห์คลัสเตอร์แบบลำดับชั้นจำนวนหนึ่งเกี่ยวกับ dataframe ของบันทึกผู้ป่วย (เช่นคล้ายกับhttp://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) ฉันกำลังทดลองกับการวัดระยะทางที่แตกต่างกันน้ำหนักของพารามิเตอร์ที่แตกต่างกันและวิธีการลำดับชั้นที่แตกต่างกันเพื่อทำความเข้าใจผลกระทบที่มีต่อกลุ่ม / โครงสร้าง / มุมมองสุดท้ายของต้นไม้ (dendrogram) คำถามของฉันไม่ว่าจะมีการคำนวณมาตรฐาน / การวัดเพื่อคำนวณความแตกต่างระหว่างต้นไม้แบบลำดับชั้นที่แตกต่างกันและวิธีการใช้สิ่งนี้ใน R (เช่นเพื่อหาจำนวนที่ต้นไม้บางต้นเกือบเหมือนกันและแตกต่างกันอย่างมาก)

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
ความแตกต่างระหว่างอัลกอริธึมมาตรฐานและทรงกลม k-mean
ฉันต้องการเข้าใจว่าอะไรคือความแตกต่างที่สำคัญในการใช้งานระหว่างอัลกอริธึมการจัดกลุ่ม k-Mean แบบมาตรฐานและทรงกลม ในแต่ละขั้นตอน k-หมายถึงคำนวณระยะทางระหว่างเวกเตอร์องค์ประกอบและเซนทรอยด์ของคลัสเตอร์และกำหนดเอกสารให้กับคลัสเตอร์นี้อีกครั้งซึ่งเซนทรอยด์อยู่ใกล้ที่สุด จากนั้นเซนทรอยด์ทั้งหมดจะถูกคำนวณใหม่ ในรูป k k- หมายถึงเวกเตอร์ทั้งหมดจะถูกทำให้เป็นมาตรฐานและการวัดระยะทางเป็นความแตกต่างของโคไซน์ นั่นคือทั้งหมดหรือมีอย่างอื่นหรือไม่

4
วิธีลดขนาดใน R
ฉันมีเมทริกซ์โดยที่ (i, j) บอกฉันกี่ครั้งที่ฉันดูเพจ j มีบุคคล 27K และหน้า 95K ฉันต้องการ "มิติ" หรือ "แง่มุม" จำนวนหนึ่งในพื้นที่ของหน้าเว็บซึ่งจะสอดคล้องกับชุดของหน้าเว็บที่มักจะดูด้วยกัน เป้าหมายสูงสุดของฉันคือเพื่อให้สามารถคำนวณความถี่ที่แต่ละบุคคลที่ฉันได้ดูหน้าเว็บที่อยู่ในส่วนข้อมูล 1 ส่วนข้อมูล 2 และอื่น ๆ ฉันได้อ่านเอกสาร R เกี่ยวกับการวิเคราะห์องค์ประกอบหลักและการสลายตัวของค่าเดียวและดำเนินการคำสั่งเหล่านี้แล้ว แต่ฉันไม่แน่ใจว่าจะดำเนินการอย่างไร ฉันจะใช้การลดขนาดเพื่อทำสิ่งนี้ได้อย่างไร หรือนี่เป็นปัญหาการจัดกลุ่มจริง ๆ และฉันควรมองเข้าไปในอัลกอริทึมการจัดกลุ่มแทนหรือไม่ ขอบคุณมากสำหรับความเข้าใจใด ๆ ~ l

2
วิธีการใช้ทั้งไบนารีและตัวแปรต่อเนื่องร่วมกันในการจัดกลุ่ม?
ฉันต้องการใช้ตัวแปรไบนารี (ค่า 0 & 1) ใน k-mean แต่ k-mean ใช้งานได้กับตัวแปรต่อเนื่องเท่านั้น ฉันรู้ว่าบางคนยังคงใช้ตัวแปรไบนารีเหล่านี้ใน k-mean โดยไม่สนใจข้อเท็จจริงที่ว่า k-หมายความว่าถูกออกแบบมาสำหรับตัวแปรต่อเนื่องเท่านั้น นี่เป็นสิ่งที่ฉันยอมรับไม่ได้ คำถาม: ดังนั้นวิธีที่ถูกต้องทางสถิติ / ทางคณิตศาสตร์ของการใช้ตัวแปรไบนารีในการจัดกลุ่ม k- หมายถึง / ลำดับชั้นคืออะไร? วิธีการนำโซลูชันไปใช้ใน SAS / R

3
การหาเซนทรอยด์นั้นแตกต่างจากการหาค่าเฉลี่ยอย่างไร
เมื่อดำเนินการจัดกลุ่มแบบลำดับชั้นเราสามารถใช้หลายเมตริกเพื่อวัดระยะทางระหว่างกลุ่ม สองตัวชี้วัดดังกล่าวบ่งบอกถึงการคำนวณ centroids และวิธีการของจุดข้อมูลในกลุ่ม ความแตกต่างระหว่างค่าเฉลี่ยและเซนทรอยด์คืออะไร? นี่ไม่ใช่จุดเดียวกันในคลัสเตอร์ใช่ไหม
26 clustering  mean 

3
LSA กับ PCA (การจัดกลุ่มเอกสาร)
ฉันกำลังตรวจสอบเทคนิคต่าง ๆ ที่ใช้ในการจัดกลุ่มเอกสารและฉันต้องการที่จะขจัดข้อสงสัยเกี่ยวกับ PCA (การวิเคราะห์องค์ประกอบหลัก) และ LSA (การวิเคราะห์ความหมายแฝง) สิ่งแรก - อะไรคือความแตกต่างระหว่างพวกเขา? ฉันรู้ว่าใน PCA การสลายตัว SVD ถูกนำไปใช้กับเมทริกซ์ความแปรปรวนร่วมในขณะที่ LSA เป็นเมทริกซ์เอกสารระยะ มีอะไรอีกไหม? สอง - บทบาทของพวกเขาในขั้นตอนการจัดกลุ่มเอกสารคืออะไร จากสิ่งที่ฉันได้อ่านจนถึงตอนนี้ฉันอนุมานได้ว่าจุดประสงค์ของพวกเขาคือการลดมิติการลดเสียงรบกวนและการรวมความสัมพันธ์ระหว่างคำต่างๆเข้าด้วยกัน หลังจากดำเนินการ PCA หรือ LSA อัลกอริธึมแบบดั้งเดิมเช่นวิธี k- หมายถึงหรือ agglomerative ถูกนำมาใช้ในพื้นที่ระยะลดลงและการวัดความคล้ายคลึงกันทั่วไปเช่นระยะทางโคไซน์ถูกนำมาใช้ โปรดแก้ไขฉันหากฉันผิด ประการที่สาม - เป็นเรื่องสำคัญหรือไม่หากเวกเตอร์คำศัพท์ TF / IDF ถูกทำให้เป็นมาตรฐานก่อนใช้ PCA / LSA หรือไม่ และพวกเขาควรจะกลับสู่ภาวะปกติอีกครั้งหลังจากนั้น? ข้อที่สี่ - สมมติว่าฉันได้ทำการจัดกลุ่มบางส่วนเกี่ยวกับพื้นที่คำที่ลดลงโดย LSA / …

1
ค่าที่ยอมรับได้ของเกณฑ์ Calinski & Harabasz (CH) คืออะไร
ฉันทำการวิเคราะห์ข้อมูลพยายามจัดกลุ่มข้อมูลตามยาวโดยใช้ R และแพ็คเกจkml ข้อมูลของฉันมีวิถีโคจรประมาณ 400 คน (ตามที่เรียกในกระดาษ) คุณสามารถเห็นผลลัพธ์ของฉันในภาพต่อไปนี้: หลังจากอ่านบทที่ 2.2 "การเลือกจำนวนกลุ่มที่เหมาะสม" ในเอกสารที่เกี่ยวข้องฉันไม่ได้รับคำตอบใด ๆ ฉันต้องการมี 3 กลุ่ม แต่ผลลัพธ์จะยังคงตกลงกับ CH ของ 80 ที่จริงฉันยังไม่รู้ว่าค่า CH หมายถึงอะไร ดังนั้นคำถามของฉันค่าเกณฑ์ที่ยอมรับได้ของเกณฑ์ Calinski & Harabasz (CH) คืออะไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.