คำถามติดแท็ก k-means

k-mean เป็นวิธีการแบ่งพาร์ติชันข้อมูลออกเป็นกระจุกโดยการค้นหาจำนวนวิธีที่ระบุ, k, st เมื่อข้อมูลถูกกำหนดให้กับกลุ่ม w / ค่าเฉลี่ยที่ใกล้ที่สุด

2
การตีความผลลัพธ์ของ k-หมายถึงการจัดกลุ่มใน R
ฉันใช้kmeansคำสั่งของ R ในการดำเนินการอัลกอริธึม k-mean บนชุดข้อมูล iris ของ Anderson ฉันมีคำถามเกี่ยวกับพารามิเตอร์บางอย่างที่ฉันได้รับ ผลลัพธ์ที่ได้คือ: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 ในกรณีนี้ "คลัสเตอร์หมายถึง" หมายถึงอะไร มันหมายถึงระยะทางของวัตถุทั้งหมดในกลุ่มหรือไม่ นอกจากนี้ในส่วนสุดท้ายฉันมี: Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) ค่านั้น 88.4% สิ่งที่สามารถตีความได้?


4
มีกรณีที่ไม่มี k ที่ดีที่สุดใน k-mean
สิ่งนี้อยู่ในใจฉันอย่างน้อยสองสามชั่วโมง ฉันพยายามหา k ที่เหมาะสมที่สุดสำหรับผลลัพธ์จากอัลกอริธึม k (หมายถึงความคล้ายคลึงกันโคไซน์ ) ดังนั้นฉันจึงวางแผนการบิดเบือนเป็นฟังก์ชันของจำนวนกลุ่ม ชุดข้อมูลของฉันคือชุดเอกสาร 800 ชุดในพื้นที่ 600 มิติ จากสิ่งที่ฉันเข้าใจการหาจุดหัวเข่าหรือจุดศอกบนเส้นโค้งนี้ควรบอกฉันอย่างน้อยประมาณจำนวนของกลุ่มที่ฉันต้องใส่ข้อมูลของฉัน ฉันใส่กราฟด้านล่าง จุดที่ได้รับเส้นแนวตั้งสีแดงนั้นได้มาจากการทดสอบอนุพันธ์อันดับสองสูงสุด หลังจากทำทั้งหมดนี้ฉันติดอยู่กับสิ่งที่ง่ายกว่ามาก: กราฟนี้บอกอะไรฉันเกี่ยวกับชุดข้อมูล มันบอกฉันไหมว่ามันไม่คุ้มกับการรวมกลุ่มและเอกสารของฉันขาดโครงสร้างหรือว่าฉันต้องตั้งค่า k ที่สูงมาก? สิ่งหนึ่งที่แปลกคือแม้ว่าจะมีค่า k ต่ำฉันก็เห็นเอกสารที่คล้ายกันรวมกันเป็นกลุ่มดังนั้นฉันจึงไม่แน่ใจว่าทำไมฉันถึงได้รับเส้นโค้งนี้ ความคิดใด ๆ

3
วิธีการเตรียมใช้งาน K-หมายถึงการจัดกลุ่ม
ฉันสนใจในสถานะปัจจุบันของศิลปะสำหรับการเลือกเมล็ดเริ่มต้น (ศูนย์คลัสเตอร์) สำหรับ K-mean Googling นำไปสู่สองตัวเลือกยอดนิยม: การสุ่มเลือกเมล็ดเริ่มต้นและ การใช้เทคนิคการเลือก KMeans ++: Arthur & Vassilvitskii 2006 k-หมายถึง ++: ข้อดีของการเพาะอย่างระมัดระวัง มีวิธีการที่มีแนวโน้มอื่น ๆ ที่ทุกคนที่นี่รู้หรือไม่ซึ่งอาจไม่เป็นที่นิยม?

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
อัลกอริทึมใดที่ฉันควรใช้เพื่อจัดกลุ่มชุดข้อมูลไบนารีขนาดใหญ่เป็นไม่กี่หมวดหมู่
ฉันมีเมทริกซ์ขนาดใหญ่ (650K แถว * 62 คอลัมน์) ของข้อมูลไบนารี (รายการ 0-1 เท่านั้น) เมทริกซ์ส่วนใหญ่จะกระจัดกระจาย: เติมประมาณ 8% ฉันต้องการจัดกลุ่มเป็น 5 กลุ่ม - พูดชื่อตั้งแต่ 1 ถึง 5 ฉันได้ลองจัดกลุ่มแบบลำดับชั้นและไม่สามารถจัดการขนาดได้ ฉันยังใช้อัลกอริทึมการจัดกลุ่ม k - หมายถึงการคำนวณระยะทางด้วยการคำนึงถึงเวกเตอร์บิต 650K ที่มีความยาว 62 ฉันไม่ได้ผลลัพธ์ที่เหมาะสมกับสิ่งเหล่านี้ กรุณาช่วย.

2
การจัดกลุ่มข้อมูลที่เบ้มากนับจำนวน: คำแนะนำใด ๆ ที่จะดำเนินการ (แปลง ฯลฯ )
ปัญหาพื้นฐาน นี่คือปัญหาพื้นฐานของฉัน: ฉันกำลังพยายามจัดกลุ่มชุดข้อมูลที่มีตัวแปรที่เบ้อย่างมากพร้อมจำนวน ตัวแปรประกอบด้วยศูนย์จำนวนมากและดังนั้นจึงไม่ค่อยมีข้อมูลสำหรับขั้นตอนการจัดกลุ่มของฉัน - ซึ่งน่าจะเป็นอัลกอริทึม k-mean คุณพูดได้แค่แปลงตัวแปรโดยใช้สแควร์รูทบ็อกซ์คอกซ์หรือลอการิทึม แต่เนื่องจากตัวแปรของฉันขึ้นอยู่กับตัวแปรเด็ดขาดฉันกลัวว่าฉันอาจแนะนำอคติโดยจัดการกับตัวแปร (ขึ้นอยู่กับค่าหนึ่งของตัวแปรเด็ดขาด) ในขณะที่ปล่อยให้ผู้อื่น (ขึ้นอยู่กับค่าอื่น ๆ ของตัวแปรเด็ดขาด) ในแบบที่พวกเขาเป็น . ลองดูรายละเอียดเพิ่มเติม ชุดข้อมูล ชุดข้อมูลของฉันแสดงถึงการซื้อสินค้า รายการมีหมวดหมู่ต่างกันเช่นสี: น้ำเงินแดงและเขียว การซื้อจะถูกจัดกลุ่มเข้าด้วยกันเช่นจากลูกค้า ลูกค้าเหล่านี้แต่ละคนมีชุดข้อมูลหนึ่งแถวของฉันดังนั้นฉันจึงต้องรวมการซื้อกับลูกค้า วิธีที่ฉันทำคือการนับจำนวนการซื้อโดยที่รายการนั้นมีสีที่แน่นอน ดังนั้นแทนที่จะตัวแปรเดียวcolorผมจบลงด้วยสามตัวแปรcount_red, และcount_bluecount_green นี่คือตัวอย่างสำหรับภาพประกอบ: ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | …

3
ตัวอย่างที่เอาต์พุตของอัลกอริทึม k-medoid แตกต่างจากเอาต์พุตของอัลกอริทึม k-mean
ฉันเข้าใจความแตกต่างระหว่าง k medoid กับ k หมายความว่า แต่คุณสามารถยกตัวอย่างให้ฉันด้วยชุดข้อมูลขนาดเล็กที่เอาต์พุต k medoid แตกต่างจาก k หมายถึงเอาต์พุต

3
K- หมายถึงความคล้ายคลึงโคไซน์กับระยะทางแบบยุคลิด (LSA)
ฉันใช้การวิเคราะห์ความหมายแฝงเพื่อแสดงคลังข้อมูลของเอกสารในพื้นที่มิติต่ำกว่า ฉันต้องการจัดกลุ่มเอกสารเหล่านี้เป็นสองกลุ่มโดยใช้วิธี k หลายปีที่ผ่านมาฉันทำสิ่งนี้โดยใช้ gensim ของ Python และเขียนอัลกอริทึม k-mean ของฉันเอง ฉันกำหนดเซนทรอยด์ของคลัสเตอร์โดยใช้ระยะทางแบบยุคลิด แต่ก็ทำการจัดกลุ่มเอกสารตามความคล้ายคลึงกันของโคไซน์กับเซนทรอยด์ ดูเหมือนว่าจะทำงานได้ค่อนข้างดี ตอนนี้ฉันกำลังพยายามทำสิ่งนี้กับคลังเอกสารขนาดใหญ่กว่ามาก K-หมายถึงไม่ได้มาบรรจบกันและฉันสงสัยว่ามันเป็นข้อบกพร่องในรหัสของฉัน ฉันอ่านเมื่อเร็ว ๆ นี้ว่าคุณไม่ควรจัดกลุ่มโดยใช้ความเหมือนโคไซน์เพราะ k-mean ใช้งานได้กับระยะทางแบบยุคลิดเท่านั้น แม้ว่าตามที่ฉันได้กล่าวมาดูเหมือนว่าจะทำงานได้ดีในกรณีทดสอบขนาดเล็กของฉัน ตอนนี้ฉันเจอสิ่งนี้ในหน้าLSA Wikipedia : เอกสารและคำแทนเวกเตอร์สามารถจัดกลุ่มได้โดยใช้อัลกอริทึมการจัดกลุ่มแบบดั้งเดิมเช่น k- หมายถึงโดยใช้มาตรการความคล้ายคลึงกันเช่นโคไซน์ แล้วมันคืออะไร? ฉันสามารถใช้โคไซน์คล้ายคลึงกันได้หรือไม่?

3
การกำหนดเลเบลของคลาสให้กับ k-หมายถึงคลัสเตอร์
ฉันมีคำถามพื้นฐานมากเกี่ยวกับการทำคลัสเตอร์ หลังจากที่ฉันพบกลุ่ม k กับเซนทรอยด์ของพวกเขาฉันจะตีความคลาสของจุดข้อมูลที่ฉันได้ทำคลัสเตอร์ได้อย่างไร (การกำหนดเลเบลคลาสที่มีความหมายให้กับแต่ละคลัสเตอร์) ฉันไม่ได้พูดถึงการตรวจสอบความถูกต้องของกลุ่มที่พบ สามารถใช้ชุดจุดข้อมูลขนาดเล็กที่มีป้ายกำกับหรือไม่คำนวณกลุ่มจุดที่มีป้ายกำกับเหล่านี้ว่าเป็นของใดและขึ้นอยู่กับประเภทและจำนวนจุดที่แต่ละกลุ่มได้รับตัดสินใจเลือกป้ายกำกับหรือไม่ ดูเหมือนจะค่อนข้างชัดเจน แต่ฉันไม่รู้ว่ามาตรฐานกำหนดป้ายกำกับให้กับกลุ่มด้วยวิธีนี้อย่างไร เพื่อความชัดเจนฉันต้องการทำการจัดกลุ่มที่ไม่มีผู้ดูแลซึ่งไม่ได้ใช้ป้ายกำกับเพื่อค้นหากลุ่มของฉันก่อน จากนั้นเมื่อพบกลุ่มฉันต้องการกำหนดป้ายชื่อคลาสที่มีความหมายให้กับกลุ่มโดยยึดตามคุณสมบัติของดาต้าพอยน์ตัวอย่างสองสามตัวอย่าง
10 k-means 

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
K- หมายถึง: มีการทำซ้ำหลายครั้งในสถานการณ์จริง
ฉันไม่ได้มีประสบการณ์ในอุตสาหกรรมในการขุดข้อมูลหรือข้อมูลขนาดใหญ่ดังนั้นชอบที่จะได้ยินคุณแบ่งปันประสบการณ์ ผู้คนใช้งาน k-mean, PAM, CLARA และอื่น ๆ ในชุดข้อมูลขนาดใหญ่จริง ๆ หรือไม่? หรือพวกมันสุ่มเลือกตัวอย่างจากมัน? หากพวกเขาใช้ตัวอย่างของชุดข้อมูลผลลัพธ์จะน่าเชื่อถือหากชุดข้อมูลนั้นไม่ได้รับการกระจายตามปกติ ในสถานการณ์จริงเมื่อรันอัลกอริทึมเหล่านี้เราสามารถบอกได้ไหมว่าจะต้องทำซ้ำหลายครั้งจนกว่าจะเกิดการบรรจบกัน? หรือจำนวนการวนซ้ำมักเพิ่มขึ้นตามขนาดข้อมูลหรือไม่ ฉันถามสิ่งนี้เพราะฉันคิดว่าการพัฒนาวิธีการที่จะยุติอัลกอริทึมซ้ำก่อนการบรรจบกัน แต่ผลลัพธ์ยังคงเป็นที่ยอมรับ ฉันคิดว่ามันคุ้มค่าที่จะลองถ้าจำนวนการวนซ้ำพูดมากกว่า 1,000 ครั้งเพื่อให้เราสามารถประหยัดต้นทุนและเวลาในการคำนวณได้ คุณคิดอย่างไร?

2
ความแตกต่างระหว่าง PCA และการจัดกลุ่มสเปกตรัมสำหรับชุดตัวอย่างขนาดเล็กของคุณลักษณะบูลีน
ฉันมีชุดข้อมูลจำนวน 50 ตัวอย่าง แต่ละตัวอย่างประกอบด้วยคุณลักษณะบูลีน 11 (อาจมีความสัมพันธ์) ฉันต้องการที่จะเห็นภาพตัวอย่างเหล่านี้ในพล็อต 2D และตรวจสอบว่ามีกลุ่ม / กลุ่มใน 50 ตัวอย่างหรือไม่ ฉันได้ลองสองวิธีต่อไปนี้: (a) เรียกใช้ PCA บนเมทริกซ์ 50x11 และเลือกสององค์ประกอบหลักแรก ฉายข้อมูลลงบนพล็อต 2 มิติและรัน K-mean อย่างง่ายเพื่อระบุกลุ่ม (b) สร้างเมทริกซ์ความคล้ายคลึงกัน 50x50 (โคไซน์) เรียกใช้การจัดกลุ่มสเปกตรัมเพื่อลดมิติตามด้วย K-mean อีกครั้ง อะไรคือแนวคิดที่แตกต่างระหว่างการทำ PCA โดยตรงกับการใช้ค่าลักษณะเฉพาะของเมทริกซ์ความเหมือนกัน? ดีกว่าอีกไหม? นอกจากนี้ยังมีวิธีที่ดีกว่าในการแสดงภาพข้อมูลในแบบ 2D หรือไม่? เนื่องจากขนาดตัวอย่างของฉันถูก จำกัด ไว้ที่ 50 เสมอและชุดคุณลักษณะของฉันอยู่ในช่วง 10-15 เสมอฉันยินดีที่จะลองใช้วิธีการต่างๆแบบทันทีและเลือกที่ดีที่สุด คำถามที่เกี่ยวข้อง: การ จัดกลุ่มตัวอย่างโดยการทำคลัสเตอร์หรือ PCA

1
จำนวนส่วนประกอบที่เหมาะสมที่สุดในส่วนผสมของเกาส์เซียน
ดังนั้นการได้รับ "ความคิด" ของจำนวนที่ดีที่สุดของกลุ่มใน k- หมายถึงเป็นเอกสารที่ดี ฉันพบบทความเกี่ยวกับการทำเช่นนี้ในการผสมแบบเกาส์ แต่ไม่แน่ใจว่าฉันเชื่อมั่นในมันไม่เข้าใจดีนัก มี ... วิธีที่อ่อนโยนกว่าในการทำเช่นนี้?

2
ทำความเข้าใจกับแผนการขายไอศกรีมของ PCA นี้เทียบกับอุณหภูมิ
ฉันกำลังใช้ข้อมูลหุ่นจำลองของอุณหภูมิเทียบกับการขายไอศกรีมและจัดหมวดหมู่โดยใช้ K หมายถึง (n กลุ่ม = 2) เพื่อแยกแยะความแตกต่าง 2 ประเภท (หุ่นจำลองทั้งหมด) ตอนนี้ฉันกำลังทำการวิเคราะห์ส่วนประกอบหลักในข้อมูลนี้และเป้าหมายของฉันคือเข้าใจสิ่งที่ฉันเห็น ฉันรู้ว่าวัตถุประสงค์ PCA คือการลดมิติ (ไม่ชัดเจนในกรณีนี้) และแสดงความแปรปรวนขององค์ประกอบ แต่คุณจะอ่านพล็อต PCA ด้านล่างได้อย่างไรนั่นคือเรื่องราวที่คุณสามารถบอกเกี่ยวกับอุณหภูมิเทียบกับไอศกรีมในพล็อต PCA ได้อย่างไร พีซีรุ่น 1 (X) และ 2nd (Y) หมายถึงอะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.