คำถามติดแท็ก clustering

การวิเคราะห์กลุ่มเป็นหน้าที่ของการแบ่งข้อมูลออกเป็นส่วนย่อยของวัตถุตาม "ความคล้ายคลึงกัน" ซึ่งกันและกันโดยไม่ใช้ความรู้ที่มีมาก่อนเช่นป้ายชื่อชั้นเรียน [ข้อผิดพลาดมาตรฐานและ / หรือกลุ่มตัวอย่างควรติดแท็กเช่น; อย่าใช้แท็ก "การจัดกลุ่ม" สำหรับพวกเขา]

3
การทำคลัสเตอร์กับ K-Means และ EM: พวกเขาเกี่ยวข้องกันอย่างไร
ฉันได้ศึกษาอัลกอริทึมสำหรับการจัดกลุ่มข้อมูล (การเรียนรู้ที่ไม่สำรอง): EM และ k-mean ฉันอ่านต่อไปนี้: k-mean คือตัวแปรของ EM โดยมีข้อสันนิษฐานว่ากระจุกดาวทรงกลม ใครสามารถอธิบายประโยคข้างต้นได้บ้าง ฉันไม่เข้าใจความหมายของทรงกลมและความสัมพันธ์ของ kmeans และ EM เนื่องจากมีความน่าจะเป็นที่ได้รับมอบหมาย นอกจากนี้ในสถานการณ์ใดควรใช้การจัดกลุ่ม k-mean หรือใช้การทำคลัสเตอร์ EM

1
ตัวชี้วัดประสิทธิภาพเพื่อประเมินการเรียนรู้ที่ไม่ได้รับการดูแล
ด้วยความเคารพต่อการเรียนรู้ที่ไม่ได้รับการดูแล (เช่นการจัดกลุ่ม) มีตัวชี้วัดใดเพื่อประเมินประสิทธิภาพหรือไม่

3
เป็นไปได้ไหมที่จะทำการจัดกลุ่มอนุกรมเวลาตามรูปร่างโค้ง
ฉันมีข้อมูลการขายสำหรับร้านค้าต่างๆและต้องการจัดหมวดหมู่พวกเขาตามรูปร่างของเส้นโค้งเมื่อเวลาผ่านไป ข้อมูลดูเหมือนประมาณนี้ (แต่เห็นได้ชัดว่าไม่ได้สุ่มและมีข้อมูลขาดหายไป): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, 200) new.df <- data.frame( var0 = interval + c(0, cumsum(runif(49, -5, 5))), date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters), store = rep(paste("Store", i, sep=""), n.quarters)) if (exists("test.data")){ test.data <- rbind(test.data, …

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 


5
จำเป็นหรือไม่ที่จะต้องทำการขยายข้อมูลก่อนทำการจัดกลุ่ม?
ฉันพบบทช่วยสอนนี้ซึ่งแนะนำว่าคุณควรเรียกใช้ฟังก์ชันมาตราส่วนบนฟีเจอร์ก่อนการจัดกลุ่ม (ฉันเชื่อว่ามันแปลงข้อมูลเป็นคะแนน z) ฉันสงสัยว่าจำเป็นหรือไม่ ฉันถามเป็นส่วนใหญ่เพราะมีจุดศอกที่ดีเมื่อฉันไม่ได้ปรับขนาดข้อมูล แต่มันจะหายไปเมื่อมันถูกลดขนาด :)

8
วิธีการตรวจหาชุมชนในเครือข่ายโซเชียล / กราฟถ่วงน้ำหนัก
ฉันสงสัยว่าใครบางคนสามารถแนะนำสิ่งที่เป็นจุดเริ่มต้นที่ดีเมื่อพูดถึงการดำเนินการตรวจสอบชุมชน / การแบ่งกราฟ / การจัดกลุ่มบนกราฟที่มีขอบแบบถ่วงน้ำหนักและไม่มีทิศทาง กราฟที่มีปัญหานั้นมีขอบประมาณ 3 ล้านเส้นและแต่ละขอบจะแสดงระดับความคล้ายคลึงกันระหว่างจุดยอดทั้งสองที่เชื่อมต่อ โดยเฉพาะอย่างยิ่งในชุดข้อมูลนี้เป็นบุคคลและจุดยอดเป็นตัวชี้วัดความคล้ายคลึงกันของพฤติกรรมที่สังเกตได้ ในอดีตฉันทำตามคำแนะนำที่ฉันได้รับที่นี่ใน stats.stackexchange.com และใช้การดำเนินการตามกฎเกณฑ์ของการจัดกลุ่มแบบแยกส่วนของนิวแมนและพอใจกับผลการทดลอง มีอัลกอริทึมเฉพาะที่ฉันควรจะดูหรือไม่?

5
การจัดกลุ่มการแปรปรวนเวลาแบบไดนามิก
วิธีใดที่จะใช้ Dynamic Time Warping (DTW) เพื่อทำคลัสเตอร์ของอนุกรมเวลา ฉันได้อ่านเกี่ยวกับ DTW เป็นวิธีการค้นหาความคล้ายคลึงกันระหว่างสองอนุกรมเวลาในขณะที่พวกเขาสามารถเลื่อนเวลา ฉันสามารถใช้วิธีนี้เป็นวิธีการวัดความคล้ายคลึงกันสำหรับอัลกอริทึมการจัดกลุ่มอย่าง k- หมายถึงได้หรือไม่

5
อนุกรมเวลา 'การจัดกลุ่ม' ใน R
ฉันมีชุดข้อมูลอนุกรมเวลา แต่ละซีรี่ส์ครอบคลุมช่วงเวลาเดียวกันแม้ว่าวันที่ที่เกิดขึ้นจริงในแต่ละช่วงเวลาอาจไม่ตรงกับ กล่าวคือถ้าหากต้องอ่านอนุกรมเวลาในเมทริกซ์ 2D มันจะมีลักษณะดังนี้: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A 12 36.82 4/1/01 N/A 59 40 61.82 5/1/01 05 99 42 23.68 ... 31/12/01 100 59 42 N/A etc ฉันต้องการเขียนสคริปต์ R ที่จะแยกอนุกรมเวลา {T1, T2, ... TN} …

3
วิธีการเลือกวิธีการจัดกลุ่ม? วิธีการตรวจสอบวิธีการแก้ปัญหาของคลัสเตอร์ (เพื่อรับประกันทางเลือกวิธีการ)?
หนึ่งในปัญหาที่ใหญ่ที่สุดที่มีการวิเคราะห์กลุ่มคือเราอาจต้องได้ข้อสรุปที่แตกต่างกันเมื่อใช้วิธีการจัดกลุ่มที่แตกต่างกัน (รวมถึงวิธีการเชื่อมโยงที่แตกต่างกันในการจัดกลุ่มแบบลำดับชั้น) ฉันต้องการทราบความคิดเห็นของคุณเกี่ยวกับเรื่องนี้ - คุณจะเลือกวิธีการอย่างไรและอย่างไร บางคนอาจพูดว่า "วิธีที่ดีที่สุดในการทำคลัสเตอร์คือให้คำตอบที่ถูกต้อง"; แต่ฉันอาจถามเพื่อตอบสนองว่าการวิเคราะห์กลุ่มควรเป็นเทคนิคที่ไม่ได้รับการสำรอง - ดังนั้นฉันจะรู้ได้อย่างไรว่าวิธีการหรือการเชื่อมโยงใดเป็นคำตอบที่ถูกต้อง? โดยทั่วไป: การจัดกลุ่มเพียงอย่างเดียวแข็งแกร่งเพียงพอที่จะพึ่งพาหรือไม่ หรือเราต้องการวิธีที่สองและรับผลการแบ่งปันเพื่อเป็นไปตามทั้งสองอย่าง? คำถามของฉันไม่เพียงเกี่ยวกับวิธีที่เป็นไปได้ในการตรวจสอบ / ประเมินประสิทธิภาพการจัดกลุ่ม แต่ยังมีความกว้างกว่า - เราเลือก / ชอบวิธีการจัดกลุ่ม / อัลกอริทึมมากกว่าวิธีอื่น นอกจากนี้ยังมีคำเตือนทั่วไปที่เราควรพิจารณาเมื่อเราเลือกวิธีการจัดกลุ่มข้อมูลของเราหรือไม่ ฉันรู้ว่ามันเป็นคำถามทั่วไปและยากที่จะตอบ ฉันแค่อยากจะรู้ว่าถ้าคุณมีความคิดเห็นหรือคำแนะนำใด ๆ หรือข้อเสนอแนะสำหรับฉันที่จะเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้

4
จะตีความค่าเฉลี่ยของพล็อต Silhouette ได้อย่างไร?
ฉันกำลังพยายามใช้รูปเงาดำเพื่อกำหนดจำนวนของคลัสเตอร์ในชุดข้อมูลของฉัน รับชุดข้อมูลTrainฉันใช้รหัส matlab ต่อไปนี้ Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` พล็อตผลที่จะได้รับด้านล่างด้วย xaxis เป็นจำนวนคลัสเตอร์และ yaxis ค่าเฉลี่ยของความเงา ฉันจะตีความกราฟนี้ได้อย่างไร ฉันจะกำหนดจำนวนของคลัสเตอร์จากสิ่งนี้ได้อย่างไร?

2
การจัดกลุ่มตามลำดับชั้นด้วยข้อมูลชนิดผสม - มีระยะทาง / ความคล้ายคลึงกันในการใช้งานอย่างไร
ในชุดข้อมูลของฉันเรามีทั้งตัวแปรต่อเนื่องและไม่ต่อเนื่องตามธรรมชาติ ฉันต้องการทราบว่าเราสามารถทำการจัดกลุ่มแบบลำดับชั้นโดยใช้ตัวแปรทั้งสองประเภทได้หรือไม่ และถ้าใช่มีการวัดระยะทางที่เหมาะสม?

3
ทำไม t-SNE ไม่ถูกใช้เป็นเทคนิคการลดขนาดสำหรับการจัดกลุ่มหรือการจำแนก?
ในการมอบหมายเมื่อเร็ว ๆ นี้เราได้รับคำสั่งให้ใช้ PCA บนตัวเลข MNIST เพื่อลดขนาดจาก 64 (8 x 8 ภาพ) เป็น 2 จากนั้นเราต้องจัดกลุ่มตัวเลขโดยใช้แบบจำลองส่วนผสมของเกาส์เซียน PCA ที่ใช้ 2 องค์ประกอบหลักเท่านั้นไม่ได้ให้ผลที่แตกต่างกันของคลัสเตอร์และเป็นผลให้แบบจำลองไม่สามารถสร้างการจัดกลุ่มที่มีประโยชน์ได้ อย่างไรก็ตามการใช้ t-SNE พร้อมด้วย 2 องค์ประกอบกลุ่มจะถูกแยกออกจากกันได้ดีกว่ามาก แบบจำลองการผสมแบบเกาส์ผลิตกลุ่มที่แตกต่างกันมากขึ้นเมื่อนำไปใช้กับส่วนประกอบ t-SNE ความแตกต่างใน PCA ที่มี 2 องค์ประกอบและ t-SNE ที่มี 2 ส่วนประกอบสามารถมองเห็นได้ในภาพคู่ต่อไปนี้ที่มีการใช้การแปลงกับชุดข้อมูล MNIST ฉันได้อ่านแล้วว่า t-SNE ใช้สำหรับการสร้างภาพข้อมูลมิติสูงเท่านั้นเช่นในคำตอบนี้แต่ได้รับกลุ่มที่แตกต่างกันแล้วทำไมมันไม่ใช้เป็นเทคนิคการลดขนาดที่ใช้สำหรับแบบจำลองการจำแนกหรือ วิธีการทำคลัสเตอร์แบบสแตนด์อโลน

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
(เพราะอะไร) SOM สไตล์โคโนนันหลุดพ้นไปจากความโปรดปรานไหม?
เท่าที่ฉันสามารถบอกได้ SOM สไตล์โคโนนนั้นมีจุดสูงสุดในช่วงประมาณปี 2005 และไม่เคยได้รับความนิยมเท่านี้มาก่อน ฉันไม่พบกระดาษใด ๆ ที่ระบุว่า SOM ได้รับการแบ่งย่อยด้วยวิธีอื่นหรือได้รับการพิสูจน์แล้วว่าเทียบเท่ากับสิ่งอื่น (ในระดับที่สูงกว่าอย่างใด) แต่ดูเหมือนว่า tSNE และวิธีการอื่นจะได้รับหมึกเพิ่มมากขึ้นทุกวันตัวอย่างเช่นใน Wikipedia หรือใน SciKit Learn และ SOM ถูกกล่าวถึงมากขึ้นเป็นวิธีการทางประวัติศาสตร์ (ที่จริงแล้วบทความ Wikipedia ดูเหมือนจะระบุว่า SOM ยังคงมีข้อได้เปรียบเหนือคู่แข่งอยู่บ้าง แต่ก็เป็นรายการสั้นที่สุดในรายการแก้ไข: ตามคำขอของ gung ซึ่งเป็นหนึ่งในบทความที่ฉันคิดว่าเป็น: การลดขนาดแบบไม่เชิงเส้นโปรดทราบว่า SOM เขียนเกี่ยวกับเรื่องนี้น้อยกว่าวิธีอื่น ๆ ฉันไม่สามารถหาบทความที่กล่าวถึงข้อได้เปรียบที่ SOM ดูเหมือนว่าจะรักษาวิธีอื่น ๆ ได้ส่วนใหญ่) ข้อมูลเชิงลึกใด ๆ มีคนถามว่าทำไมไม่ใช้ SOM และได้รับการอ้างอิงเมื่อนานมาแล้วและฉันได้พบการดำเนินการจากการประชุม SOM แต่สงสัยว่าการเพิ่มขึ้นของ SVM หรือ tSNE และ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.