คำถามติดแท็ก clustering

การวิเคราะห์กลุ่มเป็นหน้าที่ของการแบ่งข้อมูลออกเป็นส่วนย่อยของวัตถุตาม "ความคล้ายคลึงกัน" ซึ่งกันและกันโดยไม่ใช้ความรู้ที่มีมาก่อนเช่นป้ายชื่อชั้นเรียน [ข้อผิดพลาดมาตรฐานและ / หรือกลุ่มตัวอย่างควรติดแท็กเช่น; อย่าใช้แท็ก "การจัดกลุ่ม" สำหรับพวกเขา]

2
การวิเคราะห์แบบเบส์แบบไม่มีพารามิเตอร์ใน R
ฉันกำลังมองหาบทช่วยสอนที่ดีเกี่ยวกับการจัดกลุ่มข้อมูลในการRใช้กระบวนการดีริชเลต์แบบลำดับชั้น (HDP) (หนึ่งในวิธีการแบบเบส์แบบ nonparametric ล่าสุดและเป็นที่นิยม) มีDPpackage(IMHO, ครอบคลุมมากที่สุดของทั้งหมดที่มีอยู่) ในRการวิเคราะห์แบบเบส์แบบไม่มีพารามิเตอร์ แต่ฉันไม่สามารถเข้าใจตัวอย่างที่มีให้ในR Newsหรือในคู่มืออ้างอิงแพ็คเกจได้ดีพอที่จะใช้รหัส HDP ความช่วยเหลือหรือตัวชี้ใด ๆ ที่ชื่นชม การใช้งาน C ++ ของ HDP สำหรับการสร้างแบบจำลองหัวข้อมีอยู่ที่นี่ (โปรดดูที่ด้านล่างสำหรับรหัส C ++)

1
Jenks Natural Breaks ใน Python: จะหาจำนวนการพักที่เหมาะสมได้อย่างไร
ฉันพบการใช้ PythonของอัลกอริทึมJenks Natural Breaksและฉันสามารถทำให้มันทำงานบนเครื่อง Windows 7 ของฉัน มันค่อนข้างเร็วและพบว่าตัวแบ่งในเวลาไม่กี่พิจารณาขนาดของ geodata ของฉัน ก่อนที่จะใช้อัลกอริทึมการจัดกลุ่มนี้สำหรับข้อมูลของฉันฉันใช้อัลกอริทึมsklearn.clustering.KMeans (ที่นี่) ปัญหาที่ฉันมีกับ KMeans คือการหาพารามิเตอร์ค่า K ที่เหมาะสม แต่ฉัน "แก้ไข" มันเปิดตัวอัลกอริทึมสำหรับค่า K ที่แตกต่างกันและการใช้sklearn.metrics.silhouette_score (ที่นี่)เพื่อค้นหาเคที่ดีที่สุด คำถามของฉันคือ: ถ้าฉันบอกอัลกอริธึมการแบ่งธรรมชาติเพื่อค้นหา 5 คลาส (นั่นคือ K) ฉันจะแน่ใจได้อย่างไรว่านี่เป็นจำนวนคลาสที่ตรงกับข้อมูลของฉันมากที่สุด ฉันจะตรวจสอบว่าฉันเลือกจำนวนการหยุดพักที่ดีที่สุดได้อย่างไร ขอบคุณ!

3
การวางแผนข้อมูลคลัสเตอร์หลายมิติด้วยสายตา
ฉันมีชุดข้อมูลที่มี 16 ตัวแปรและหลังจากการจัดกลุ่มโดย kmeans ฉันต้องการลงจุดทั้งสองกลุ่ม คุณแนะนำให้แปลงอะไรเป็นภาพสองกลุ่ม?

5
เหตุใด k- หมายถึงไม่ให้ขั้นต่ำทั่วโลก
ฉันอ่านว่าอัลกอริทึม k-mean จะแปลงเป็นค่าต่ำสุดในท้องถิ่นเท่านั้นและไม่ใช่ระดับต่ำสุดทั่วโลก ทำไมนี้ ฉันสามารถคิดอย่างมีเหตุผลว่าการกำหนดค่าเริ่มต้นอาจส่งผลกระทบต่อการจัดกลุ่มสุดท้ายและมีความเป็นไปได้ของการจัดกลุ่มย่อยที่เหมาะสม แต่ฉันไม่พบสิ่งใดที่จะพิสูจน์ได้ในเชิงคณิตศาสตร์ นอกจากนี้เหตุใด k-หมายถึงกระบวนการวนซ้ำ เราไม่สามารถแยกความแตกต่างของฟังก์ชั่นวัตถุประสงค์เพียงเล็กน้อยกับเซนทรอยด์, แบ่งมันให้เป็นศูนย์เพื่อค้นหาเซนทรอยด์ที่ลดฟังก์ชั่นนี้ได้หรือไม่? เหตุใดเราต้องใช้การไล่ระดับสีเพื่อเข้าถึงขั้นตอนทีละน้อย?

4
วิธีการทำคลัสเตอร์ที่ไม่ต้องระบุจำนวนคลัสเตอร์ล่วงหน้า
มีวิธีการทำคลัสเตอร์แบบ "ไม่มีพารามิเตอร์" ซึ่งเราไม่จำเป็นต้องระบุจำนวนกลุ่มหรือไม่ และพารามิเตอร์อื่น ๆ เช่นจำนวนคะแนนต่อกลุ่มเป็นต้น
17 clustering 

3
ขั้นตอนวิธีใดบ้างที่ Ward.D ใน hclust () นำไปใช้หากไม่ใช่เกณฑ์ของ Ward
ตัวเลือกที่ใช้โดยตัวเลือก "ward.D" (เทียบเท่ากับตัวเลือก Ward เท่านั้น "Ward" ในรุ่น R <= 3.0.3) ไม่ได้ใช้เกณฑ์การจัดกลุ่มของ Ward (1963) ในขณะที่ตัวเลือก "ward.D2" จะใช้เกณฑ์นั้น ( Murtagh and Legendre 2014) ( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html ) เห็นได้ชัดว่า Ward.D ไม่ได้ใช้เกณฑ์ของ Ward อย่างถูกต้อง อย่างไรก็ตามดูเหมือนว่าจะทำงานได้ดีเกี่ยวกับการรวมกลุ่มที่ผลิต method = "ward.D" นำไปใช้อะไรหากไม่เป็นไปตามเกณฑ์ของ Ward อ้างอิง Murtagh, F. , & Legendre, P. (2014) วิธีการจัดกลุ่มแบบลำดับชั้น agglomerative ของวอร์ด: อัลกอริทึมใดที่ใช้เกณฑ์ของวอร์ด วารสารการจำแนก , 31 …
16 r  clustering  ward 

4
การจัดกลุ่มข้อมูล 1D
ฉันมีชุดข้อมูลฉันต้องการสร้างกลุ่มข้อมูลตามตัวแปรเดียวเท่านั้น (ไม่มีค่าที่หายไป) ฉันต้องการสร้าง 3 กลุ่มตามตัวแปรนั้น อัลกอริทึมการจัดกลุ่มที่จะใช้ k-mean, EM, DBSCAN ฯลฯ คำถามหลักของฉันคือในสถานการณ์ใดฉันควรใช้ k- หมายถึง EM หรือ EM มากกว่า k- หมายถึง?
16 clustering 

2
เราจะรวมการลดขนาดเข้ากับการรวมกลุ่มเมื่อใด
ฉันพยายามทำการจัดกลุ่มระดับเอกสาร ฉันสร้างเมทริกซ์ความถี่เอกสารระยะและฉันพยายามจัดกลุ่มเวกเตอร์มิติสูงเหล่านี้โดยใช้ค่าเฉลี่ย k แทนที่จะทำการจัดกลุ่มโดยตรงสิ่งที่ฉันทำคือการใช้การสลายตัวเวกเตอร์เอกพจน์ (การวิเคราะห์ความหมายแฝง) ของ LSA ก่อนเพื่อให้ได้เมทริกซ์ U, S, Vt เลือกเกณฑ์ที่เหมาะสมโดยใช้พล็อตหินกรวดและใช้การจัดกลุ่มบนเมทริกซ์ที่ลดลง มันทำให้ฉันมีข้อมูลเอกสารแนวคิด) ซึ่งดูเหมือนจะให้ผลลัพธ์ที่ดีแก่ฉัน ฉันเคยได้ยินบางคนพูดว่า SVD (เอกพจน์การสลายตัวของเวกเตอร์) เป็นการจัดกลุ่ม (โดยใช้การวัดความคล้ายคลึงกันของโคไซน์ ฯลฯ ) และไม่แน่ใจว่าฉันสามารถใช้ k-mean กับผลลัพธ์ของ SVD ได้หรือไม่ ฉันคิดว่ามันถูกต้องตามหลักเหตุผลเพราะ SVD เป็นเทคนิคการลดขนาดให้ฉันเป็นเวกเตอร์ใหม่ ในทางกลับกันค่า k จะใช้จำนวนกลุ่มเป็นอินพุตและแบ่งเวกเตอร์เหล่านี้เป็นจำนวนกลุ่มที่ระบุ ขั้นตอนนี้มีข้อบกพร่องหรือมีวิธีที่สามารถปรับปรุงได้หรือไม่ ข้อเสนอแนะใด ๆ

4
ข้อสมมติฐานของการวิเคราะห์กลุ่ม
ขอโทษสำหรับคำถามพื้นฐานฉันยังใหม่กับการวิเคราะห์รูปแบบนี้และมีความเข้าใจที่ จำกัด มากในหลักการ ฉันแค่สงสัยว่าหลายสมมติฐานสำหรับการทดสอบหลายตัวแปร / univariate ใช้สำหรับการวิเคราะห์กลุ่ม? แหล่งข้อมูลจำนวนมากที่ฉันได้อ่านเกี่ยวกับการวิเคราะห์กลุ่มไม่สามารถระบุสมมติฐานได้ ฉันสนใจเป็นพิเศษในการตั้งสมมติฐานของความเป็นอิสระของการสังเกต ความเข้าใจของฉันคือการละเมิดสมมติฐานนี้ (ในตัวอย่าง ANOVA และ MAVOVA) นั้นร้ายแรงเพราะมันมีผลต่อการประมาณการข้อผิดพลาด จากการอ่านของฉันจนถึงขณะนี้ดูเหมือนว่าการวิเคราะห์กลุ่มส่วนใหญ่เป็นเทคนิคที่อธิบาย (ที่เกี่ยวข้องกับการอนุมานทางสถิติในบางกรณีที่ระบุเท่านั้น) ดังนั้นสมมติฐานเช่นความเป็นอิสระและการกระจายข้อมูลตามปกติจำเป็นต้องมี? คำแนะนำใด ๆ ของข้อความที่กล่าวถึงปัญหานี้จะได้รับการชื่นชมอย่างมาก ขอบคุณมาก.

1
วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht
ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

2
วิธีที่ดีสำหรับการจัดกลุ่มข้อความสั้นคืออะไร
ฉันกำลังทำงานกับปัญหาการจัดกลุ่มข้อความ ข้อมูลมีหลายประโยค มีอัลกอริทึมที่ดีซึ่งมีความแม่นยำสูงในข้อความสั้นหรือไม่? คุณสามารถให้การอ้างอิงที่ดีได้หรือไม่? อัลกอริทึมเช่น KMeans การจัดกลุ่มสเปกตรัมไม่ทำงานได้ดีสำหรับปัญหานี้

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
การทำเหมืองข้อความ: วิธีจัดกลุ่มข้อความ (เช่นบทความข่าว) ด้วยปัญญาประดิษฐ์ได้อย่างไร
ฉันได้สร้างเครือข่ายนิวรัล (MLP (เชื่อมต่อเต็ม), Elman (กำเริบ) สำหรับงานที่แตกต่างกันเช่นการเล่นโป่ง, การจำแนกตัวเลขหลักที่เขียนด้วยลายมือและสิ่งต่าง ๆ ... นอกจากนี้ฉันพยายามสร้างโครงข่ายประสาทเทียมแบบแรกเช่นสำหรับการจำแนกบันทึกย่อที่เขียนด้วยลายมือหลายหลัก แต่ฉันใหม่สมบูรณ์ในการวิเคราะห์และจัดกลุ่มข้อความเช่นในการรับรู้ภาพ / การจัดกลุ่มงานหนึ่งสามารถพึ่งพาอินพุตมาตรฐานเช่นรูปภาพขนาด 25x25 RGB หรือเฉดสีเทาและอื่น ๆ ... มีคุณสมบัติมากมายที่คาดการณ์ไว้ล่วงหน้า สำหรับการทำเหมืองข้อความตัวอย่างเช่นบทความข่าวคุณมีขนาดของการป้อนข้อมูลที่เปลี่ยนแปลงตลอดเวลา (คำต่าง ๆ ประโยคที่แตกต่างความยาวข้อความที่แตกต่างกัน ... ) เราจะใช้เครื่องมือขุดข้อความที่ทันสมัยโดยใช้ปัญญาประดิษฐ์โดยเฉพาะอย่างยิ่งโครงข่ายประสาทเทียม / SOM ได้อย่างไร? น่าเสียดายที่ฉันไม่สามารถหาบทแนะนำง่าย ๆ สำหรับการเริ่มต้นได้ เอกสารทางวิทยาศาสตร์ที่ซับซ้อนยากที่จะอ่านและไม่ใช่ตัวเลือกที่ดีที่สุดสำหรับการเรียนรู้หัวข้อ (ตามความเห็นของฉัน) ฉันได้อ่านบทความเกี่ยวกับ MLPs, เทคนิคการออกกลางคัน, โครงข่ายประสาทเทียมและอื่น ๆ แล้ว แต่ฉันไม่สามารถหาพื้นฐานเกี่ยวกับการทำเหมืองข้อความได้ - ทั้งหมดที่ฉันพบนั้นอยู่ในระดับที่สูงเกินไปสำหรับทักษะการทำเหมืองข้อความที่ จำกัด

2
วิธีปรับรูปแบบการผสมสำหรับการจัดกลุ่ม
ฉันมีสองตัวแปร - X และ Y และฉันต้องทำให้คลัสเตอร์สูงสุด (และเหมาะสมที่สุด) = 5 ขอพล็อตที่เหมาะของตัวแปรเป็นดังนี้: ฉันต้องการสร้าง 5 กลุ่มจากสิ่งนี้ บางสิ่งเช่นนี้ ดังนั้นฉันคิดว่านี่คือรูปแบบผสมที่มี 5 กลุ่ม แต่ละกลุ่มมีจุดกึ่งกลางและวงกลมความเชื่อมั่นรอบ ๆ กระจุกนั้นไม่ได้สวยแบบนี้เสมอไปมันมีลักษณะดังต่อไปนี้ซึ่งบางครั้งก็มีสองกลุ่มอยู่ใกล้กันหรือหนึ่งหรือสองกลุ่มหายไปโดยสิ้นเชิง จะเหมาะสมกับรูปแบบผสมและดำเนินการจำแนก (การจัดกลุ่ม) ในสถานการณ์นี้ได้อย่างมีประสิทธิภาพ? ตัวอย่าง: set.seed(1234) X <- c(rnorm(200, 10, 3), rnorm(200, 25,3), rnorm(200,35,3), rnorm(200,65, 3), rnorm(200,80,5)) Y <- c(rnorm(1000, 30, 2)) plot(X,Y, ylim = c(10, 60), pch = 19, col …

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.