คำถามติดแท็ก k-means

k-mean เป็นวิธีการแบ่งพาร์ติชันข้อมูลออกเป็นกระจุกโดยการค้นหาจำนวนวิธีที่ระบุ, k, st เมื่อข้อมูลถูกกำหนดให้กับกลุ่ม w / ค่าเฉลี่ยที่ใกล้ที่สุด

1
ความแตกต่างระหว่างอัลกอริธึมมาตรฐานและทรงกลม k-mean
ฉันต้องการเข้าใจว่าอะไรคือความแตกต่างที่สำคัญในการใช้งานระหว่างอัลกอริธึมการจัดกลุ่ม k-Mean แบบมาตรฐานและทรงกลม ในแต่ละขั้นตอน k-หมายถึงคำนวณระยะทางระหว่างเวกเตอร์องค์ประกอบและเซนทรอยด์ของคลัสเตอร์และกำหนดเอกสารให้กับคลัสเตอร์นี้อีกครั้งซึ่งเซนทรอยด์อยู่ใกล้ที่สุด จากนั้นเซนทรอยด์ทั้งหมดจะถูกคำนวณใหม่ ในรูป k k- หมายถึงเวกเตอร์ทั้งหมดจะถูกทำให้เป็นมาตรฐานและการวัดระยะทางเป็นความแตกต่างของโคไซน์ นั่นคือทั้งหมดหรือมีอย่างอื่นหรือไม่

2
วิธีการใช้ทั้งไบนารีและตัวแปรต่อเนื่องร่วมกันในการจัดกลุ่ม?
ฉันต้องการใช้ตัวแปรไบนารี (ค่า 0 & 1) ใน k-mean แต่ k-mean ใช้งานได้กับตัวแปรต่อเนื่องเท่านั้น ฉันรู้ว่าบางคนยังคงใช้ตัวแปรไบนารีเหล่านี้ใน k-mean โดยไม่สนใจข้อเท็จจริงที่ว่า k-หมายความว่าถูกออกแบบมาสำหรับตัวแปรต่อเนื่องเท่านั้น นี่เป็นสิ่งที่ฉันยอมรับไม่ได้ คำถาม: ดังนั้นวิธีที่ถูกต้องทางสถิติ / ทางคณิตศาสตร์ของการใช้ตัวแปรไบนารีในการจัดกลุ่ม k- หมายถึง / ลำดับชั้นคืออะไร? วิธีการนำโซลูชันไปใช้ใน SAS / R

5
ขั้นตอนการทำคลัสเตอร์ที่แต่ละกลุ่มมีจำนวนคะแนนเท่ากันหรือไม่
ฉันมีบางจุดในR pและฉันต้องการจัดกลุ่มคะแนนเพื่อให้:X= { x1, . . . , xn}X={x1,...,xn}X=\{x_1,...,x_n\}RพีRพีR^p แต่ละคลัสเตอร์มีจำนวนเท่ากันขององค์ประกอบของX(สมมติว่าจำนวนกลุ่มหารn )XXXnnn แต่ละกลุ่มมี "ความสัมพันธ์เชิงพื้นที่" ในบางกรณีเช่นกลุ่มจาก -meanskkk เป็นเรื่องง่ายที่จะนึกถึงกระบวนการจัดกลุ่มจำนวนมากที่ตอบสนองความต้องการอย่างใดอย่างหนึ่ง แต่ไม่มีใครรู้วิธีที่จะทำให้ทั้งสองอย่างพร้อมกันได้หรือไม่

3
กำหนดกลุ่มข้อมูล 1d ที่แตกต่างจากฐานข้อมูล
ฉันมีตารางฐานข้อมูลของการถ่ายโอนข้อมูลระหว่างโหนดที่แตกต่างกัน นี่เป็นฐานข้อมูลขนาดใหญ่ (มีการโอนเกือบ 40 ล้านครั้ง) หนึ่งในแอ็ตทริบิวต์คือจำนวนไบต์ (nbytes) ที่ถ่ายโอนซึ่งมีช่วงตั้งแต่ 0 ไบต์ถึง 2 tera ไบต์ ฉันต้องการคลัสเตอร์ nbytes เช่นนั้นที่ได้รับ k กลุ่มบางการถ่ายโอน x1 เป็นของคลัสเตอร์ k1, x2 transfters เพื่อ k2 ฯลฯ จากคำศัพท์ที่ฉันใช้คุณอาจเดาได้ว่าฉันกำลังจะไปกับอะไร: K-mean นี่เป็นข้อมูล 1d เนื่องจาก nbytes เป็นคุณสมบัติเดียวที่ฉันสนใจ เมื่อฉันกำลังค้นหาวิธีการที่แตกต่างกันนี้ฉันเห็น EM ถูกพูดถึงสองสามครั้งพร้อมกับวิธีการไม่จัดกลุ่ม ฉันต้องการทราบเกี่ยวกับมุมมองของคุณเกี่ยวกับวิธีการแก้ไขปัญหานี้ (โดยเฉพาะอย่างยิ่งว่าจะจัดกลุ่มหรือไม่จัดกลุ่ม) ขอบคุณ!

8
ดำเนินการจัดกลุ่ม K-Mean (หรือญาติสนิท) ด้วยเมทริกซ์ระยะทางไม่ใช่ข้อมูลแบบจุดต่อจุด
ฉันต้องการทำการจัดกลุ่ม K- หมายถึงการจัดกลุ่มบนวัตถุที่ฉันมี แต่วัตถุไม่ได้อธิบายว่าเป็นจุดในอวกาศเช่นobjects x featuresชุดข้อมูล อย่างไรก็ตามฉันสามารถคำนวณระยะห่างระหว่างวัตถุสองชนิดใดก็ได้ (มันขึ้นอยู่กับฟังก์ชันความคล้ายคลึงกัน) objects x objectsดังนั้นฉันจึงทิ้งของเมทริกซ์ระยะทาง ฉันเคยใช้ K-mean มาก่อน แต่นั่นก็มีจุดเข้าชุดข้อมูล; และด้วยการป้อนเมทริกซ์ระยะทางมันไม่ชัดเจนสำหรับฉันที่จะอัปเดตกลุ่มให้เป็น "ศูนย์" ของคลัสเตอร์โดยไม่ต้องใช้การแทนจุด ปกติจะทำเช่นนี้ได้อย่างไร? มีเวอร์ชั่นของ K-Mean หรือเมธอดอยู่ใกล้ไหม

2
ถ้าการจัดกลุ่ม k หมายถึงเป็นรูปแบบของการสร้างแบบจำลองแบบผสมผสานของเกาส์เซียนนั้นสามารถใช้เมื่อข้อมูลไม่ปกติหรือไม่?
ฉันกำลังอ่าน Bishop เกี่ยวกับอัลกอริทึม EM สำหรับ GMM และความสัมพันธ์ระหว่าง GMM และ k-mean ในหนังสือเล่มนี้มันบอกว่า k-mean เป็นรุ่นที่กำหนดยากของ GMM ฉันสงสัยว่านั่นหมายความว่าถ้าข้อมูลที่ฉันพยายามจัดกลุ่มไม่ใช่ Gaussian ฉันไม่สามารถใช้วิธี k (หรืออย่างน้อยก็ไม่เหมาะที่จะใช้)? ตัวอย่างเช่นถ้าข้อมูลเป็นภาพของตัวเลขที่เขียนด้วยลายมือซึ่งประกอบด้วย 8 * 8 พิกเซลแต่ละรายการมีค่า 0 หรือ 1 (และถือว่าเป็นข้อมูลที่เป็นอิสระดังนั้นจึงควรเป็นส่วนผสมของเบอร์นูลี) ฉันสับสนเล็กน้อยในเรื่องนี้และจะขอบคุณความคิดใด ๆ

4
การจัดกลุ่มเมทริกซ์สหสัมพันธ์
ฉันมีเมทริกซ์สหสัมพันธ์ซึ่งระบุว่ารายการทั้งหมดสัมพันธ์กับรายการอื่นอย่างไร ดังนั้นสำหรับรายการ N ฉันมีเมทริกซ์สหสัมพันธ์ N * N อยู่แล้ว การใช้เมทริกซ์สหสัมพันธ์นี้ฉันจะจัดกลุ่มรายการ N ในถังขยะ M อย่างไรเพื่อให้ฉันสามารถพูดได้ว่ารายการ Nk ในถังขยะ kth ทำงานเหมือนกัน กรุณาช่วยฉันออก ค่ารายการทั้งหมดเป็นหมวดหมู่ ขอบคุณ แจ้งให้เราทราบหากคุณต้องการข้อมูลเพิ่มเติม ฉันต้องการวิธีแก้ปัญหาใน Python แต่ความช่วยเหลือในการผลักดันฉันไปสู่ข้อกำหนดนั้นจะเป็นประโยชน์อย่างมาก

2
หลักฐานการบรรจบกันของค่า k
สำหรับงานที่มอบหมายฉันถูกขอให้แสดงหลักฐานว่า k-หมายถึงการบรรจบกันในขั้นตอนจำนวน จำกัด นี่คือสิ่งที่ฉันเขียน: คคCE( C) = ∑xนาทีi = 1k∥ x - cผม∥2E(ค)=Σxนาทีผม=1k‖x-คผม‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E( C)E(ค)E(C) ขั้นตอนที่ 2 อ้างถึงขั้นตอนที่ติดป้ายแต่ละจุดข้อมูลโดยศูนย์คลัสเตอร์ที่ใกล้ที่สุดและขั้นตอนที่ 3 เป็นขั้นตอนที่ศูนย์มีการปรับปรุงโดยใช้ค่าเฉลี่ย สิ่งนี้ไม่เพียงพอที่จะพิสูจน์ว่าการบรรจบกันในขั้นตอนที่ จำกัด พลังงานมีขนาดเล็กลงเรื่อย ๆ แต่ก็ไม่ได้ตัดทอนความเป็นไปได้ที่จุดศูนย์กลางสามารถกระโดดได้โดยไม่ต้องเปลี่ยนพลังงานมากนัก กล่าวอีกนัยหนึ่งอาจมีพลังงานขั้นต่ำหลายอย่างและอัลกอริทึมสามารถข้ามไปมาระหว่างกันได้

3
เหตุใดสถิติของช่องว่างสำหรับ k-mean จึงแนะนำหนึ่งคลัสเตอร์แม้ว่าจะมีอยู่สองกลุ่มก็ตาม
ฉันกำลังใช้ K- หมายถึงการจัดกลุ่มข้อมูลของฉันและกำลังมองหาวิธีการแนะนำหมายเลขคลัสเตอร์ "ดีที่สุด" สถิติ Gap น่าจะเป็นวิธีการทั่วไปในการค้นหาหมายเลขคลัสเตอร์ที่ดี ด้วยเหตุผลบางอย่างมันคืนค่า 1 เป็นหมายเลขคลัสเตอร์ที่ดีที่สุด แต่เมื่อฉันดูข้อมูลมันชัดเจนว่ามี 2 คลัสเตอร์: นี่คือวิธีที่ฉันเรียกช่องว่างใน R: gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) ชุดผลลัพธ์: > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 …

4
จะเข้าใจข้อเสียของการจัดกลุ่มลำดับชั้นได้อย่างไร
ใครสามารถอธิบายข้อดีข้อเสียของการจัดกลุ่มลำดับชั้นได้? การจัดกลุ่มตามลำดับชั้นมีข้อเสียเช่นเดียวกับ K หมายความว่าอย่างไร อะไรคือข้อดีของการจัดกลุ่มลำดับชั้นมากกว่า K หมายถึงอะไร เมื่อใดที่เราควรใช้ K แทนการจัดกลุ่มตามลำดับชั้น & ในทางกลับกัน คำตอบสำหรับโพสต์นี้จะอธิบายข้อเสียของ k หมายถึงดีมาก วิธีการทำความเข้าใจข้อเสียของ K-mean

3
การประมาณคุณสมบัติที่สำคัญที่สุดในพาร์ติชันคลัสเตอร์ k-mean
มีวิธีในการพิจารณาว่าคุณสมบัติ / ตัวแปรของชุดข้อมูลใดที่มีความสำคัญที่สุด / เด่นที่สุดภายในโซลูชันคลัสเตอร์ k-mean?

3
การวางแผนข้อมูลคลัสเตอร์หลายมิติด้วยสายตา
ฉันมีชุดข้อมูลที่มี 16 ตัวแปรและหลังจากการจัดกลุ่มโดย kmeans ฉันต้องการลงจุดทั้งสองกลุ่ม คุณแนะนำให้แปลงอะไรเป็นภาพสองกลุ่ม?

5
เหตุใด k- หมายถึงไม่ให้ขั้นต่ำทั่วโลก
ฉันอ่านว่าอัลกอริทึม k-mean จะแปลงเป็นค่าต่ำสุดในท้องถิ่นเท่านั้นและไม่ใช่ระดับต่ำสุดทั่วโลก ทำไมนี้ ฉันสามารถคิดอย่างมีเหตุผลว่าการกำหนดค่าเริ่มต้นอาจส่งผลกระทบต่อการจัดกลุ่มสุดท้ายและมีความเป็นไปได้ของการจัดกลุ่มย่อยที่เหมาะสม แต่ฉันไม่พบสิ่งใดที่จะพิสูจน์ได้ในเชิงคณิตศาสตร์ นอกจากนี้เหตุใด k-หมายถึงกระบวนการวนซ้ำ เราไม่สามารถแยกความแตกต่างของฟังก์ชั่นวัตถุประสงค์เพียงเล็กน้อยกับเซนทรอยด์, แบ่งมันให้เป็นศูนย์เพื่อค้นหาเซนทรอยด์ที่ลดฟังก์ชั่นนี้ได้หรือไม่? เหตุใดเราต้องใช้การไล่ระดับสีเพื่อเข้าถึงขั้นตอนทีละน้อย?

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Dimensionality Curse มีผลต่อบางรุ่นมากกว่ารุ่นอื่น ๆ หรือไม่?
สถานที่ที่ฉันได้อ่านเกี่ยวกับคำสาปไดนามิคอธิบายร่วมกับ kNN เป็นหลักและโมเดลเชิงเส้นโดยทั่วไป ฉันเห็นอันดับติดอันดับใน Kaggle เป็นประจำโดยใช้คุณสมบัติมากมายบนชุดข้อมูลซึ่งแทบไม่มีจุดข้อมูล 100k พวกเขาใช้ต้นไม้ที่ได้รับการส่งเสริมและ NN เป็นหลัก คุณสมบัติหลายอย่างนั้นดูสูงเกินไปและฉันรู้สึกว่าพวกเขาจะได้รับผลกระทบจากคำสาปของมิติ แต่นั่นไม่ได้เป็นเช่นนั้นเพราะโมเดลเหล่านี้ทำให้พวกเขาเป็นผู้นำในการแข่งขัน ดังนั้นกลับไปที่คำถามเดิมของฉัน - บางรุ่นได้รับผลกระทบจากคำสาปแช่งมิติมากกว่าคนอื่น ๆ หรือไม่? โดยเฉพาะฉันสนใจรุ่นต่อไปนี้ (เพราะเป็นรุ่นที่ฉันรู้ / ใช้): การถดถอยเชิงเส้นและโลจิสติก ต้นไม้ตัดสินใจ / ป่าสุ่ม / ต้นไม้เร่ง โครงข่ายประสาทเทียม SVM kNN k-หมายถึงการจัดกลุ่ม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.