คำถามติดแท็ก k-means

k-mean เป็นวิธีการแบ่งพาร์ติชันข้อมูลออกเป็นกระจุกโดยการค้นหาจำนวนวิธีที่ระบุ, k, st เมื่อข้อมูลถูกกำหนดให้กับกลุ่ม w / ค่าเฉลี่ยที่ใกล้ที่สุด

2
k-mean เทียบกับ k-median?
ฉันรู้ว่ามีอัลกอริธึมการจัดกลุ่ม k-mean และ k-median หนึ่งที่ใช้ค่าเฉลี่ยเป็นศูนย์กลางของคลัสเตอร์และอื่น ๆ ที่ใช้ค่ามัธยฐาน คำถามของฉันคือเมื่อใด / ที่ไหนที่จะใช้?

2
เพราะเหตุใด K- ไม่ได้รับการปรับให้เหมาะสมโดยใช้การไล่ระดับสี
ฉันรู้ว่าk หมายถึงมักจะมีการเพิ่มประสิทธิภาพการใช้เพิ่มประสิทธิภาพของความคาดหวัง อย่างไรก็ตามเราสามารถปรับฟังก์ชั่นการสูญเสียของมันให้เป็นแบบเดียวกับที่เราเพิ่มประสิทธิภาพอื่น ๆ ! ฉันพบเอกสารบางอย่างที่ใช้การไล่ระดับสีแบบสโตแคสติกสำหรับวิธี k ขนาดใหญ่ แต่ฉันไม่ได้รับคำตอบ มีใครรู้บ้างไหมว่าเพราะเหตุใด เป็นเพราะความคาดหวังของการรวมกันมาเร็วขึ้น ? มีการรับประกันเป็นพิเศษหรือไม่? หรือมันเป็นเหตุผลทางประวัติศาสตร์ ?

3
เหตุใดเราจึงใช้วิธี k แทนค่าอัลกอริทึมอื่น
ฉันค้นคว้าเกี่ยวกับ k-mean และสิ่งเหล่านี้คือสิ่งที่ฉันได้รับ: k-mean เป็นหนึ่งในอัลกอริธึมที่ง่ายที่สุดที่ใช้วิธีการเรียนรู้แบบไม่ดูแลเพื่อแก้ปัญหาการจัดกลุ่มที่รู้จัก มันทำงานได้ดีกับชุดข้อมูลขนาดใหญ่ อย่างไรก็ตาม K-Means มีข้อเสียคือ: ความไวสูงต่อค่าผิดปกติและเสียงรบกวน ใช้งานไม่ได้กับรูปร่างของคลัสเตอร์ที่ไม่เป็นวงกลม - ต้องระบุจำนวนของคลัสเตอร์และค่าเริ่มต้นของเมล็ดก่อน ความสามารถต่ำในการส่งผ่านที่เหมาะสมที่สุดในท้องถิ่น มีอะไรที่ยอดเยี่ยมเกี่ยวกับ k-mean หรือไม่เพราะดูเหมือนว่าข้อเสียเปรียบอยู่เหนือสิ่งที่ดีเกี่ยวกับ k-mean โปรดสอนฉัน

4
มีอัลกอริทึมการจัดกลุ่มตามระยะทางใด ๆ หรือไม่?
ดูเหมือนว่าสำหรับ K-mean และอัลกอริธึมที่เกี่ยวข้องอื่น ๆ การจัดกลุ่มจะขึ้นอยู่กับการคำนวณระยะห่างระหว่างจุด มีอย่างใดอย่างหนึ่งที่ทำงานโดยไม่ได้หรือไม่

3
ความไม่เหมาะสมของ ANOVA หลังจากการวิเคราะห์กลุ่ม k-mean
การแจ้งเตือนหลังจากตาราง ANOVA หลังจากการวิเคราะห์ค่า K บ่งชี้ว่าระดับความสำคัญไม่ควรถูกมองว่าเป็นการทดสอบที่มีความหมายเท่ากันเนื่องจากโซลูชันคลัสเตอร์ได้รับมาจากระยะทางแบบยุคลิดเพื่อเพิ่มระยะทาง ฉันควรใช้การทดสอบแบบใดเพื่อแสดงว่าค่าเฉลี่ยของตัวแปรการจัดกลุ่มแตกต่างกันในกลุ่มหรือไม่ ฉันได้เห็นคำเตือนนี้ในตารางค่า ANOVA ของ k- หมายถึงเอาต์พุต แต่ในการอ้างอิงบางอย่างฉันเห็นว่าการทดสอบ ANOVA หลังการเรียกใช้ ฉันควรละเว้น k-mean ANOVA และรัน one-way ANOVA ด้วยการทดสอบหลังการแปลและตีความมันด้วยวิธีดั้งเดิมหรือไม่? หรือฉันสามารถบอกนัยเกี่ยวกับขนาดของค่า F เท่านั้นและตัวแปรใดที่ทำให้เกิดความแตกต่างมากขึ้น? ความสับสนอีกประการหนึ่งคือตัวแปรการจัดกลุ่มไม่ได้กระจายการละเมิดสมมติฐานของ ANOVA จากนั้นฉันสามารถใช้การทดสอบที่ไม่ใช่พารามิเตอร์ของ Kruskal-Wallis แต่มีข้อสันนิษฐานเกี่ยวกับการแจกแจงแบบเดียวกัน การกระจายระหว่างกลุ่มสำหรับตัวแปรเฉพาะนั้นดูเหมือนจะไม่เหมือนกันบางตัวมีความเบ้เชิงบวกบางตัวมีค่าเป็นลบ ... ฉันมีตัวอย่างขนาดใหญ่ 1275 กลุ่ม 5 กลุ่มตัวแปรการทำคลัสเตอร์ 10 ตัวที่วัดในคะแนน PCA
14 anova  k-means 

2
มีฟังก์ชั่นใน R ที่นำศูนย์กลางของกลุ่มที่พบและกำหนดกลุ่มให้กับชุดข้อมูลใหม่
ฉันมีสองส่วนของชุดข้อมูลหลายมิติขอเรียกพวกเขาและtrain testและฉันต้องการสร้างแบบจำลองตามชุดข้อมูลรถไฟแล้วตรวจสอบความถูกต้องของชุดข้อมูลทดสอบ จำนวนของกลุ่มเป็นที่รู้จักกัน ฉันพยายามใช้การจัดกลุ่ม k-mean ใน R และได้วัตถุที่มีศูนย์กลางของกลุ่ม: kClust <- kmeans(train, centers=N, nstart=M) มีฟังก์ชั่นใน R ที่นำศูนย์กลางของกลุ่มที่พบและกำหนดกลุ่มให้กับชุดข้อมูลการทดสอบของฉันหรือไม่? ฉันสามารถลองวิธีการ / ขั้นตอนวิธีอื่นได้อย่างไร
14 r  clustering  k-means 

4
k-หมายถึงการใช้งานกับเมทริกซ์ระยะทางที่กำหนดเองในอินพุต
ทุกคนสามารถชี้ให้ฉันเห็นการใช้งาน k- หมายถึง (มันจะดีกว่าถ้าใน MATLAB) ที่สามารถใช้เมทริกซ์ระยะทางในการป้อนข้อมูล? การใช้งานมาตรฐาน MATLAB ต้องใช้เมทริกซ์การสังเกตในอินพุตและไม่สามารถเปลี่ยนการวัดความคล้ายคลึงกันได้

3
ฉันต้องลดตัวแปรที่มีความสัมพันธ์ / collinear ก่อนเรียกใช้ kmeans หรือไม่
ฉันกำลังเรียกใช้ kmeans เพื่อระบุกลุ่มลูกค้า ฉันมีตัวแปรประมาณ 100 ตัวเพื่อระบุกลุ่ม ตัวแปรแต่ละตัวเหล่านี้แสดงถึง% ของการใช้จ่ายของลูกค้าในหมวดหมู่ ดังนั้นถ้าฉันมี 100 หมวดหมู่ฉันมีตัวแปร 100 ตัวดังกล่าวผลรวมของตัวแปรเหล่านี้คือ 100% สำหรับลูกค้าแต่ละราย ตอนนี้ตัวแปรเหล่านี้มีความสัมพันธ์กันอย่างมาก ฉันต้องลบสิ่งเหล่านี้บางส่วนเพื่อลบ collinearity ก่อนที่จะเรียกใช้ kmeans หรือไม่ นี่คือข้อมูลตัวอย่าง ในความเป็นจริงฉันมี 100 ตัวแปรและ 10 ล้านลูกค้า Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%

5
ฉันจะแปลงระยะทาง (ยูคลิดแดน) เป็นคะแนนความคล้ายคลึงกันได้อย่างไร
ฉันใช้หมายถึงการรวมกลุ่มเป็นเสียงของกลุ่มลำโพง เมื่อฉันเปรียบเทียบคำพูดกับข้อมูลลำโพงแบบคลัสเตอร์ฉันจะได้รับความผิดเพี้ยนเฉลี่ย (อิงตามปริภูมิแบบยุคลิด) ระยะนี้อาจจะอยู่ในช่วงinfty] ฉันต้องการแปลงระยะทางนี้เป็นคะแนนความเหมือนโปรดแนะนำฉันเกี่ยวกับวิธีที่ฉันสามารถบรรลุสิ่งนี้[ 0 , ∞ ] [ 0 , 1 ]kkk[0,∞][0,∞][0,\infty][0,1][0,1][0,1]

4
การเริ่มต้น K-หมายถึงศูนย์โดยวิธีการของชุดย่อยแบบสุ่มของชุดข้อมูลหรือไม่
ถ้าฉันมีชุดข้อมูลที่แน่นอนมันจะฉลาดแค่ไหนที่จะเริ่มต้นศูนย์คลัสเตอร์โดยใช้วิธีการสุ่มตัวอย่างของชุดข้อมูลนั้น 5 clustersตัวอย่างเช่นสมมติว่าผมต้องการ ฉัน5 random samplesพูดsize=20%ของชุดข้อมูลเดิม จากนั้นฉันจะใช้ค่าเฉลี่ยของตัวอย่างสุ่มทั้ง 5 เหล่านี้แล้วใช้ค่าเฉลี่ยเหล่านั้นเป็นศูนย์คลัสเตอร์เริ่มต้น 5 ศูนย์ของฉันได้หรือไม่ ฉันไม่รู้ว่าฉันอ่านตรงไหน แต่อยากรู้ว่าพวกคุณคิดอย่างไรกับแนวคิดนี้ UPDATE:โปรดดูหัวข้อนี้การเริ่มต้น K-หมายถึงการจัดกลุ่ม: วิธีการที่มีอยู่คืออะไร? สำหรับการสนทนาทั่วไปเกี่ยวกับวิธีการเริ่มต้นต่างๆ

4
คุณจะทำอย่างไรเมื่อไม่มีจุดศอกสำหรับการจัดกลุ่ม kmeans
ฉันได้เรียนรู้ว่าเมื่อเลือกกลุ่มจำนวนมากคุณควรมองหาจุดศอกสำหรับค่าต่าง ๆ ของเคฉันได้พล็อตค่าของ ininss สำหรับค่า k จาก 1 ถึง 10 แต่ฉันไม่เห็นชัดเจน ข้อศอก. คุณทำอะไรในกรณีเช่นนี้?

2
ใช้ BIC เพื่อประมาณจำนวน k ใน KMEANS
ขณะนี้ฉันกำลังพยายามคำนวณ BIC สำหรับชุดข้อมูลของเล่นของฉัน (ofc iris (:)) ฉันต้องการสร้างผลลัพธ์ดังที่แสดงที่นี่ (รูปที่ 5) กระดาษนั้นก็เป็นแหล่งของสูตร BIC ด้วย ฉันมี 2 ปัญหากับสิ่งนี้: โน้ต: ninin_i = จำนวนขององค์ประกอบในคลัสเตอร์iii CiCiC_i = พิกัดกลางของคลัสเตอร์iii xjxjx_j = จุดข้อมูลที่กำหนดให้กับคลัสเตอร์iii mmm = จำนวนกลุ่ม 1) ความแปรปรวนตามที่กำหนดไว้ใน Eq (2): ∑i=1ni−m∑j=1ni∥xj−Ci∥2∑i=1ni−m∑j=1ni‖xj−Ci‖2 \sum_i = \frac{1}{n_i-m}\sum_{j=1}^{n_i}\Vert x_j - C_i \Vert^2 เท่าที่ฉันเห็นมันเป็นปัญหาและไม่ครอบคลุมว่าความแปรปรวนอาจเป็นลบเมื่อมีกลุ่มmmmมากกว่าองค์ประกอบในคลัสเตอร์ ถูกต้องหรือไม่ 2) ฉันไม่สามารถทำให้โค้ดของฉันทำงานเพื่อคำนวณ BIC ที่ถูกต้องได้ หวังว่าจะไม่มีข้อผิดพลาด แต่มันจะได้รับการชื่นชมอย่างมากหากมีใครสามารถตรวจสอบได้ สมการทั้งหมดสามารถพบได้ในสมการ (5) …

3
การกระจายความน่าจะเป็นแบบคลัสเตอร์ - วิธีการและตัวชี้วัด?
ฉันมีจุดข้อมูลบางอย่างซึ่งแต่ละอันประกอบด้วย 5 เวกเตอร์ของผลลัพธ์ที่ไม่ต่อเนื่องแบบจับกันเป็นกลุ่มผลของเวกเตอร์แต่ละตัวที่สร้างโดยการกระจายตัวที่แตกต่างกัน (ชนิดที่ฉันไม่แน่ใจการคาดเดาที่ดีที่สุดของฉันคือ Weibull กฎหมาย (1 ถึง 0, ประมาณ) ฉันกำลังมองหาที่จะใช้อัลกอริทึมการจัดกลุ่มเช่น K-Means เพื่อใส่แต่ละจุดข้อมูลลงในกลุ่มตามคุณลักษณะของการกระจายองค์ประกอบ 5 ฉันสงสัยว่ามีตัวชี้วัดระยะทางที่กำหนดไว้หรือไม่ซึ่งจะสวยงามสำหรับวัตถุประสงค์เหล่านี้ ฉันมีความคิดสามข้อ แต่ฉันไม่ใช่นักสถิติที่มีประสบการณ์ (เป็นนักวิทยาศาสตร์คอมพิวเตอร์การขุดข้อมูลเริ่มต้น) ดังนั้นฉันจึงมีความคิดเล็ก ๆ น้อย ๆ ว่าฉันอยู่ไกลแค่ไหน เนื่องจากฉันไม่รู้แน่ชัดว่าการแจกแจงแบบไหนฉันกำลังเข้าใกล้ปัญหาของฉันคือการสับการกระจายแต่ละครั้ง (ฉันมี 5 ต่อจุด) ลงในแต่ละค่าของข้อมูลที่ไม่ต่อเนื่อง (ฉันแพด แต่ละอันที่สอดคล้องกับความยาวเดียวกันกับศูนย์ที่ท้าย) และใช้แต่ละค่าเหล่านี้เป็นแอตทริบิวต์ที่แยกต่างหากสำหรับจุดข้อมูลเอง ฉันลองใช้ทั้งระยะทางแมนฮัตตันและระยะทางแบบยุคลิดเป็นตัวชี้วัดตามคุณลักษณะเหล่านี้สำหรับทั้ง PDF และ CDF อีกครั้งเนื่องจากฉันไม่ทราบว่ามีการแจกแจงแบบใดฉันจึงคิดว่าถ้าฉันจะวัดระยะห่างระหว่างการแจกแจงโดยรวมฉันสามารถใช้การทดสอบแบบไม่อิงพารามิเตอร์ระหว่างการแจกแจงเช่นการทดสอบ KS เพื่อค้นหาโอกาสที่การแจกแจงที่กำหนดถูกสร้างขึ้นโดย PDF ที่แตกต่างกัน ฉันคิดว่าตัวเลือกแรกของฉัน (ด้านบน) โดยใช้ระยะทางแมนฮัตตันจะเป็นขอบเขตบนของสิ่งที่ฉันอาจใช้วิธีนี้ (เนื่องจากสถิติ KS คือค่าสัมบูรณ์สูงสุดของความแตกต่างของ CDFs ซึ่งระยะทางแมนฮัตตันเป็น ผลรวมของค่าสัมบูรณ์ของความแตกต่างใน PDF) …

1
K-วิธี || K-Means ++ ที่ปรับขนาดได้
Bahman Bahmani และคณะ แนะนำ k-mean || ซึ่งเป็นเวอร์ชั่นที่เร็วกว่าของ k-mean ++ อัลกอริทึมนี้นำมาจากหน้า 4 ของกระดาษ , Bahmani, B. , Moseley, B. , Vattani, A. , Kumar, R. , และ Vassilvitskii, S. (2012) ปรับขนาด k- หมายถึง ++ การดำเนินการของ VLDBเอ็นดาวเม้นท์, 5 (7), 622-633 น่าเสียดายที่ฉันไม่เข้าใจตัวอักษรกรีกแฟนซีเหล่านั้นดังนั้นฉันต้องการความช่วยเหลือในการทำความเข้าใจวิธีการทำงานของมัน เท่าที่ฉันเข้าใจอัลกอริทึมนี้เป็นรุ่นปรับปรุงของ k-หมายถึง ++ และใช้การสุ่มตัวอย่างเพื่อลดจำนวนการทำซ้ำ: k-หมายถึง ++ ต้องทำซ้ำคูณโดยที่คือจำนวนคลัสเตอร์ที่ต้องการkkkkkk ฉันได้คำอธิบายที่ดีมากผ่านตัวอย่างที่เป็นรูปธรรมเกี่ยวกับการทำงานของ k-mean ++ ดังนั้นฉันจะใช้ตัวอย่างเดียวกันอีกครั้ง …

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.