คำถามติดแท็ก k-means

k-mean คือกลุ่มของวิธีการวิเคราะห์คลัสเตอร์ที่คุณระบุจำนวนคลัสเตอร์ที่คุณต้องการ ซึ่งตรงข้ามกับวิธีการวิเคราะห์คลัสเตอร์แบบลำดับชั้น

13
K-หมายถึงการจัดกลุ่มสำหรับข้อมูลตัวเลขและหมวดหมู่ผสม
ชุดข้อมูลของฉันมีแอตทริบิวต์ตัวเลขจำนวนหนึ่งและหนึ่งหมวดหมู่ พูดว่าNumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, ที่CategoricalAttrจะใช้เวลาหนึ่งของค่าที่เป็นไปได้ที่สาม: CategoricalAttrValue1, หรือCategoricalAttrValue2CategoricalAttrValue3 ฉันใช้ค่าเริ่มต้น k หมายถึงการจัดกลุ่มการดำเนินการขั้นตอนวิธีสำหรับคู่https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ ใช้งานได้กับข้อมูลตัวเลขเท่านั้น ดังนั้นคำถามของฉัน: มันเป็นที่ถูกต้องในการแยกแอตทริบิวต์เด็ดขาดCategoricalAttrเป็นสามตัวเลข (binary) ตัวแปรเช่นIsCategoricalAttrValue1, IsCategoricalAttrValue2, IsCategoricalAttrValue3?

8
การรวมกลุ่มพิกัดตำแหน่งทางภูมิศาสตร์ (lat, long long)
วิธีการที่เหมาะสมและอัลกอริทึมการจัดกลุ่มสำหรับการจัดกลุ่มตำแหน่งทางภูมิศาสตร์คืออะไร? ฉันใช้รหัสต่อไปนี้เพื่อประสานพิกัดตำแหน่งทางภูมิศาสตร์: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], coordinates[:,1], c=y); plt.show() ถูกต้องหรือไม่ที่จะใช้ K- meanสำหรับการจัดกลุ่มตำแหน่งทางภูมิศาสตร์เนื่องจากใช้ระยะทางแบบยุคลิดไม่ใช่สูตรฮาร์ไซน์เป็นฟังก์ชันระยะทาง

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
K- หมายถึงพฤติกรรมที่ไม่ต่อเนื่องกันเลือก K ด้วยวิธี Elbow, BIC, อธิบายความแปรปรวนและภาพเงา
ฉันพยายามจัดกลุ่มเวกเตอร์บางส่วนด้วย 90 ฟีเจอร์ด้วย K-mean เนื่องจากอัลกอริทึมนี้ถามจำนวนกลุ่มฉันจึงต้องการตรวจสอบตัวเลือกของฉันกับคณิตศาสตร์ที่ดี ฉันคาดว่าจะมี 8-10 กลุ่ม คุณสมบัติดังกล่าวได้รับการปรับอัตราส่วนคะแนน Z อธิบายวิธีและความแปรปรวนของข้อศอก from scipy.spatial.distance import cdist, pdist from sklearn.cluster import KMeans K = range(1,50) KM = [KMeans(n_clusters=k).fit(dt_trans) for k in K] centroids = [k.cluster_centers_ for k in KM] D_k = [cdist(dt_trans, cent, 'euclidean') for cent in centroids] cIdx = [np.argmin(D,axis=1) for …

4
K- หมายถึง: อะไรคือวิธีที่ดีในการเลือกชุดเซนทรอยด์เริ่มต้นที่มีประสิทธิภาพ
เมื่อมีการใช้งานการเริ่มต้นแบบสุ่มของ centroids การวิ่งที่ต่างกันของ K-mean จะสร้าง SSE รวมที่แตกต่างกัน และเป็นสิ่งสำคัญในประสิทธิภาพของอัลกอริทึม อะไรคือแนวทางที่มีประสิทธิภาพในการแก้ไขปัญหานี้? แนวทางล่าสุดได้รับการชื่นชม

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
K-หมายถึง vs. K-หมายถึงออนไลน์
K-หมายความว่าเป็นอัลกอริทึมที่รู้จักกันดีสำหรับการจัดกลุ่ม แต่ยังมีการเปลี่ยนแปลงออนไลน์ของอัลกอริทึมดังกล่าว (ออนไลน์ K- หมายถึง) อะไรคือข้อดีข้อเสียของวิธีการเหล่านี้และแต่ละคนควรได้รับความนิยมเมื่อใด?

2
K เร็วหมายถึงอัลกอริทึมสำหรับ 10 ^ 10 คะแนนหรือไม่
ฉันกำลังมองหาการจัดกลุ่ม k หมายถึงชุดของจุด 10 มิติ การจับ: มี 10 ^ 10 คะแนนคะแนน ฉันกำลังมองหาเพียงศูนย์กลางและขนาดของกลุ่มที่ใหญ่ที่สุด (สมมติว่า 10 ถึง 100 กลุ่ม); ฉันไม่สนใจว่าคลัสเตอร์แต่ละจุดจะอยู่ในจุดใดการใช้ k-mean โดยเฉพาะนั้นไม่สำคัญ ฉันแค่กำลังมองหาเอฟเฟกต์ที่คล้ายกันค่าประมาณ k-mean หรืออัลกอริธึมที่เกี่ยวข้องจะดีมาก (minibatch-SGD หมายถึง ... ) เนื่องจาก GMM มีปัญหาเช่นเดียวกับ k-mean การทำ GMM กับข้อมูลขนาดเดียวกันก็น่าสนใจเช่นกัน ในระดับนี้การสุ่มตัวอย่างข้อมูลอาจไม่เปลี่ยนผลลัพธ์อย่างมีนัยสำคัญ: โอกาสในการค้นหา 10 อันดับแรกของกลุ่มเดียวกันโดยใช้ตัวอย่างที่ 1 / 10,000 ของข้อมูลนั้นดีมาก แต่ถึงอย่างนั้นนั่นคือปัญหา 10 ^ 6 จุดซึ่งอยู่บน / เกินขอบของเวไนย

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
การบรรจบกันของวิธีการ Hartigan-Wong k-mean และอัลกอริธึมอื่น ๆ
ฉันพยายามทำความเข้าใจเกี่ยวกับอัลกอริธึมการจัดกลุ่ม k-mean ต่าง ๆ ซึ่งส่วนใหญ่นำไปใช้ในstatsแพ็คเกจRภาษา ฉันเข้าใจอัลกอริทึมของ Lloyd และอัลกอริทึมออนไลน์ของ MacQueen วิธีที่ฉันเข้าใจพวกเขามีดังนี้: อัลกอริทึมของ Lloyd: การสำรวจแบบสุ่ม 'k' ในขั้นต้นจะถูกเลือกซึ่งจะทำหน้าที่เป็น centroids ของกลุ่ม 'k' จากนั้นขั้นตอนต่อไปนี้เกิดขึ้นในการทำซ้ำจนกว่าเซนทรอยด์จะบรรจบกัน ระยะทางแบบยุคลิดระหว่างการสังเกตแต่ละครั้งและเซนทรอยด์ที่เลือกจะถูกคำนวณ การสังเกตที่ใกล้เคียงกับเซนทรอยด์แต่ละตัวจะถูกติดแท็กไว้ภายในที่เก็บข้อมูล 'k' ค่าเฉลี่ยของการสังเกตทั้งหมดในถังแต่ละใบทำหน้าที่เป็นเซนทรอยด์ใหม่ เซนทรอยด์ใหม่จะแทนที่เซนทรอยด์เก่าและการทำซ้ำจะกลับไปที่ขั้นตอนที่ 1 หากเซนทรอยด์เก่าและใหม่ไม่ได้แปรสภาพ เงื่อนไขที่จะมาบรรจบกันมีดังต่อไปนี้: เซนทรอยด์เก่าและใหม่นั้นเหมือนกันทุกประการความแตกต่างระหว่างเซนทรอยด์นั้นเล็ก (จากลำดับที่ 10 ^ -3) หรือถึงจำนวนสูงสุดของการทำซ้ำ (10 หรือ 100) อัลกอริทึมของ MacQueen: นี่เป็นเวอร์ชั่นออนไลน์ที่อินสแตนซ์ 'k' ตัวแรกถูกเลือกเป็น centroids จากนั้นแต่ละอินสแตนซ์จะถูกวางในถังขึ้นอยู่กับเซนทรอยด์ที่ใกล้เคียงกับอินสแตนซ์นั้น เซนทรอยด์ที่เกี่ยวข้องจะถูกคำนวณใหม่ ทำซ้ำขั้นตอนนี้จนกระทั่งแต่ละอินสแตนซ์ถูกวางในที่ฝากข้อมูลที่เหมาะสม อัลกอริทึมนี้มีการวนซ้ำเพียงครั้งเดียวและการวนซ้ำดำเนินต่อไปสำหรับอินสแตนซ์ 'x' อัลกอริทึม Hartigan-Wong: กำหนดคะแนน …
10 r  clustering  k-means 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.