คำถามติดแท็ก clustering

การวิเคราะห์กลุ่มเป็นหน้าที่ของการแบ่งข้อมูลออกเป็นส่วนย่อยของวัตถุตาม "ความคล้ายคลึงกัน" ซึ่งกันและกันโดยไม่ใช้ความรู้ที่มีมาก่อนเช่นป้ายชื่อชั้นเรียน [ข้อผิดพลาดมาตรฐานและ / หรือกลุ่มตัวอย่างควรติดแท็กเช่น; อย่าใช้แท็ก "การจัดกลุ่ม" สำหรับพวกเขา]

5
วิธีทำความเข้าใจข้อเสียของ K-mean
K-mean เป็นวิธีที่ใช้กันอย่างแพร่หลายในการวิเคราะห์กลุ่ม ในความเข้าใจของฉันวิธีนี้ไม่จำเป็นต้องมีข้อสมมติฐานใด ๆ เช่นให้ชุดข้อมูลและจำนวนกลุ่มที่กำหนดไว้ล่วงหน้าฉันและฉันเพิ่งใช้อัลกอริทึมนี้ซึ่งช่วยลดผลรวมของข้อผิดพลาดกำลังสอง (SSE) ภายในคลัสเตอร์กำลังสอง ความผิดพลาด k-mean จึงเป็นปัญหาการหาค่าเหมาะที่สุด ฉันอ่านเนื้อหาเกี่ยวกับข้อเสียของ k-mean ส่วนใหญ่พูดว่า: k- หมายถึงถือว่าความแปรปรวนของการกระจายของแต่ละคุณลักษณะ (ตัวแปร) เป็นทรงกลม; ตัวแปรทั้งหมดมีความแปรปรวนเดียวกัน ความน่าจะเป็นก่อนหน้านี้สำหรับ k k ทั้งหมดนั้นเหมือนกันกล่าวคือแต่ละกลุ่มมีจำนวนการสังเกตอย่างเท่าเทียมกัน หากมีการละเมิดสมมติฐานข้อใดข้อหนึ่งใน 3 ข้อใดข้อหนึ่งของ k-mean จะล้มเหลว ฉันไม่เข้าใจตรรกะหลังคำสั่งนี้ ฉันคิดว่าวิธี k-mean ไม่มีข้อสมมติฐานเป็นหลักมันแค่ลด SSE ลงเท่านั้นดังนั้นฉันจึงไม่สามารถเห็นลิงก์ระหว่างการลด SSE และ "สมมติฐาน" ทั้งสามนี้

8
ทำไมระยะทางแบบยุคลิดไม่เป็นตัวชี้วัดที่ดีในมิติที่สูง?
ฉันอ่านว่า 'ระยะทางแบบยุคลิดไม่ใช่ระยะทางที่ดีในมิติที่สูง' ฉันเดาว่าข้อความนี้มีส่วนเกี่ยวข้องกับคำสาปของความเป็นมิติ แต่อะไรกันแน่ นอกจากนี้ 'มิติสูง' คืออะไร? ฉันใช้การจัดกลุ่มแบบลำดับชั้นโดยใช้ระยะทางแบบยุคลิดกับ 100 ฟีเจอร์ คุณลักษณะนี้มีความปลอดภัยเพียงใดในการใช้การวัดนี้

8
การตรวจจับใบหน้าที่กำหนดในฐานข้อมูลของภาพใบหน้า
ฉันกำลังทำงานในโครงการเล็ก ๆ ที่เกี่ยวข้องกับใบหน้าของผู้ใช้ Twitter ผ่านรูปภาพโปรไฟล์ของพวกเขา ปัญหาที่ฉันพบคือหลังจากที่ฉันกรองออกทั้งหมดยกเว้นภาพที่เป็นภาพถ่ายแนวตั้งที่ชัดเจนผู้ใช้ทวิตเตอร์จำนวนเล็กน้อย แต่มีนัยสำคัญใช้รูปภาพของ Justin Bieber เป็นรูปภาพโปรไฟล์ของพวกเขา เพื่อที่จะกรองพวกเขาฉันจะบอกโปรแกรมได้อย่างไรว่ารูปภาพนั้นเป็นของ Justin Bieber?

6
จะทราบได้อย่างไรว่าข้อมูลถูก "รวมกลุ่ม" เพียงพอสำหรับอัลกอริธึมการจัดกลุ่มเพื่อให้ได้ผลลัพธ์ที่มีความหมายหรือไม่
คุณจะรู้ได้อย่างไรว่าข้อมูล (มิติสูง) ของคุณมีการจัดกลุ่มที่เพียงพอเพื่อให้ผลลัพธ์จาก kmeans หรืออัลกอริทึมการจัดกลุ่มอื่น ๆ มีความหมายจริงหรือไม่ สำหรับอัลกอริทึม k โดยเฉพาะอย่างยิ่งการลดลงของความแปรปรวนภายในคลัสเตอร์จะต้องลดลงเพียงใดเพื่อให้ผลการจัดกลุ่มที่แท้จริงมีความหมาย (และไม่ปลอม) การจัดกลุ่มควรชัดเจนเมื่อมีการลดขนาดของรูปแบบข้อมูลและผลลัพธ์จาก kmeans (หรือวิธีอื่น ๆ ) ไม่มีความหมายหากการจัดกลุ่มไม่สามารถมองเห็นได้?

6
การทำคลัสเตอร์บนเอาต์พุตของ t-SNE
ฉันมีแอปพลิเคชั่นที่จะสะดวกในการจัดกลุ่มชุดข้อมูลที่มีเสียงดังก่อนที่จะมองหาเอฟเฟกต์กลุ่มย่อยภายในกลุ่ม ครั้งแรกที่ฉันดู PCA แต่ต้องใช้ส่วนประกอบประมาณ 30 ชิ้นเพื่อรับความแปรปรวนได้ถึง 90% ดังนั้นการรวมกลุ่มกับพีซีเพียงไม่กี่เครื่องจะทำให้ข้อมูลจำนวนมากหมด จากนั้นฉันก็ลอง t-SNE (เป็นครั้งแรก) ซึ่งทำให้ฉันมีรูปร่างแปลก ๆ ในสองมิติที่คล้อยตามการจัดกลุ่มผ่าน k-mean ยิ่งไปกว่านั้นการรันฟอเรสต์แบบสุ่มบนข้อมูลด้วยการกำหนดคลัสเตอร์เนื่องจากผลลัพธ์แสดงว่ากลุ่มมีการตีความที่สมเหตุสมผลพอสมควรตามบริบทของปัญหาในแง่ของตัวแปรที่ประกอบขึ้นเป็นข้อมูลดิบ แต่ถ้าฉันจะรายงานเกี่ยวกับกลุ่มเหล่านี้ฉันจะอธิบายพวกเขาได้อย่างไร K-หมายถึงกลุ่มบนส่วนประกอบหลักเปิดเผยบุคคลที่อยู่ใกล้กันในแง่ของตัวแปรที่ได้รับซึ่งประกอบด้วย X% ของความแปรปรวนในชุดข้อมูล คำสั่งที่เทียบเท่าสามารถทำอะไรได้บ้างเกี่ยวกับกลุ่ม t-SNE บางทีสิ่งที่จะเป็นผลของ: t-SNE แสดงให้เห็นถึงความใกล้เคียงกันโดยประมาณในนานามิติมิติพื้นฐานดังนั้นกลุ่มที่มีมิติต่ำของพื้นที่มิติสูงจะเพิ่ม "โอกาส" ที่บุคคลที่อยู่ติดกันจะไม่อยู่ในกลุ่มเดียวกัน ทุกคนสามารถเสนอการแจ้งเตือนที่ดีกว่านั้นได้หรือไม่?

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
การเลือกวิธีการจัดกลุ่ม
เมื่อใช้การวิเคราะห์กลุ่มบนชุดข้อมูลเพื่อจัดกลุ่มกรณีที่คล้ายกันเราจำเป็นต้องเลือกวิธีการจัดกลุ่มจำนวนมากและการวัดระยะทาง บางครั้งตัวเลือกหนึ่งอาจมีผลต่อตัวเลือกอื่น ๆ แต่มีวิธีการที่เป็นไปได้หลายวิธีผสมกัน ใครบ้างมีคำแนะนำเกี่ยวกับวิธีการเลือกระหว่างอัลกอริทึมการจัดกลุ่ม / วิธีการและการวัดระยะทางที่หลากหลาย ? สิ่งนี้เกี่ยวข้องกับธรรมชาติของตัวแปร (เช่นหมวดหมู่หรือตัวเลข) และปัญหาการจัดกลุ่มอย่างไร มีเทคนิคที่ดีที่สุดหรือไม่?

7
ระยะทางแบบยุคลิดมักจะไม่ดีสำหรับข้อมูลที่กระจัดกระจาย?
ฉันเคยเห็นที่ไหนสักแห่งที่ระยะทางแบบคลาสสิก (เช่นระยะทางแบบยุคลิดแบบยูเอส) กลายเป็นแยกแยะอย่างอ่อนเมื่อเรามีข้อมูลหลายมิติและห่าง ๆ ทำไม? คุณมีตัวอย่างของเวกเตอร์ข้อมูลเบาบางสองตัวที่ระยะ Euclidean ทำงานได้ไม่ดีหรือไม่? ในกรณีนี้เราควรใช้ความคล้ายคลึงกันแบบใด?

6
ทำไมอัลกอริทึมการจัดกลุ่ม k หมายถึงใช้เฉพาะการวัดระยะทางแบบยุคลิดเท่านั้น
มีจุดประสงค์เฉพาะในแง่ของประสิทธิภาพหรือการทำงานทำไมอัลกอริธึม k - หมายถึงไม่ใช้เช่นโคไซน์ (dis) ความคล้ายคลึงกันเป็นตัวชี้วัดระยะทาง แต่สามารถใช้บรรทัดฐานแบบยุคลิดเท่านั้น? โดยทั่วไปวิธี K-mean จะปฏิบัติตามและถูกต้องเมื่อมีการพิจารณาหรือใช้ระยะทางอื่นนอกเหนือจาก Euclidean หรือไม่? [เพิ่มโดย @ttnphns คำถามคือสองเท่า "(ไม่ใช่) ระยะทางแบบยุคลิด" อาจเกี่ยวข้องกับระยะห่างระหว่างจุดข้อมูลสองจุดหรือระยะห่างระหว่างจุดข้อมูลและจุดศูนย์กลางคลัสเตอร์ ทั้งสองวิธีมีความพยายามในการตอบที่อยู่ในคำตอบจนถึง]

6
จะตัด dendrogram ที่ไหน?
การจัดกลุ่มตามลำดับชั้นสามารถแสดงโดย dendrogram การตัด dendrogram ในระดับหนึ่งจะทำให้เกิดกลุ่มของกลุ่ม การตัดในระดับอื่นจะทำให้เกิดกลุ่มอีกกลุ่มหนึ่ง คุณจะเลือกที่จะตัด dendrogram ได้อย่างไร มีบางอย่างที่เราสามารถพิจารณาจุดที่เหมาะสมหรือไม่? หากฉันมองไปที่เอนโดรแกรมข้ามเวลาที่มีการเปลี่ยนแปลงฉันควรตัดที่จุดเดียวกัน

5
ความสัมพันธ์ระหว่าง k-หมายถึงการจัดกลุ่มและ PCA คืออะไร?
มันเป็นเรื่องธรรมดาที่จะใช้ PCA (การวิเคราะห์องค์ประกอบหลัก) ก่อนอัลกอริทึมการจัดกลุ่ม (เช่น k-mean) เชื่อว่าช่วยปรับปรุงผลการจัดกลุ่มในทางปฏิบัติ (ลดเสียงรบกวน) อย่างไรก็ตามฉันสนใจที่จะศึกษาเชิงเปรียบเทียบและเชิงลึกเกี่ยวกับความสัมพันธ์ระหว่าง PCA และ k-mean ตัวอย่างเช่น Chris Ding และ Xiaofeng He, 2004, K- หมายถึงการทำคลัสเตอร์ผ่านการวิเคราะห์องค์ประกอบหลักแสดงให้เห็นว่า "ส่วนประกอบหลักเป็นวิธีการแก้ปัญหาอย่างต่อเนื่องสำหรับตัวบ่งชี้การเป็นสมาชิกคลัสเตอร์แบบไม่ต่อเนื่องสำหรับการจัดกลุ่ม K-mean" แต่ผมมีช่วงเวลาที่ยากในการทำความเข้าใจกระดาษนี้และวิกิพีเดียจริงอ้างว่ามันเป็นความผิด นอกจากนี้ผลลัพธ์ของทั้งสองวิธียังค่อนข้างแตกต่างกันในแง่ที่ PCA ช่วยลดจำนวนของ "คุณสมบัติ" ในขณะที่รักษาความแปรปรวนขณะที่การจัดกลุ่มจะลดจำนวนของ "ข้อมูล - คะแนน" โดยสรุปหลายจุดตามความคาดหวัง / หมายถึง (ในกรณีของ k- หมายถึง) ดังนั้นหากชุดข้อมูลที่ประกอบด้วยในจุดที่มีให้บริการแต่ละ PCA มีจุดมุ่งหมายที่การบีบอัดคุณสมบัติในขณะที่การจัดกลุ่มมีจุดมุ่งหมายในการบีบอัดข้อมูลจุดNNNTTTTTTNNN ฉันกำลังมองหาคำอธิบายของคนธรรมดาของความสัมพันธ์ระหว่างสองเทคนิคนี้ + เอกสารทางเทคนิคเพิ่มเติมบางส่วนที่เกี่ยวข้องกับทั้งสองเทคนิค

10
จะตัดสินใจเลือกกลุ่มที่ถูกต้องได้อย่างไร
เราค้นหาศูนย์คลัสเตอร์และกำหนดคะแนนให้กับกลุ่มถังขยะ k ที่แตกต่างกันในการจัดกลุ่ม k- หมายถึงซึ่งเป็นอัลกอริธึมที่รู้จักกันดีและพบได้ในเกือบทุกชุดการเรียนรู้ของเครื่องบนเน็ต แต่ส่วนที่ขาดหายไปและสำคัญที่สุดในความคิดของฉันคือการเลือก k ที่ถูกต้อง ค่าที่ดีที่สุดสำหรับมันคืออะไร? และสิ่งที่ดีที่สุดคืออะไร? ผมใช้ MATLAB สำหรับการคำนวณทางวิทยาศาสตร์ที่กำลังมองหาที่แปลงเงาจะได้รับเป็นวิธีการที่จะตัดสินใจเกี่ยวกับเคกล่าวถึงที่นี่ อย่างไรก็ตามฉันจะสนใจวิธีการแบบเบย์มากกว่า ข้อเสนอแนะใด ๆ ที่ชื่นชม


2
ANN เครือข่ายประสาทเทียมสามารถใช้สำหรับการจัดกลุ่มที่ไม่ได้รับการดูแลได้อย่างไร?
ฉันเข้าใจวิธีartificial neural network (ANN)สามารถฝึกอบรมในลักษณะที่มีการควบคุมดูแลโดยใช้ backpropogation เพื่อปรับปรุงอุปกรณ์ให้เหมาะสมโดยลดข้อผิดพลาดในการทำนาย ฉันเคยได้ยินว่า ANN สามารถใช้สำหรับการเรียนรู้ที่ไม่มีผู้ดูแลแต่วิธีการนี้สามารถทำได้โดยไม่ต้องมีฟังก์ชั่นค่าใช้จ่ายบางอย่างเพื่อเป็นแนวทางในขั้นตอนการปรับให้เหมาะสม ด้วย k-mean หรืออัลกอริทึม EM มีฟังก์ชันที่แต่ละการค้นหาซ้ำเพื่อเพิ่ม เราจะทำคลัสเตอร์กับ ANN ได้อย่างไรและใช้กลไกใดในการจัดกลุ่มจุดข้อมูลในท้องที่เดียวกัน (และมีความสามารถพิเศษอะไรบ้างที่มาพร้อมกับเพิ่มเลเยอร์ให้มากขึ้น)


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.