คำถามติดแท็ก clustering

การวิเคราะห์กลุ่มเป็นหน้าที่ของการแบ่งข้อมูลออกเป็นส่วนย่อยของวัตถุตาม "ความคล้ายคลึงกัน" ซึ่งกันและกันโดยไม่ใช้ความรู้ที่มีมาก่อนเช่นป้ายชื่อชั้นเรียน [ข้อผิดพลาดมาตรฐานและ / หรือกลุ่มตัวอย่างควรติดแท็กเช่น; อย่าใช้แท็ก "การจัดกลุ่ม" สำหรับพวกเขา]

2
การจัดกลุ่มข้อมูลที่มีเสียงดังหรือมีค่าผิดปกติ
ฉันมีข้อมูลที่มีเสียงดังของตัวแปรสองตัวเช่นนี้ x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, 0.5,0.9) y <- c(y1 + e1,yn) x <- …

1
การจัดกลุ่มสูตรความเฉื่อยใน scikit เรียนรู้
ฉันต้องการรหัสการจัดกลุ่ม kmeans ใน python โดยใช้ pandas และ scikit เรียนรู้ ในการเลือก k ที่ดีฉันต้องการรหัสสถิติ Gap จาก Tibshirani และ al 2001 ( pdf ) ฉันต้องการทราบว่าฉันสามารถใช้ผลเฉื่อยจาก scikit และปรับสูตรสถิติช่องว่างโดยไม่ต้องคำนวณการคำนวณระยะทางทั้งหมดอีกครั้ง ไม่มีใครรู้สูตรความเฉื่อยที่ใช้ใน scikit / รู้วิธีที่ง่ายในการถอดรหัสสถิติช่องว่างโดยใช้ฟังก์ชั่นระยะทางระดับสูง?

3
การเลือกกลุ่มสำหรับ k-mean: กรณีที่ 1 คลัสเตอร์
ไม่มีใครรู้วิธีที่ดีในการพิจารณาว่าการจัดกลุ่มโดยใช้ kmeans เหมาะสมหรือไม่ นั่นคือสิ่งที่ถ้าตัวอย่างของคุณเป็นเนื้อเดียวกันจริง ๆ ? ฉันรู้ว่าแบบจำลองการผสม (ผ่าน mclust ใน R) จะให้ข้อมูลสถิติที่เหมาะสมสำหรับกรณีคลัสเตอร์ 1: k แต่ดูเหมือนว่าเทคนิคทั้งหมดในการประเมิน kmeans ต้องการอย่างน้อย 2 กลุ่ม ไม่มีใครรู้เทคนิคในการเปรียบเทียบเคส 1 และ 2 กลุ่มสำหรับ kmeans
9 r  clustering  k-means 

5
การจัดกลุ่มล่วงหน้าช่วยในการสร้างแบบจำลองการทำนายที่ดีขึ้นหรือไม่?
สำหรับภารกิจของการปั่นแบบจำลองฉันกำลังพิจารณา: คำนวณ k กลุ่มสำหรับข้อมูล สร้างโมเดล k สำหรับแต่ละคลัสเตอร์แยกกัน เหตุผลก็คือว่าไม่มีอะไรที่จะพิสูจน์ว่าประชากรของผู้ใต้บังคับบัญชาเป็นเนื้อเดียวกันดังนั้นจึงมีเหตุผลที่จะคิดว่ากระบวนการสร้างข้อมูลอาจแตกต่างกันสำหรับ "กลุ่ม" ที่แตกต่างกัน คำถามของฉันคือมันเป็นวิธีการที่เหมาะสมหรือไม่ มันละเมิดอะไรหรือไม่หรือถือว่าไม่ดีด้วยเหตุผลบางอย่าง? ถ้าเป็นเช่นนั้นทำไม ถ้าไม่คุณจะแบ่งปันแนวทางปฏิบัติที่ดีที่สุดเกี่ยวกับปัญหานั้นหรือไม่ และสิ่งที่สอง - เป็นการดีกว่าหรือแย่กว่าการทำ preclustering กว่าโมเดลต้นไม้ (ตามที่กำหนดไว้ใน Witten, Frank - ต้นไม้จำแนก / ถดถอยด้วยแบบจำลองที่ใบไม้) สังหรณ์ใจดูเหมือนว่าสเตจต้นไม้ตัดสินใจเป็นเพียงรูปแบบการรวมกลุ่มอื่น idk หากมีข้อได้เปรียบเหนือการจัดกลุ่ม "ปกติ")

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

7
กำลังมองหาข้อมูลประดิษฐ์ 2D เพื่อแสดงคุณสมบัติของอัลกอริทึมการจัดกลุ่ม
ฉันกำลังมองหาชุดข้อมูลของ 2 มิติดาต้าพอยน์ (แต่ละดาต้าพอยน์เป็นเวกเตอร์ของสองค่า (x, y)) ตามการแจกแจงและรูปแบบที่แตกต่างกัน รหัสเพื่อสร้างข้อมูลดังกล่าวก็จะเป็นประโยชน์ ฉันต้องการใช้พวกเขาเพื่อพล็อต / เห็นภาพว่าอัลกอริทึมการจัดกลุ่มทำงานอย่างไร นี่คือตัวอย่างบางส่วน: ดาวเหมือนข้อมูลคลาวด์ สี่กลุ่มแยกง่ายหนึ่ง เกลียว (ไม่มีคลัสเตอร์) แหวน เมฆสองก้อนที่แยกจากกันแทบจะไม่ สองกลุ่มขนานสร้างเกลียว ... ฯลฯ

4
จะบอกปริมาณได้อย่างไรว่าข้อมูล 1D มีการทำคลัสเตอร์ประมาณ 1 หรือ 3 ค่าหรือไม่
ฉันได้รับข้อมูลบางอย่างในเวลาระหว่างหัวใจเต้นของมนุษย์ ข้อบ่งชี้หนึ่งของการเต้นนอกมดลูก (พิเศษ) คือช่วงเวลาเหล่านี้มีการทำคลัสเตอร์ประมาณสามค่าแทนที่จะเป็นหนึ่ง ฉันจะได้รับการวัดเชิงปริมาณของสิ่งนี้ได้อย่างไร ฉันกำลังมองหาเพื่อเปรียบเทียบชุดข้อมูลหลายชุดและฮิสโตแกรม 100 bin สองรายการนี้เป็นตัวแทนของชุดข้อมูลทั้งหมด ฉันสามารถเปรียบเทียบความแปรปรวนได้ แต่ฉันต้องการให้อัลกอริทึมของฉันสามารถตรวจสอบว่ามีหนึ่งหรือสามกลุ่มในแต่ละกรณีโดยไม่เปรียบเทียบกับกรณีอื่น ๆ นี่คือการประมวลผลแบบออฟไลน์ดังนั้นจึงมีพลังในการคำนวณจำนวนมากหากจำเป็น

5
ความแตกต่างระหว่างการจัดกลุ่มกราฟและวิธีการตรวจหาชุมชนคืออะไร?
โดยทั่วไปเป้าหมายของการทำคลัสเตอร์กราฟและวิธีการตรวจหาชุมชนคือการคำนวณกลุ่ม มีความแตกต่างระหว่างพวกเขาหรือไม่?

2
ระยะทางจะต้องเป็น "ตัวชี้วัด" เพื่อให้การจัดกลุ่มแบบลำดับชั้นมีความถูกต้องหรือไม่
ให้เราบอกว่าเรากำหนดระยะทางซึ่งไม่ใช่ตัวชี้วัดระหว่างรายการ N ขึ้นอยู่กับระยะทางนี้เราก็ใช้การจัดกลุ่มตามลำดับชั้น Agglomerative เราสามารถใช้อัลกอริทึมที่รู้จักกัน (ลิงค์เดี่ยว / สูงสุด / avaerage ฯลฯ ) เพื่อให้ได้ผลลัพธ์ที่มีความหมายได้หรือไม่ หรือวางแตกต่างกันสิ่งที่เป็นปัญหากับการใช้พวกเขาหากระยะทางไม่ได้เป็นตัวชี้วัด?

4
การจัดกลุ่มด้วยการวัดระยะทางแบบอสมมาตร
คุณจัดกลุ่มคุณลักษณะด้วยการวัดระยะทางแบบอสมมาตรอย่างไร ตัวอย่างเช่นสมมติว่าคุณกำลังจัดกลุ่มชุดข้อมูลที่มีวันของสัปดาห์เป็นคุณลักษณะ - ระยะทางตั้งแต่วันจันทร์ถึงวันศุกร์ไม่เหมือนกับระยะทางตั้งแต่วันศุกร์ถึงวันจันทร์ คุณจะรวมสิ่งนี้ลงในการวัดระยะทางของอัลกอริทึมการจัดกลุ่มได้อย่างไร

2
การจัดกลุ่มเชิงพื้นที่ตามความหนาแน่นของแอปพลิเคชันที่มีการจัดกลุ่มเสียง (DBSCAN) ใน R
คำถามนี้เริ่มต้นเป็น "การจัดกลุ่มข้อมูลเชิงพื้นที่ใน R " และตอนนี้ย้ายไปยังคำถาม DBSCAN เนื่องจากการตอบคำถามแรกแนะนำให้ฉันค้นหาข้อมูลเกี่ยวกับ DBSCAN และอ่านเอกสารบางอย่างเกี่ยวกับ มีคำถามใหม่เกิดขึ้น DBSCAN ต้องการพารามิเตอร์บางตัวหนึ่งในนั้นคือ "ระยะทาง" เนื่องจากข้อมูลของฉันมีสามมิติลองจิจูดละติจูดและอุณหภูมิฉันควรใช้ "ระยะทาง" ใด มิติใดเกี่ยวข้องกับระยะทางนั้น ฉันควรจะเป็นอุณหภูมิ ฉันจะค้นหาระยะห่างขั้นต่ำเช่น R ได้อย่างไร พารามิเตอร์อื่นคือจำนวนจุดต่ำสุดที่ควรสร้างเป็นคลัสเตอร์ มีวิธีการหาหมายเลขนั้นหรือไม่? น่าเสียดายที่ฉันไม่พบ กำลังค้นหา Google ฉันไม่สามารถหาตัวอย่าง R สำหรับการใช้ dbscan ในชุดข้อมูลที่คล้ายกับของฉันคุณรู้จักเว็บไซต์ใดที่มีตัวอย่างประเภทนี้หรือไม่ ดังนั้นฉันสามารถอ่านและพยายามปรับให้เข้ากับกรณีของฉัน คำถามสุดท้ายคือความพยายามครั้งแรกของฉันกับ DBSCAN (ไม่มีคำตอบที่ถูกต้องสำหรับคำถามก่อนหน้า) ทำให้เกิดปัญหาหน่วยความจำ R บอกว่ามันไม่สามารถจัดสรรเวกเตอร์ได้ ฉันเริ่มต้นด้วยตารางที่เว้นระยะ 4 กม. ด้วย 779191 จุดที่สิ้นสุดในประมาณ 300,000 แถว x 3 คอลัมน์ (ละติจูดลองจิจูดและอุณหภูมิ) …
9 r  clustering  spatial 

3
การขี่จักรยานในอัลกอริทึม k-mean
ตามที่วิกิพีเดียลู่เกณฑ์ใช้กันอย่างแพร่หลายคือ "มอบหมายไม่ได้เปลี่ยนแปลง" ฉันสงสัยว่าการขี่จักรยานอาจเกิดขึ้นได้หรือไม่ถ้าเราใช้เกณฑ์การลู่เข้าเช่นนี้ ฉันยินดีถ้ามีคนอ้างอิงถึงบทความที่ให้ตัวอย่างของการขี่จักรยานหรือพิสูจน์ว่าเป็นไปไม่ได้

3
การจัดกลุ่มที่ประหยัดพื้นที่
อัลกอริธึมการจัดกลุ่มส่วนใหญ่ที่ฉันเคยเห็นเริ่มต้นด้วยการสร้างระยะห่างแต่ละจุดระหว่างจุดทั้งหมดซึ่งกลายเป็นปัญหาในชุดข้อมูลขนาดใหญ่ มีคนที่ไม่ทำเหรอ? หรือมันเป็นวิธีการบางส่วน / โดยประมาณ / เซ? อัลกอริทึมการจัดกลุ่ม / การใช้งานใดที่ใช้พื้นที่น้อยกว่า O (n ^ 2) มีรายการอัลกอริทึมและข้อกำหนดด้านเวลาและสถานที่อยู่หรือไม่?

4
วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3
ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์ 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!

2
เริ่มต้นใช้งานด้วยจักรยานเสือภูเขา
ฉันได้ทำการค้นคว้าทางอินเทอร์เน็ตเกี่ยวกับจักรยานเสือหมอบ (ฉันได้อ่านบทความ Wiki หลายครั้ง) จนถึงตอนนี้ดูเหมือนว่ามีคำจำกัดความหรือคำศัพท์มาตรฐานน้อย ฉันสงสัยว่ามีเอกสารหรือหนังสือมาตรฐานใด ๆ ที่ใครก็ตามที่สนใจในอัลกอริทึมสำหรับการค้นหาผู้มาฮันทางควรอ่าน เป็นไปได้ไหมที่จะบอกว่าสถานะของศิลปะในทุ่งนาคืออะไร? ฉันรู้สึกทึ่งกับความคิดในการค้นหาผู้มีส่วนร่วมทางจักรยานโดยใช้อัลกอริทึมทางพันธุกรรมดังนั้นฉันขอขอบคุณความคิดเห็นเกี่ยวกับวิธีการนั้นโดยเฉพาะอย่างยิ่งในบริบทของวิธีการอื่น ๆ โดยปกติในการจัดกลุ่มเป้าหมายคือการแบ่งพาร์ติชันชุดข้อมูลเป็นกลุ่มที่แต่ละองค์ประกอบอยู่ในบางกลุ่ม อัลกอริทึม bicluster พยายามหาองค์ประกอบทั้งหมดในกลุ่มเฉพาะหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.