คำถามติดแท็ก clustering

การวิเคราะห์กลุ่มเป็นหน้าที่ของการแบ่งข้อมูลออกเป็นส่วนย่อยของวัตถุตาม "ความคล้ายคลึงกัน" ซึ่งกันและกันโดยไม่ใช้ความรู้ที่มีมาก่อนเช่นป้ายชื่อชั้นเรียน [ข้อผิดพลาดมาตรฐานและ / หรือกลุ่มตัวอย่างควรติดแท็กเช่น; อย่าใช้แท็ก "การจัดกลุ่ม" สำหรับพวกเขา]

3
การกระจายความน่าจะเป็นแบบคลัสเตอร์ - วิธีการและตัวชี้วัด?
ฉันมีจุดข้อมูลบางอย่างซึ่งแต่ละอันประกอบด้วย 5 เวกเตอร์ของผลลัพธ์ที่ไม่ต่อเนื่องแบบจับกันเป็นกลุ่มผลของเวกเตอร์แต่ละตัวที่สร้างโดยการกระจายตัวที่แตกต่างกัน (ชนิดที่ฉันไม่แน่ใจการคาดเดาที่ดีที่สุดของฉันคือ Weibull กฎหมาย (1 ถึง 0, ประมาณ) ฉันกำลังมองหาที่จะใช้อัลกอริทึมการจัดกลุ่มเช่น K-Means เพื่อใส่แต่ละจุดข้อมูลลงในกลุ่มตามคุณลักษณะของการกระจายองค์ประกอบ 5 ฉันสงสัยว่ามีตัวชี้วัดระยะทางที่กำหนดไว้หรือไม่ซึ่งจะสวยงามสำหรับวัตถุประสงค์เหล่านี้ ฉันมีความคิดสามข้อ แต่ฉันไม่ใช่นักสถิติที่มีประสบการณ์ (เป็นนักวิทยาศาสตร์คอมพิวเตอร์การขุดข้อมูลเริ่มต้น) ดังนั้นฉันจึงมีความคิดเล็ก ๆ น้อย ๆ ว่าฉันอยู่ไกลแค่ไหน เนื่องจากฉันไม่รู้แน่ชัดว่าการแจกแจงแบบไหนฉันกำลังเข้าใกล้ปัญหาของฉันคือการสับการกระจายแต่ละครั้ง (ฉันมี 5 ต่อจุด) ลงในแต่ละค่าของข้อมูลที่ไม่ต่อเนื่อง (ฉันแพด แต่ละอันที่สอดคล้องกับความยาวเดียวกันกับศูนย์ที่ท้าย) และใช้แต่ละค่าเหล่านี้เป็นแอตทริบิวต์ที่แยกต่างหากสำหรับจุดข้อมูลเอง ฉันลองใช้ทั้งระยะทางแมนฮัตตันและระยะทางแบบยุคลิดเป็นตัวชี้วัดตามคุณลักษณะเหล่านี้สำหรับทั้ง PDF และ CDF อีกครั้งเนื่องจากฉันไม่ทราบว่ามีการแจกแจงแบบใดฉันจึงคิดว่าถ้าฉันจะวัดระยะห่างระหว่างการแจกแจงโดยรวมฉันสามารถใช้การทดสอบแบบไม่อิงพารามิเตอร์ระหว่างการแจกแจงเช่นการทดสอบ KS เพื่อค้นหาโอกาสที่การแจกแจงที่กำหนดถูกสร้างขึ้นโดย PDF ที่แตกต่างกัน ฉันคิดว่าตัวเลือกแรกของฉัน (ด้านบน) โดยใช้ระยะทางแมนฮัตตันจะเป็นขอบเขตบนของสิ่งที่ฉันอาจใช้วิธีนี้ (เนื่องจากสถิติ KS คือค่าสัมบูรณ์สูงสุดของความแตกต่างของ CDFs ซึ่งระยะทางแมนฮัตตันเป็น ผลรวมของค่าสัมบูรณ์ของความแตกต่างใน PDF) …

2
ระยะห่างของโกเวอร์คำนวณความแตกต่างระหว่างตัวแปรไบนารีอย่างไร
ฉันมี 17 ตัวเลขและ 5 ไบนารี (0-1) ตัวแปรโดยมี 73 ตัวอย่างในชุดข้อมูลของฉัน ฉันต้องการเรียกใช้การวิเคราะห์คลัสเตอร์ ฉันรู้ว่าระยะทางของโกเวอร์เป็นตัวชี้วัดที่ดีสำหรับชุดข้อมูลที่มีตัวแปรแบบผสม อย่างไรก็ตามฉันไม่เข้าใจว่าระยะทางของโกเวอร์คำนวณความแตกต่างระหว่างตัวแปรไบนารีได้อย่างไร สำหรับฉันดูเหมือนว่ามันไม่แตกต่างจากระยะทางแบบยุคลิด

1
K-วิธี || K-Means ++ ที่ปรับขนาดได้
Bahman Bahmani และคณะ แนะนำ k-mean || ซึ่งเป็นเวอร์ชั่นที่เร็วกว่าของ k-mean ++ อัลกอริทึมนี้นำมาจากหน้า 4 ของกระดาษ , Bahmani, B. , Moseley, B. , Vattani, A. , Kumar, R. , และ Vassilvitskii, S. (2012) ปรับขนาด k- หมายถึง ++ การดำเนินการของ VLDBเอ็นดาวเม้นท์, 5 (7), 622-633 น่าเสียดายที่ฉันไม่เข้าใจตัวอักษรกรีกแฟนซีเหล่านั้นดังนั้นฉันต้องการความช่วยเหลือในการทำความเข้าใจวิธีการทำงานของมัน เท่าที่ฉันเข้าใจอัลกอริทึมนี้เป็นรุ่นปรับปรุงของ k-หมายถึง ++ และใช้การสุ่มตัวอย่างเพื่อลดจำนวนการทำซ้ำ: k-หมายถึง ++ ต้องทำซ้ำคูณโดยที่คือจำนวนคลัสเตอร์ที่ต้องการkkkkkk ฉันได้คำอธิบายที่ดีมากผ่านตัวอย่างที่เป็นรูปธรรมเกี่ยวกับการทำงานของ k-mean ++ ดังนั้นฉันจะใช้ตัวอย่างเดียวกันอีกครั้ง …

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
คุณสามารถเปรียบเทียบวิธีการจัดกลุ่มที่แตกต่างกันบนชุดข้อมูลที่ไม่มีความจริงพื้นฐานโดยการตรวจสอบข้ามได้หรือไม่?
ขณะนี้ฉันกำลังพยายามวิเคราะห์ชุดข้อความเอกสารที่ไม่มีความจริง มีคนบอกฉันว่าคุณสามารถใช้การตรวจสอบความถูกต้องข้ามของ k-fold เพื่อเปรียบเทียบวิธีการจัดกลุ่มที่แตกต่างกัน อย่างไรก็ตามตัวอย่างที่ฉันเห็นในอดีตใช้ความจริงพื้นฐาน มีวิธีใช้ k-fold ในชุดข้อมูลนี้เพื่อตรวจสอบผลลัพธ์ของฉันหรือไม่?

5
ฉันสามารถใช้ PCA เพื่อทำการเลือกตัวแปรสำหรับการวิเคราะห์กลุ่มได้หรือไม่
ฉันต้องลดจำนวนของตัวแปรเพื่อดำเนินการวิเคราะห์กลุ่ม ตัวแปรของฉันมีความสัมพันธ์อย่างมากดังนั้นฉันจึงคิดว่าจะทำการวิเคราะห์ปัจจัย PCA (การวิเคราะห์องค์ประกอบหลัก) อย่างไรก็ตามถ้าฉันใช้คะแนนผลลัพธ์กลุ่มของฉันไม่ถูกต้อง (เทียบกับการจำแนกประเภทก่อนหน้านี้ในวรรณคดี) คำถาม: ฉันสามารถใช้เมทริกซ์การหมุนเพื่อเลือกตัวแปรที่มีโหลดมากที่สุดสำหรับแต่ละส่วนประกอบ / ตัวประกอบและใช้เฉพาะตัวแปรเหล่านี้สำหรับการจัดกลุ่มของฉันได้หรือไม่ การอ้างอิงบรรณานุกรมใด ๆ ก็จะมีประโยชน์เช่นกัน ปรับปรุง: clarifiations บาง: เป้าหมายของฉัน: ฉันต้องเรียกใช้การวิเคราะห์กลุ่มด้วยอัลกอริทึมแบบสองขั้นตอนโดย SPSS แต่ตัวแปรของฉันไม่ได้เป็นอิสระดังนั้นฉันจึงคิดถึงการทิ้งบางอย่าง ชุดข้อมูลของฉัน: ฉันทำงานกับพารามิเตอร์สเกลาร์ 15 รายการ (ตัวแปรของฉัน) จำนวน 100,000 ราย ตัวแปรบางตัวมีความสัมพันธ์กันอย่างมาก ( Pearson)>0.9>0.9>0.9 ข้อสงสัยของฉัน: เนื่องจากฉันต้องการเพียงตัวแปรอิสระฉันจึงคิดว่าจะทำการวิเคราะห์องค์ประกอบหลัก (ขออภัย: ฉันพูดถึงการวิเคราะห์ปัจจัยในคำถามเดิมของฉันผิดพลาด) และเลือกเฉพาะตัวแปรที่มีการโหลดมากที่สุดสำหรับแต่ละองค์ประกอบ ฉันรู้ว่ากระบวนการ PCA นำเสนอบางขั้นตอนโดยพลการ แต่ฉันพบว่าการเลือกนี้คล้ายกับ " วิธี B4 " ที่เสนอโดย IT Jolliffe (1972 & 2002) …

2
การจัดกลุ่มข้อมูลเชิงพื้นที่ใน R
ฉันมีชุดข้อมูลอุณหภูมิพื้นผิวทะเล (SST) รายเดือนและฉันต้องการใช้วิธีการคลัสเตอร์บางอย่างเพื่อตรวจหาภูมิภาคที่มีรูปแบบ SST ที่คล้ายกัน ฉันมีชุดของไฟล์ข้อมูลรายเดือนที่ใช้งานตั้งแต่ปี 1985 ถึง 2009 และต้องการใช้การจัดกลุ่มกับแต่ละเดือนเป็นขั้นตอนแรก แต่ละไฟล์มีข้อมูลที่ gridded สำหรับ 3,584,16 จุดที่ประมาณ 50% เป็นที่ดินและมีการทำเครื่องหมายด้วยค่า 99.99 ที่จะเป็น NA รูปแบบข้อมูลคือ: lon lat sst -10.042 44.979 12.38 -9.998 44.979 12.69 -9.954 44.979 12.90 -9.910 44.979 12.90 -9.866 44.979 12.54 -9.822 44.979 12.37 -9.778 44.979 12.37 -9.734 44.979 12.51 -9.690 44.979 …
12 r  clustering  spatial 

6
หนังสือหรือบทความที่แนะนำเกี่ยวกับการวิเคราะห์กลุ่ม?
ฉันกำลังทำงานกับคลังข้อความขนาดเล็ก (200M) ซึ่งฉันต้องการสำรวจด้วยการวิเคราะห์กลุ่ม คุณจะแนะนำหนังสือหรือบทความใดในเรื่องนั้น

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

2
การตีความผลลัพธ์ของ k-หมายถึงการจัดกลุ่มใน R
ฉันใช้kmeansคำสั่งของ R ในการดำเนินการอัลกอริธึม k-mean บนชุดข้อมูล iris ของ Anderson ฉันมีคำถามเกี่ยวกับพารามิเตอร์บางอย่างที่ฉันได้รับ ผลลัพธ์ที่ได้คือ: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 ในกรณีนี้ "คลัสเตอร์หมายถึง" หมายถึงอะไร มันหมายถึงระยะทางของวัตถุทั้งหมดในกลุ่มหรือไม่ นอกจากนี้ในส่วนสุดท้ายฉันมี: Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) ค่านั้น 88.4% สิ่งที่สามารถตีความได้?

1
วิธีคลัสเตอร์ที่แข็งแกร่งสำหรับข้อมูลแบบผสมใน R
ฉันต้องการจัดกลุ่มชุดข้อมูลขนาดเล็ก (การสังเกต 64 ครั้งของตัวแปรช่วงเวลา 4 ตัวและตัวแปรหมวดหมู่สามปัจจัยเดียว) ตอนนี้ฉันค่อนข้างใหม่ในการวิเคราะห์กลุ่ม แต่ฉันรู้ว่ามีความคืบหน้าอย่างมากตั้งแต่วันที่การจัดกลุ่มแบบลำดับชั้นหรือ k-mean เป็นตัวเลือกที่ใช้ได้เท่านั้น โดยเฉพาะอย่างยิ่งดูเหมือนว่าวิธีการใหม่ของการจัดกลุ่มตามโมเดลนั้นมีอยู่ซึ่งชี้ให้เห็นโดย chlให้เปิดใช้งาน "ดัชนีความดี - พอดีพอดีในการตัดสินใจเกี่ยวกับจำนวนของกลุ่มหรือคลาส" อย่างไรก็ตามแพคเกจ R มาตรฐานสำหรับการจัดกลุ่มตามแบบจำลองmclustจะไม่เหมาะกับรุ่นที่มีชนิดข้อมูลแบบผสม fpcรุ่นจะ แต่มีปัญหาในการกระชับรูปแบบที่ฉันสงสัยว่าเพราะธรรมชาติไม่ใช่เกาส์ของตัวแปรอย่างต่อเนื่อง ฉันควรจะทำตามแนวทางของแบบจำลองต่อไปหรือไม่? ฉันต้องการใช้ R ต่อไปถ้าเป็นไปได้ เท่าที่ฉันเห็นฉันมีตัวเลือกน้อย: mclustแปลงตัวแปรเด็ดขาดสามระดับเป็นสองตัวแปรหุ่นและการใช้งาน ฉันไม่แน่ใจว่านี่จะทำให้เกิดผลลัพธ์หรือไม่ แต่ถ้าไม่ใช่นี่คือตัวเลือกที่ฉันต้องการ แปลงตัวแปรอย่างต่อเนื่องและใช้fpcแพ็คเกจ ใช้แพ็คเกจ R อื่นที่ฉันยังไม่เคยพบมาก่อน สร้างเมทริกซ์ที่แตกต่างกันโดยใช้การวัดของโกเวอร์และใช้เทคนิคแบบลำดับชั้นหรือการย้ายฐานแบบดั้งเดิม stats.se hivemind มีคำแนะนำใด ๆ หรือไม่

3
ฉันจะทดสอบได้อย่างไรว่าการจัดกลุ่มข้อมูลไบนารีของฉันมีความสำคัญ
ฉันกำลังทำตะกร้าสินค้าวิเคราะห์ชุดข้อมูลของฉันคือชุดของเวกเตอร์ธุรกรรมพร้อมรายการสินค้าที่ซื้อ เมื่อใช้ K-วิธีการในการทำธุรกรรมที่ฉันมักจะได้รับบางผล เมทริกซ์แบบสุ่มอาจแสดงกลุ่มบางส่วนเช่นกัน มีวิธีทดสอบว่าการจัดกลุ่มที่ฉันพบนั้นสำคัญหรือไม่หรืออาจเป็นเรื่องบังเอิญ ถ้าใช่ฉันจะทำอย่างไร

1
กำหนดน้ำหนักให้กับตัวแปรในการวิเคราะห์คลัสเตอร์
ฉันต้องการกำหนดน้ำหนักที่แตกต่างให้กับตัวแปรในการวิเคราะห์คลัสเตอร์ของฉัน แต่โปรแกรมของฉัน (Stata) ดูเหมือนจะไม่มีตัวเลือกสำหรับสิ่งนี้ดังนั้นฉันต้องทำด้วยตนเอง ลองนึกภาพ 4 ตัวแปร A, B, C, D น้ำหนักสำหรับตัวแปรเหล่านั้นควรจะเป็น w(A)=50% w(B)=25% w(C)=10% w(D)=15% ฉันสงสัยว่าหนึ่งในสองวิธีต่อไปนี้จะทำเคล็ดลับได้หรือไม่: ก่อนอื่นฉันสร้างมาตรฐานให้กับตัวแปรทั้งหมด (เช่นตามช่วงของพวกเขา) จากนั้นฉันก็คูณตัวแปรมาตรฐานแต่ละตัวด้วยน้ำหนักของมัน จากนั้นทำการวิเคราะห์คลัสเตอร์ ฉันคูณตัวแปรทั้งหมดด้วยน้ำหนักของพวกเขาและทำให้เป็นมาตรฐานในภายหลัง จากนั้นทำการวิเคราะห์คลัสเตอร์ หรือความคิดทั้งสองเป็นเรื่องไร้สาระสมบูรณ์? [แก้ไข] อัลกอริทึมการจัดกลุ่ม (ฉันลอง 3 วิธีที่แตกต่างกัน) ที่ฉันต้องการใช้คือ k-mean, การเชื่อมโยงค่าเฉลี่ยถ่วงน้ำหนักและการเชื่อมโยงเฉลี่ย ฉันวางแผนที่จะใช้การเชื่อมโยงถัวเฉลี่ยถ่วงน้ำหนักเพื่อกำหนดจำนวนคลัสเตอร์ที่ดีซึ่งฉันเสียบเข้ากับ k-mean หลังจากนั้น
12 clustering  stata 

1
จะทำอย่างไรเมื่อเมทริกซ์ความแปรปรวนร่วมตัวอย่างไม่สามารถกลับด้านได้
ฉันกำลังทำงานกับเทคนิคการจัดกลุ่มบางอย่างซึ่งสำหรับกลุ่ม d- มิติเวกเตอร์ที่กำหนดฉันถือว่าการแจกแจงปกติหลายตัวแปรและคำนวณตัวอย่างเวกเตอร์เฉลี่ยมิติสามมิติและเมทริกซ์ความแปรปรวนร่วมตัวอย่าง จากนั้นเมื่อพยายามที่จะตัดสินใจว่าเวกเตอร์ d-มิติใหม่ที่ยังไม่ถูกมองเป็นของกลุ่มนี้ฉันกำลังตรวจสอบระยะทางผ่านทางวัดนี้: (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,−p2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) ซึ่งจะต้องมีฉันในการคำนวณค่าผกผันของการแปรปรวนเมทริกซ์\แต่จากตัวอย่างบางอย่างที่ฉันไม่สามารถรับประกันได้ว่าเมทริกซ์ความแปรปรวนร่วมจะกลับกันได้ฉันควรทำอย่างไรในกรณีที่ไม่เป็นเช่นนั้นσ^Xσ^X\hat{\sigma}_X ขอบคุณ


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.