สถิติและข้อมูลขนาดใหญ่ clustering

3

การกระจายความน่าจะเป็นแบบคลัสเตอร์ - วิธีการและตัวชี้วัด?

ฉันมีจุดข้อมูลบางอย่างซึ่งแต่ละอันประกอบด้วย 5 เวกเตอร์ของผลลัพธ์ที่ไม่ต่อเนื่องแบบจับกันเป็นกลุ่มผลของเวกเตอร์แต่ละตัวที่สร้างโดยการกระจายตัวที่แตกต่างกัน (ชนิดที่ฉันไม่แน่ใจการคาดเดาที่ดีที่สุดของฉันคือ Weibull กฎหมาย (1 ถึง 0, ประมาณ) ฉันกำลังมองหาที่จะใช้อัลกอริทึมการจัดกลุ่มเช่น K-Means เพื่อใส่แต่ละจุดข้อมูลลงในกลุ่มตามคุณลักษณะของการกระจายองค์ประกอบ 5 ฉันสงสัยว่ามีตัวชี้วัดระยะทางที่กำหนดไว้หรือไม่ซึ่งจะสวยงามสำหรับวัตถุประสงค์เหล่านี้ ฉันมีความคิดสามข้อ แต่ฉันไม่ใช่นักสถิติที่มีประสบการณ์ (เป็นนักวิทยาศาสตร์คอมพิวเตอร์การขุดข้อมูลเริ่มต้น) ดังนั้นฉันจึงมีความคิดเล็ก ๆ น้อย ๆ ว่าฉันอยู่ไกลแค่ไหน เนื่องจากฉันไม่รู้แน่ชัดว่าการแจกแจงแบบไหนฉันกำลังเข้าใกล้ปัญหาของฉันคือการสับการกระจายแต่ละครั้ง (ฉันมี 5 ต่อจุด) ลงในแต่ละค่าของข้อมูลที่ไม่ต่อเนื่อง (ฉันแพด แต่ละอันที่สอดคล้องกับความยาวเดียวกันกับศูนย์ที่ท้าย) และใช้แต่ละค่าเหล่านี้เป็นแอตทริบิวต์ที่แยกต่างหากสำหรับจุดข้อมูลเอง ฉันลองใช้ทั้งระยะทางแมนฮัตตันและระยะทางแบบยุคลิดเป็นตัวชี้วัดตามคุณลักษณะเหล่านี้สำหรับทั้ง PDF และ CDF อีกครั้งเนื่องจากฉันไม่ทราบว่ามีการแจกแจงแบบใดฉันจึงคิดว่าถ้าฉันจะวัดระยะห่างระหว่างการแจกแจงโดยรวมฉันสามารถใช้การทดสอบแบบไม่อิงพารามิเตอร์ระหว่างการแจกแจงเช่นการทดสอบ KS เพื่อค้นหาโอกาสที่การแจกแจงที่กำหนดถูกสร้างขึ้นโดย PDF ที่แตกต่างกัน ฉันคิดว่าตัวเลือกแรกของฉัน (ด้านบน) โดยใช้ระยะทางแมนฮัตตันจะเป็นขอบเขตบนของสิ่งที่ฉันอาจใช้วิธีนี้ (เนื่องจากสถิติ KS คือค่าสัมบูรณ์สูงสุดของความแตกต่างของ CDFs ซึ่งระยะทางแมนฮัตตันเป็น ผลรวมของค่าสัมบูรณ์ของความแตกต่างใน PDF) …

13 distributions clustering feature-selection kolmogorov-smirnov k-means

2

ระยะห่างของโกเวอร์คำนวณความแตกต่างระหว่างตัวแปรไบนารีอย่างไร

ฉันมี 17 ตัวเลขและ 5 ไบนารี (0-1) ตัวแปรโดยมี 73 ตัวอย่างในชุดข้อมูลของฉัน ฉันต้องการเรียกใช้การวิเคราะห์คลัสเตอร์ ฉันรู้ว่าระยะทางของโกเวอร์เป็นตัวชี้วัดที่ดีสำหรับชุดข้อมูลที่มีตัวแปรแบบผสม อย่างไรก็ตามฉันไม่เข้าใจว่าระยะทางของโกเวอร์คำนวณความแตกต่างระหว่างตัวแปรไบนารีได้อย่างไร สำหรับฉันดูเหมือนว่ามันไม่แตกต่างจากระยะทางแบบยุคลิด

13 clustering distance mixed-type-data

1

K-วิธี || K-Means ++ ที่ปรับขนาดได้

Bahman Bahmani และคณะ แนะนำ k-mean || ซึ่งเป็นเวอร์ชั่นที่เร็วกว่าของ k-mean ++ อัลกอริทึมนี้นำมาจากหน้า 4 ของกระดาษ , Bahmani, B. , Moseley, B. , Vattani, A. , Kumar, R. , และ Vassilvitskii, S. (2012) ปรับขนาด k- หมายถึง ++ การดำเนินการของ VLDBเอ็นดาวเม้นท์, 5 (7), 622-633 น่าเสียดายที่ฉันไม่เข้าใจตัวอักษรกรีกแฟนซีเหล่านั้นดังนั้นฉันต้องการความช่วยเหลือในการทำความเข้าใจวิธีการทำงานของมัน เท่าที่ฉันเข้าใจอัลกอริทึมนี้เป็นรุ่นปรับปรุงของ k-หมายถึง ++ และใช้การสุ่มตัวอย่างเพื่อลดจำนวนการทำซ้ำ: k-หมายถึง ++ ต้องทำซ้ำคูณโดยที่คือจำนวนคลัสเตอร์ที่ต้องการkkkkkk ฉันได้คำอธิบายที่ดีมากผ่านตัวอย่างที่เป็นรูปธรรมเกี่ยวกับการทำงานของ k-mean ++ ดังนั้นฉันจะใช้ตัวอย่างเดียวกันอีกครั้ง …

12 clustering k-means

5

จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?

ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

4

คุณสามารถเปรียบเทียบวิธีการจัดกลุ่มที่แตกต่างกันบนชุดข้อมูลที่ไม่มีความจริงพื้นฐานโดยการตรวจสอบข้ามได้หรือไม่?

ขณะนี้ฉันกำลังพยายามวิเคราะห์ชุดข้อความเอกสารที่ไม่มีความจริง มีคนบอกฉันว่าคุณสามารถใช้การตรวจสอบความถูกต้องข้ามของ k-fold เพื่อเปรียบเทียบวิธีการจัดกลุ่มที่แตกต่างกัน อย่างไรก็ตามตัวอย่างที่ฉันเห็นในอดีตใช้ความจริงพื้นฐาน มีวิธีใช้ k-fold ในชุดข้อมูลนี้เพื่อตรวจสอบผลลัพธ์ของฉันหรือไม่?

12 machine-learning clustering cross-validation unsupervised-learning

5

ฉันสามารถใช้ PCA เพื่อทำการเลือกตัวแปรสำหรับการวิเคราะห์กลุ่มได้หรือไม่

ฉันต้องลดจำนวนของตัวแปรเพื่อดำเนินการวิเคราะห์กลุ่ม ตัวแปรของฉันมีความสัมพันธ์อย่างมากดังนั้นฉันจึงคิดว่าจะทำการวิเคราะห์ปัจจัย PCA (การวิเคราะห์องค์ประกอบหลัก) อย่างไรก็ตามถ้าฉันใช้คะแนนผลลัพธ์กลุ่มของฉันไม่ถูกต้อง (เทียบกับการจำแนกประเภทก่อนหน้านี้ในวรรณคดี) คำถาม: ฉันสามารถใช้เมทริกซ์การหมุนเพื่อเลือกตัวแปรที่มีโหลดมากที่สุดสำหรับแต่ละส่วนประกอบ / ตัวประกอบและใช้เฉพาะตัวแปรเหล่านี้สำหรับการจัดกลุ่มของฉันได้หรือไม่ การอ้างอิงบรรณานุกรมใด ๆ ก็จะมีประโยชน์เช่นกัน ปรับปรุง: clarifiations บาง: เป้าหมายของฉัน: ฉันต้องเรียกใช้การวิเคราะห์กลุ่มด้วยอัลกอริทึมแบบสองขั้นตอนโดย SPSS แต่ตัวแปรของฉันไม่ได้เป็นอิสระดังนั้นฉันจึงคิดถึงการทิ้งบางอย่าง ชุดข้อมูลของฉัน: ฉันทำงานกับพารามิเตอร์สเกลาร์ 15 รายการ (ตัวแปรของฉัน) จำนวน 100,000 ราย ตัวแปรบางตัวมีความสัมพันธ์กันอย่างมาก ( Pearson)>0.9>0.9>0.9 ข้อสงสัยของฉัน: เนื่องจากฉันต้องการเพียงตัวแปรอิสระฉันจึงคิดว่าจะทำการวิเคราะห์องค์ประกอบหลัก (ขออภัย: ฉันพูดถึงการวิเคราะห์ปัจจัยในคำถามเดิมของฉันผิดพลาด) และเลือกเฉพาะตัวแปรที่มีการโหลดมากที่สุดสำหรับแต่ละองค์ประกอบ ฉันรู้ว่ากระบวนการ PCA นำเสนอบางขั้นตอนโดยพลการ แต่ฉันพบว่าการเลือกนี้คล้ายกับ " วิธี B4 " ที่เสนอโดย IT Jolliffe (1972 & 2002) …

12 clustering pca feature-selection factor-analysis

2

การจัดกลุ่มข้อมูลเชิงพื้นที่ใน R

ฉันมีชุดข้อมูลอุณหภูมิพื้นผิวทะเล (SST) รายเดือนและฉันต้องการใช้วิธีการคลัสเตอร์บางอย่างเพื่อตรวจหาภูมิภาคที่มีรูปแบบ SST ที่คล้ายกัน ฉันมีชุดของไฟล์ข้อมูลรายเดือนที่ใช้งานตั้งแต่ปี 1985 ถึง 2009 และต้องการใช้การจัดกลุ่มกับแต่ละเดือนเป็นขั้นตอนแรก แต่ละไฟล์มีข้อมูลที่ gridded สำหรับ 3,584,16 จุดที่ประมาณ 50% เป็นที่ดินและมีการทำเครื่องหมายด้วยค่า 99.99 ที่จะเป็น NA รูปแบบข้อมูลคือ: lon lat sst -10.042 44.979 12.38 -9.998 44.979 12.69 -9.954 44.979 12.90 -9.910 44.979 12.90 -9.866 44.979 12.54 -9.822 44.979 12.37 -9.778 44.979 12.37 -9.734 44.979 12.51 -9.690 44.979 …

12 r clustering spatial

6

หนังสือหรือบทความที่แนะนำเกี่ยวกับการวิเคราะห์กลุ่ม?

ฉันกำลังทำงานกับคลังข้อความขนาดเล็ก (200M) ซึ่งฉันต้องการสำรวจด้วยการวิเคราะห์กลุ่ม คุณจะแนะนำหนังสือหรือบทความใดในเรื่องนั้น

12 machine-learning references clustering

1

การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric

ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

2

การตีความผลลัพธ์ของ k-หมายถึงการจัดกลุ่มใน R

ฉันใช้kmeansคำสั่งของ R ในการดำเนินการอัลกอริธึม k-mean บนชุดข้อมูล iris ของ Anderson ฉันมีคำถามเกี่ยวกับพารามิเตอร์บางอย่างที่ฉันได้รับ ผลลัพธ์ที่ได้คือ: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 ในกรณีนี้ "คลัสเตอร์หมายถึง" หมายถึงอะไร มันหมายถึงระยะทางของวัตถุทั้งหมดในกลุ่มหรือไม่ นอกจากนี้ในส่วนสุดท้ายฉันมี: Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) ค่านั้น 88.4% สิ่งที่สามารถตีความได้?

12 r machine-learning clustering interpretation k-means

1

วิธีคลัสเตอร์ที่แข็งแกร่งสำหรับข้อมูลแบบผสมใน R

ฉันต้องการจัดกลุ่มชุดข้อมูลขนาดเล็ก (การสังเกต 64 ครั้งของตัวแปรช่วงเวลา 4 ตัวและตัวแปรหมวดหมู่สามปัจจัยเดียว) ตอนนี้ฉันค่อนข้างใหม่ในการวิเคราะห์กลุ่ม แต่ฉันรู้ว่ามีความคืบหน้าอย่างมากตั้งแต่วันที่การจัดกลุ่มแบบลำดับชั้นหรือ k-mean เป็นตัวเลือกที่ใช้ได้เท่านั้น โดยเฉพาะอย่างยิ่งดูเหมือนว่าวิธีการใหม่ของการจัดกลุ่มตามโมเดลนั้นมีอยู่ซึ่งชี้ให้เห็นโดย chlให้เปิดใช้งาน "ดัชนีความดี - พอดีพอดีในการตัดสินใจเกี่ยวกับจำนวนของกลุ่มหรือคลาส" อย่างไรก็ตามแพคเกจ R มาตรฐานสำหรับการจัดกลุ่มตามแบบจำลองmclustจะไม่เหมาะกับรุ่นที่มีชนิดข้อมูลแบบผสม fpcรุ่นจะ แต่มีปัญหาในการกระชับรูปแบบที่ฉันสงสัยว่าเพราะธรรมชาติไม่ใช่เกาส์ของตัวแปรอย่างต่อเนื่อง ฉันควรจะทำตามแนวทางของแบบจำลองต่อไปหรือไม่? ฉันต้องการใช้ R ต่อไปถ้าเป็นไปได้ เท่าที่ฉันเห็นฉันมีตัวเลือกน้อย: mclustแปลงตัวแปรเด็ดขาดสามระดับเป็นสองตัวแปรหุ่นและการใช้งาน ฉันไม่แน่ใจว่านี่จะทำให้เกิดผลลัพธ์หรือไม่ แต่ถ้าไม่ใช่นี่คือตัวเลือกที่ฉันต้องการ แปลงตัวแปรอย่างต่อเนื่องและใช้fpcแพ็คเกจ ใช้แพ็คเกจ R อื่นที่ฉันยังไม่เคยพบมาก่อน สร้างเมทริกซ์ที่แตกต่างกันโดยใช้การวัดของโกเวอร์และใช้เทคนิคแบบลำดับชั้นหรือการย้ายฐานแบบดั้งเดิม stats.se hivemind มีคำแนะนำใด ๆ หรือไม่

12 clustering model-based-clustering mixed-type-data

3

ฉันจะทดสอบได้อย่างไรว่าการจัดกลุ่มข้อมูลไบนารีของฉันมีความสำคัญ

ฉันกำลังทำตะกร้าสินค้าวิเคราะห์ชุดข้อมูลของฉันคือชุดของเวกเตอร์ธุรกรรมพร้อมรายการสินค้าที่ซื้อ เมื่อใช้ K-วิธีการในการทำธุรกรรมที่ฉันมักจะได้รับบางผล เมทริกซ์แบบสุ่มอาจแสดงกลุ่มบางส่วนเช่นกัน มีวิธีทดสอบว่าการจัดกลุ่มที่ฉันพบนั้นสำคัญหรือไม่หรืออาจเป็นเรื่องบังเอิญ ถ้าใช่ฉันจะทำอย่างไร

12 clustering statistical-significance binary-data

1

กำหนดน้ำหนักให้กับตัวแปรในการวิเคราะห์คลัสเตอร์

ฉันต้องการกำหนดน้ำหนักที่แตกต่างให้กับตัวแปรในการวิเคราะห์คลัสเตอร์ของฉัน แต่โปรแกรมของฉัน (Stata) ดูเหมือนจะไม่มีตัวเลือกสำหรับสิ่งนี้ดังนั้นฉันต้องทำด้วยตนเอง ลองนึกภาพ 4 ตัวแปร A, B, C, D น้ำหนักสำหรับตัวแปรเหล่านั้นควรจะเป็น w(A)=50% w(B)=25% w(C)=10% w(D)=15% ฉันสงสัยว่าหนึ่งในสองวิธีต่อไปนี้จะทำเคล็ดลับได้หรือไม่: ก่อนอื่นฉันสร้างมาตรฐานให้กับตัวแปรทั้งหมด (เช่นตามช่วงของพวกเขา) จากนั้นฉันก็คูณตัวแปรมาตรฐานแต่ละตัวด้วยน้ำหนักของมัน จากนั้นทำการวิเคราะห์คลัสเตอร์ ฉันคูณตัวแปรทั้งหมดด้วยน้ำหนักของพวกเขาและทำให้เป็นมาตรฐานในภายหลัง จากนั้นทำการวิเคราะห์คลัสเตอร์ หรือความคิดทั้งสองเป็นเรื่องไร้สาระสมบูรณ์? [แก้ไข] อัลกอริทึมการจัดกลุ่ม (ฉันลอง 3 วิธีที่แตกต่างกัน) ที่ฉันต้องการใช้คือ k-mean, การเชื่อมโยงค่าเฉลี่ยถ่วงน้ำหนักและการเชื่อมโยงเฉลี่ย ฉันวางแผนที่จะใช้การเชื่อมโยงถัวเฉลี่ยถ่วงน้ำหนักเพื่อกำหนดจำนวนคลัสเตอร์ที่ดีซึ่งฉันเสียบเข้ากับ k-mean หลังจากนั้น

12 clustering stata

1

จะทำอย่างไรเมื่อเมทริกซ์ความแปรปรวนร่วมตัวอย่างไม่สามารถกลับด้านได้

ฉันกำลังทำงานกับเทคนิคการจัดกลุ่มบางอย่างซึ่งสำหรับกลุ่ม d- มิติเวกเตอร์ที่กำหนดฉันถือว่าการแจกแจงปกติหลายตัวแปรและคำนวณตัวอย่างเวกเตอร์เฉลี่ยมิติสามมิติและเมทริกซ์ความแปรปรวนร่วมตัวอย่าง จากนั้นเมื่อพยายามที่จะตัดสินใจว่าเวกเตอร์ d-มิติใหม่ที่ยังไม่ถูกมองเป็นของกลุ่มนี้ฉันกำลังตรวจสอบระยะทางผ่านทางวัดนี้: (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,−p2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) ซึ่งจะต้องมีฉันในการคำนวณค่าผกผันของการแปรปรวนเมทริกซ์\แต่จากตัวอย่างบางอย่างที่ฉันไม่สามารถรับประกันได้ว่าเมทริกซ์ความแปรปรวนร่วมจะกลับกันได้ฉันควรทำอย่างไรในกรณีที่ไม่เป็นเช่นนั้นσ^Xσ^X\hat{\sigma}_X ขอบคุณ

12 clustering multivariate-analysis covariance covariance-matrix matrix-inverse

2

ฉันจะรู้ได้อย่างไรว่าอัลกอริธึมการจัดกลุ่ม k-mean ของฉันกำลังทุกข์ทรมานจากการสาปแช่งของมิติ

ฉันเชื่อว่าชื่อของคำถามนี้บอกว่ามันทั้งหมด

12 clustering k-means high-dimensional

คำถามติดแท็ก clustering