คำถามติดแท็ก clustering

การวิเคราะห์กลุ่มเป็นหน้าที่ของการแบ่งข้อมูลออกเป็นส่วนย่อยของวัตถุตาม "ความคล้ายคลึงกัน" ซึ่งกันและกันโดยไม่ใช้ความรู้ที่มีมาก่อนเช่นป้ายชื่อชั้นเรียน [ข้อผิดพลาดมาตรฐานและ / หรือกลุ่มตัวอย่างควรติดแท็กเช่น; อย่าใช้แท็ก "การจัดกลุ่ม" สำหรับพวกเขา]

2
การตรวจจับกลุ่มของรหัสที่มา "คล้ายกัน"
สมมติว่าฉันมีนักเรียน 400 คน (ที่อยู่ในมหาวิทยาลัยใหญ่) ที่ต้องทำโครงงานวิทยาศาสตร์คอมพิวเตอร์และพวกเขาต้องทำงานคนเดียว (ไม่มีกลุ่มนักเรียน) ตัวอย่างของโครงการอาจให้ "ใช้การแปลงฟูริเยร์ที่รวดเร็วใน Fortran" (ฉันรู้ว่ามันไม่ฟังดูเซ็กซี่ แต่นั่นทำให้คำถามของฉันง่ายขึ้น) ฉันเป็นคนที่ถูกต้องและฉันต้องการส่งกิจวัตรเพื่อตรวจสอบว่ามีกลุ่มนักเรียนที่เสนอการใช้งานที่ "คล้ายกันมากเกินไปที่จะเขียนอย่างอิสระอย่างแท้จริง" นี่คือการค้นหากลุ่มที่ไม่มีการดูแล ฉันคิดว่าคำถามนี้เกี่ยวกับคุณลักษณะที่จะใช้มากกว่าอัลกอริทึมการจัดกลุ่มที่จะใช้ สิ่งแรกที่ฉันจะทำคือจดหมายโดยฮิสโทแกรมจดหมาย โดยหลักการแล้วเนื่องจากคนขี้โกงฉลาดกว่านั้นในที่สุดฉันก็ลองเลือกการเรียงสับเปลี่ยนแบบสุ่มเพื่อดูว่ามีฮิสโตแกรมของตัวอักษร (ที่มีการเรียงสับเปลี่ยน) อยู่หรือไม่ ยิ่งไปกว่านั้นผู้ที่ไม่สำรวจโครงสร้างของรหัสเฉพาะการกระจายตัวอักษรเพียงเล็กน้อย ... คุณมีทางออกอะไร มีซอฟต์แวร์หรือแพ็คเกจที่มีอยู่เฉพาะสำหรับปัญหานั้นหรือไม่ (อันที่จริงในสมัยก่อนครูวิทยาศาสตร์คอมพิวเตอร์อ้างว่าพวกเขามีเครื่องมือประเภทนั้น แต่ตอนนี้ฉันสงสัยว่าพวกเขามีอะไรที่ง่ายมาก) ฉันเดาว่าทนายความจากการพัฒนาซอฟต์แวร์มีปัญหาประเภทนั้นด้วย (ไม่ใช่กับนักเรียน 1,000 คน แต่ด้วยรหัสขนาดใหญ่ 2 รหัส ... ซึ่งทำให้สิ่งต่าง ๆ ยากขึ้น)?

3
การทำคลัสเตอร์แบบกระจาย
ฉันมีหลายดิสทริบิวชัน (10 ดิสทริบิวชั่นในรูปด้านล่าง) ในความเป็นจริงเหล่านี้คือฮิสโทแกรม: มี 70 ค่าในแกน x ซึ่งเป็นขนาดของอนุภาคบางอย่างในสารละลายและสำหรับแต่ละค่าของ x ค่าที่สอดคล้องกันของ y คือสัดส่วนของอนุภาคที่มีขนาดประมาณค่าของ x ฉันต้องการจัดกลุ่มการกระจายเหล่านี้ ขณะนี้ฉันใช้การจัดกลุ่มแบบลำดับชั้นกับระยะทางแบบยุคลิดเช่น ฉันไม่พอใจกับการเลือกระยะทาง ฉันได้ลองระยะทางข้อมูลเชิงทฤษฎีเช่น Kullback-Leibler แต่มีศูนย์อยู่ในข้อมูลจำนวนมากและสิ่งนี้ทำให้เกิดปัญหา คุณมีข้อเสนอระยะทางที่เหมาะสมและ / หรือวิธีการจัดกลุ่มอื่นหรือไม่
10 clustering 

3
จะจัดกลุ่มตัวแปรตามยาวได้อย่างไร
ฉันมีกลุ่มของตัวแปรที่มีข้อมูลตามยาวตั้งแต่วันที่ 0 ถึงวันที่ 7 ฉันกำลังมองหาวิธีการจัดกลุ่มที่เหมาะสมซึ่งสามารถจัดกลุ่มตัวแปรตามยาวเหล่านี้ (ไม่ใช่กรณี) ในกลุ่มต่าง ๆ ฉันพยายามวิเคราะห์ชุดข้อมูลแยกต่างหากตามเวลา แต่ผลลัพธ์นั้นค่อนข้างยากที่จะอธิบายอย่างสมเหตุสมผล ฉันตรวจสอบความพร้อมใช้งานของกระบวนการ SAS PROC SIMILARITYเนื่องจากมีตัวอย่างในเว็บไซต์ ; อย่างไรก็ตามฉันคิดว่ามันไม่ถูกวิธี การศึกษาก่อนหน้านี้บางส่วนใช้การวิเคราะห์ปัจจัยเชิงสำรวจในแต่ละช่วงเวลา แต่นี่ไม่ใช่ตัวเลือกในการศึกษาของฉันเช่นกันเนื่องจากผลลัพธ์ที่ไม่สมเหตุสมผล หวังว่าจะมีแนวคิดบางอย่างที่นี่และโปรแกรมที่คอมไพล์เช่น SAS หรือ R สามารถประมวลผลได้ ข้อเสนอแนะใด ๆ ที่ชื่นชม !! นี่คือตัวอย่างสั้น ๆ (ขออภัยสำหรับตำแหน่งที่ไม่สอดคล้องกันระหว่างข้อมูลและชื่อตัวแปร): id time V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 2 0 8 7 3 7 6 6 …
10 clustering 

2
ตรวจจับรูปแบบวงกลมในข้อมูลคลาวด์แบบจุด
สำหรับอัลกอริธึมการสร้างโวลุ่มใหม่บางตัวที่ฉันกำลังทำอยู่ฉันต้องตรวจจับจำนวนรูปแบบวงกลมตามอำเภอใจในข้อมูลจุดสามมิติ รูปแบบที่สามารถมุ่งเน้นในพื้นที่โดยพลการและสันนิษฐานว่าจะโกหก (แม้ว่าจะไม่สมบูรณ์) ในเครื่องบิน 2d บาง ๆ นี่คือตัวอย่างที่มีวงกลมสองวงในระนาบเดียวกัน (แม้ว่าจะจำได้ว่านี่คือพื้นที่ 3 มิติ): ฉันพยายามหลายวิธี .. วิธีที่ง่ายที่สุด (แต่วิธีที่ดีที่สุดจนถึงตอนนี้) คือการจัดกลุ่มตามชุดกราฟกราฟเพื่อนบ้านที่อยู่ใกล้ที่สุด วิธีนี้ใช้งานได้ดีพอสมควรเมื่อรูปแบบอยู่ห่างกัน แต่น้อยกว่าเมื่อใช้กับแวดวงอย่างในตัวอย่างให้ใกล้กันมาก ฉันลองใช้วิธี K แต่ไม่ได้ผลดี: ฉันคิดว่าการจัดจุดแบบวงกลมอาจไม่เหมาะสำหรับมัน นอกจากนี้ฉันมีปัญหาเพิ่มเติมที่ไม่ทราบล่วงหน้าถึงคุณค่าของเค ฉันลองวิธีที่ซับซ้อนมากขึ้นโดยใช้การตรวจจับรอบในกราฟเพื่อนบ้านที่ใกล้เคียงที่สุด แต่สิ่งที่ฉันได้รับคือความเปราะบางหรือมีราคาแพงมาก ฉันยังอ่านเกี่ยวกับหัวข้อที่เกี่ยวข้องจำนวนมาก (การแปลง Hough เป็นต้น) แต่ดูเหมือนว่าไม่มีสิ่งใดที่จะนำไปใช้ได้อย่างสมบูรณ์แบบในบริบทเฉพาะนี้ ความคิดหรือแรงบันดาลใจใด ๆ ที่จะได้รับการชื่นชม

1
การใช้แพคเกจสถิติใน R สำหรับการจัดกลุ่ม kmeans
ฉันมีปัญหาในการทำความเข้าใจกับแพคเกจคลัสเตอร์หนึ่งหรือสองด้าน ฉันกำลังติดตามตัวอย่างจากQuick-Rอย่างใกล้ชิด แต่ไม่เข้าใจการวิเคราะห์หนึ่งหรือสองอย่าง ฉันได้รวมรหัสที่ฉันใช้สำหรับตัวอย่างนี้โดยเฉพาะ ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925, 1549.524107, 936.42856, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 131.4349206, 0, 762.6110846, 3837.850406), b = c(19578.64174, 2233.308842, 4714.514274, 0, 2760.510002, 1225.392118, 3706.428246, 2693.353714, 2674.126613, 592.7384164, 1820.976961, 1318.654162, 1075.854792, 1211.248996, 1851.363623, …
10 r  clustering 

1
การวิเคราะห์กลุ่มตามด้วยการวิเคราะห์จำแนก
เหตุผลถ้ามีการใช้การวิเคราะห์การจำแนก (DA) ในผลลัพธ์ของอัลกอริทึมการจัดกลุ่มเช่น k- หมายถึงเท่าที่ฉันเห็นมันเป็นครั้งคราวในวรรณคดี โดยทั่วไปจะไม่แนะนำให้ทดสอบความแตกต่างของกลุ่มในตัวแปรที่ใช้ในระหว่างการสร้างคลัสเตอร์เนื่องจากพวกเขาสนับสนุนการขยายใหญ่สุด (resp. minimization) ระหว่างคลาส (resp. ภายในคลาส) ความเฉื่อย ดังนั้นฉันไม่แน่ใจว่าจะชื่นชมคุณค่าที่เพิ่มขึ้นของ DA ที่คาดการณ์ได้อย่างเต็มที่เว้นแต่เราจะพยายามฝังบุคคลในพื้นที่แฟคทอเรียลในมิติที่ต่ำกว่าและรับแนวคิด "generalizability" ของพาร์ติชันดังกล่าว แต่แม้ในกรณีนี้การวิเคราะห์กลุ่มยังคงเป็นเครื่องมือพื้นฐานดังนั้นการใช้ความเป็นสมาชิกในชั้นเรียนคำนวณด้วยวิธีนี้เพื่อให้ได้กฎการให้คะแนนที่ดูแปลก ๆ ตั้งแต่แรกเห็น คำแนะนำแนวคิดหรือพอยน์เตอร์ไปยังเอกสารที่เกี่ยวข้อง?

1
K- หมายถึง: มีการทำซ้ำหลายครั้งในสถานการณ์จริง
ฉันไม่ได้มีประสบการณ์ในอุตสาหกรรมในการขุดข้อมูลหรือข้อมูลขนาดใหญ่ดังนั้นชอบที่จะได้ยินคุณแบ่งปันประสบการณ์ ผู้คนใช้งาน k-mean, PAM, CLARA และอื่น ๆ ในชุดข้อมูลขนาดใหญ่จริง ๆ หรือไม่? หรือพวกมันสุ่มเลือกตัวอย่างจากมัน? หากพวกเขาใช้ตัวอย่างของชุดข้อมูลผลลัพธ์จะน่าเชื่อถือหากชุดข้อมูลนั้นไม่ได้รับการกระจายตามปกติ ในสถานการณ์จริงเมื่อรันอัลกอริทึมเหล่านี้เราสามารถบอกได้ไหมว่าจะต้องทำซ้ำหลายครั้งจนกว่าจะเกิดการบรรจบกัน? หรือจำนวนการวนซ้ำมักเพิ่มขึ้นตามขนาดข้อมูลหรือไม่ ฉันถามสิ่งนี้เพราะฉันคิดว่าการพัฒนาวิธีการที่จะยุติอัลกอริทึมซ้ำก่อนการบรรจบกัน แต่ผลลัพธ์ยังคงเป็นที่ยอมรับ ฉันคิดว่ามันคุ้มค่าที่จะลองถ้าจำนวนการวนซ้ำพูดมากกว่า 1,000 ครั้งเพื่อให้เราสามารถประหยัดต้นทุนและเวลาในการคำนวณได้ คุณคิดอย่างไร?

2
ดัชนีแรนด์ที่ปรับเทียบกับข้อมูลซึ่งกันและกันที่ปรับแล้ว
ฉันพยายามประเมินประสิทธิภาพการจัดกลุ่ม ผมอ่านเอกสาร skiscit เรียนรู้เกี่ยวกับตัวชี้วัด ฉันไม่เข้าใจความแตกต่างระหว่าง ARI และ AMI สำหรับฉันดูเหมือนว่าพวกเขาทำสิ่งเดียวกันในสองวิธีที่แตกต่างกัน อ้างจากเอกสารประกอบ: เมื่อได้รับความรู้เกี่ยวกับการกำหนดคลาสความจริงพื้นดิน label_true และการจัดกลุ่มอัลกอริทึมการจัดกลุ่มตัวอย่างเดียวกัน label_pred ดัชนีแรนด์ที่ปรับปรุงแล้วนั้นเป็นฟังก์ชันที่ใช้วัดความคล้ายคลึงกันของการมอบหมายสองอย่างโดยไม่สนใจการเปลี่ยนลำดับ VS เมื่อได้รับความรู้เกี่ยวกับการมอบหมายคลาสความจริงภาคพื้นดิน label_true และการจัดกลุ่มอัลกอริทึมการจัดกลุ่มตัวอย่างเดียวกัน label_pred ของเราข้อมูลร่วมกันเป็นฟังก์ชั่นที่วัดข้อตกลงของการมอบหมายทั้งสองโดยไม่สนใจการเปลี่ยนลำดับ ... AMI โอกาส. ฉันควรใช้ทั้งสองอย่างในการประเมินการจัดกลุ่มของฉันหรือสิ่งนี้ซ้ำซ้อนหรือไม่

2
ความแตกต่างระหว่าง PCA และการจัดกลุ่มสเปกตรัมสำหรับชุดตัวอย่างขนาดเล็กของคุณลักษณะบูลีน
ฉันมีชุดข้อมูลจำนวน 50 ตัวอย่าง แต่ละตัวอย่างประกอบด้วยคุณลักษณะบูลีน 11 (อาจมีความสัมพันธ์) ฉันต้องการที่จะเห็นภาพตัวอย่างเหล่านี้ในพล็อต 2D และตรวจสอบว่ามีกลุ่ม / กลุ่มใน 50 ตัวอย่างหรือไม่ ฉันได้ลองสองวิธีต่อไปนี้: (a) เรียกใช้ PCA บนเมทริกซ์ 50x11 และเลือกสององค์ประกอบหลักแรก ฉายข้อมูลลงบนพล็อต 2 มิติและรัน K-mean อย่างง่ายเพื่อระบุกลุ่ม (b) สร้างเมทริกซ์ความคล้ายคลึงกัน 50x50 (โคไซน์) เรียกใช้การจัดกลุ่มสเปกตรัมเพื่อลดมิติตามด้วย K-mean อีกครั้ง อะไรคือแนวคิดที่แตกต่างระหว่างการทำ PCA โดยตรงกับการใช้ค่าลักษณะเฉพาะของเมทริกซ์ความเหมือนกัน? ดีกว่าอีกไหม? นอกจากนี้ยังมีวิธีที่ดีกว่าในการแสดงภาพข้อมูลในแบบ 2D หรือไม่? เนื่องจากขนาดตัวอย่างของฉันถูก จำกัด ไว้ที่ 50 เสมอและชุดคุณลักษณะของฉันอยู่ในช่วง 10-15 เสมอฉันยินดีที่จะลองใช้วิธีการต่างๆแบบทันทีและเลือกที่ดีที่สุด คำถามที่เกี่ยวข้อง: การ จัดกลุ่มตัวอย่างโดยการทำคลัสเตอร์หรือ PCA

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
การใช้การอนุมานสุ่มสโทคาสต์กับ Bayesian Mixture of Gaussian
ฉันกำลังพยายามใช้โมเดล Gaussian Mixture ด้วยการอนุมานแปรปรวนแบบสุ่มต่อจากบทความนี้ นี่คือ pgm ของส่วนผสมแบบเกาส์เซียน ตามที่กระดาษ, อัลกอริทึมเต็มรูปแบบของการอนุมานสุ่มแปรผันคือ: และฉันยังคงสับสนอย่างมากเกี่ยวกับวิธีการขยายสู่ GMM ก่อนอื่นฉันคิดว่าพารามิเตอร์ความแปรปรวนในท้องถิ่นเป็นเพียงและอื่น ๆ เป็นพารามิเตอร์ระดับโลกทั้งหมด โปรดแก้ไขฉันหากฉันผิด ขั้นตอนที่ 6 หมายถึงอะไร ฉันควรทำอย่างไรเพื่อให้บรรลุเป้าหมายนี้QZqzq_zas though Xi is replicated by N times คุณช่วยฉันด้วยเรื่องนี้ได้ไหม ขอบคุณล่วงหน้า!

2
การเลือกคุณสมบัติสำหรับปัญหาการทำคลัสเตอร์
ฉันกำลังพยายามจัดกลุ่มชุดข้อมูลที่แตกต่างกันโดยใช้อัลกอริทึมที่ไม่ได้รับการสำรอง (การจัดกลุ่ม) ปัญหาคือฉันมีคุณสมบัติหลายอย่าง (~ 500) และจำนวนคดีเล็กน้อย (200-300) จนถึงตอนนี้ฉันเคยทำเฉพาะปัญหาการจำแนกซึ่งฉันมักจะมีข้อมูลที่ระบุว่าเป็นชุดฝึกอบรม ที่นั่นฉันใช้เกณฑ์บางอย่าง (เช่น random.forest.importance หรือ information.gain) สำหรับการเลือกคุณสมบัติล่วงหน้าจากนั้นฉันใช้การเลือกไปข้างหน้าตามลำดับสำหรับผู้เรียนที่แตกต่างกันเพื่อค้นหาคุณลักษณะที่เกี่ยวข้อง ตอนนี้ฉันเห็นว่าในกรณีของการเรียนรู้ที่ไม่มีผู้ดูแลฉันไม่มีเกณฑ์สำหรับการเลือกล่วงหน้าและฉันไม่สามารถใช้การเลือกไปข้างหน้าตามลำดับ (อย่างน้อยไม่ได้อยู่ในแพ็คเกจ MLR) ฉันสงสัยว่าฉันสามารถทำการวิเคราะห์องค์ประกอบหลักก่อนที่จะค้นหาคุณลักษณะจำนวนเล็กน้อยเพื่อนำไปใช้กับอัลกอริทึมการจัดกลุ่มของฉันหรือไม่ หรือคุณมีความคิดอื่น ๆ ขอบคุณ แก้ไข: ตกลงดังนั้นหลังจากการวิจัยออนไลน์ฉันสามารถอัปเดตคำถามของฉันได้นิดหน่อย: ก่อนอื่นฉันได้อ่านบางบทความที่ไม่สนับสนุนการใช้ PCA ก่อนอัลกอริทึมการจัดกลุ่มเนื่องจากเหตุผลสองประการ: พีซีเป็นฟังก์ชั่นของฟีเจอร์ทั้งหมดดังนั้นจึงยากที่จะสัมพันธ์กับผลลัพธ์ของชุดข้อมูล inital และทำให้ยากต่อการตีความ ยิ่งไปกว่านั้นถ้าคุณมีปัญหาที่จริงแล้วคุณสมบัติเพียงเล็กน้อยของคุณมีประโยชน์ในการทำคลัสเตอร์ก็ไม่ได้กล่าวว่าคุณสมบัติเหล่านี้ยังอธิบายถึงความแปรปรวนที่ใหญ่ที่สุดในกลุ่มตัวอย่าง (ซึ่งเป็นสิ่งที่พีซีทำ) PCA อยู่นอกโต๊ะ ... ตอนนี้ฉันกลับไปที่แนวคิดเริ่มต้นของฉันเพื่อทำการเลือกการส่งต่อตามลำดับสำหรับการทำคลัสเตอร์ คุณต้องการแนะนำการวัดประสิทธิภาพแบบใด? (ฉันคิดเกี่ยวกับ Dunn-Index) อัลกอริทึมการจัดกลุ่มใดที่จะนำไปสู่กลุ่มที่มีขนาดเท่ากันหรือมากกว่า (สำหรับการจัดกลุ่มแบบลำดับชั้นฉันมักจะได้รับหนึ่งคลัสเตอร์ที่มีค่าผิดปกติเดียวและอีกส่วนที่เหลือทั้งหมด -> ดังนั้นฉันจะต้องการบางสิ่งที่ป้องกันอย่างใดต่อผู้ผิด) หวังว่าพวกคุณจะช่วยฉัน ...

2
วิธีหาน้ำหนักสำหรับมาตรการที่ไม่คุ้นเคย
ฉันต้องการเรียนรู้คุณลักษณะน้ำหนัก (อนุมาน) สำหรับการวัดความแตกต่างของฉันที่ฉันสามารถใช้สำหรับการจัดกลุ่ม ฉันมีตัวอย่างของคู่ของวัตถุที่ "คล้ายกัน" (ควรอยู่ในกลุ่มเดียวกัน) รวมถึงตัวอย่างบางส่วนของคู่ของวัตถุที่ "ไม่เหมือนกัน" (ไม่ควรเหมือนกัน อยู่ในกลุ่มเดียวกัน) แต่ละวัตถุมีจำนวนคุณลักษณะ: ถ้าคุณต้องการเราสามารถคิดว่าแต่ละวัตถุเป็นเวกเตอร์ -dimensional ของคุณลักษณะโดยที่แต่ละคุณลักษณะนั้นเป็นจำนวนเต็มไม่เป็นลบ มีเทคนิคในการใช้ตัวอย่างของวัตถุที่คล้ายกัน / แตกต่างกันเพื่อประเมินจากน้ำหนักคุณลักษณะที่เหมาะสมที่สุดสำหรับการวัดที่แตกต่างกันหรือไม่?(aผม,ขผม)(ai,bi)(a_i,b_i)(คผม,dผม)(ci,di)(c_i,d_i)ddd ถ้ามันช่วยได้ในแอปพลิเคชันของฉันมันอาจจะสมเหตุสมผลที่จะมุ่งเน้นไปที่การเรียนรู้การวัดที่แตกต่างซึ่งเป็นมาตรฐาน L2 แบบถ่วงน้ำหนัก d( x , y) =ΣJαJ( x [ j ] - y[ j ])2.d(x,y)=∑jαj(x[j]−y[j])2.d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2. ที่ไม่รู้จักน้ำหนักและควรเรียนรู้ (หรือการวัดความคล้ายคลึงโคไซน์แบบถ่วงน้ำหนักบางชนิดก็มีเหตุผลเช่นกัน) มีอัลกอริทึมที่ดีในการเรียนรู้น้ำหนักสำหรับการวัดเช่นนี้หรือไม่ หรือมีวิธีอื่นในการเรียนรู้วิธีวัดความเหมือน / ความแตกต่างที่ฉันควรพิจารณาαJαj\alpha_jαJαj\alpha_j จำนวนมิติมีขนาดใหญ่มาก (เป็นพันหรือสูงกว่านั้นมาจากคุณสมบัติถุงคำ) อย่างไรก็ตามฉันมีตัวอย่างเป็นหมื่น ๆ ตัวอย่าง …

2
กราฟ“ United States of Reddit” นี้ถูกสร้างขึ้นอย่างไร
ด้านล่างเป็นกราฟจาก p 202 ของDataclysmของ Christian Rudder ถึงแม้ว่า James Dowdell จะสร้างขึ้นมาก็ตาม มันแสดงให้เห็นถึงความสัมพันธ์ระหว่างเว็บไซต์ย่อย 200 อันดับแรกซึ่งเป็นพื้นที่ที่น่าสนใจบนreddit.comซึ่งผู้ใช้สามารถส่งลิงค์ความคิดเห็นและคะแนนโหวต สิ่งเหล่านี้คล้ายกับแท็กในไซต์นี้ ขนาดของภูมิภาค subreddit แสดงถึงความนิยม subreddits ถูกจัดกลุ่มโดยการแสดงความคิดเห็นข้ามและโทนสีเข้มแสดงถึงเปอร์เซ็นต์ของคนที่อยู่ใน subreddit นั้นและไม่โพสต์ถึงผู้อื่น นี่เป็นเพียงการแบ่งพาร์ติชัน Voronoi มาตรฐานที่มีการระบายสีเพื่อความโดดเดี่ยวหรือมีส่วนเกี่ยวข้องมากกว่านี้หรือไม่? เราจะทำสิ่งเหล่านี้ได้อย่างไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.