คำถามติดแท็ก clustering

การวิเคราะห์กลุ่มเป็นหน้าที่ของการแบ่งข้อมูลออกเป็นส่วนย่อยของวัตถุตาม "ความคล้ายคลึงกัน" ซึ่งกันและกันโดยไม่ใช้ความรู้ที่มีมาก่อนเช่นป้ายชื่อชั้นเรียน [ข้อผิดพลาดมาตรฐานและ / หรือกลุ่มตัวอย่างควรติดแท็กเช่น; อย่าใช้แท็ก "การจัดกลุ่ม" สำหรับพวกเขา]

1
การเลือกรูปแบบ Mclust
แพ็คเกจ R mclustใช้ BIC เป็นเกณฑ์สำหรับการเลือกรูปแบบคลัสเตอร์ จากความเข้าใจของฉันควรเลือกรุ่นที่มี BIC ต่ำที่สุดเหนือรุ่นอื่น ๆ (ถ้าคุณสนใจเฉพาะ BIC เท่านั้น) อย่างไรก็ตามเมื่อค่า BIC เป็นลบทั้งหมดMclustฟังก์ชันจะใช้ค่าเริ่มต้นเป็นแบบจำลองที่มีค่า BIC สูงสุด เข้าใจโดยรวมของฉันจากการทดลองต่างๆที่mclustระบุ "ดีที่สุด" รุ่นที่เป็นผู้ที่มี\}max{BICi}max{BICi}max\{BIC_i\} ฉันพยายามที่จะเข้าใจว่าทำไมผู้เขียนตัดสินใจนี้ มันแสดงให้เห็นในเว็บไซต์ CRAN: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html นอกจากนี้ผู้เขียนของmclustบรรจุภัณฑ์ยังจดบันทึกสิ่งนี้ไว้ในวิธีการจำแนกประเภทแบบจำลองโดยใช้กระดาษ: การใช้ซอฟต์แวร์ mclust ในเคมีประยุกต์ในหน้า 5 โมเดล 'ที่ดีที่สุด' นั้นถูกนำมาใช้เป็นรุ่นที่มี BIC สูงที่สุดในบรรดารุ่นที่ติดตั้งไว้ ทุกคนสามารถเปล่งแสงในปัญหานี้ได้หรือไม่? ถ้า BIC ที่ต่ำกว่าดีกว่าอยู่เสมอทำไมผู้เขียนถึงไม่เลือกรุ่นที่มี BIC ต่ำสุด แต่แทนที่จะเป็นรุ่นที่มี BIC ที่เล็กที่สุด? ถ้าเป็นไปได้ให้อ้างอิง

1
การชี้แจงความคาดหวังสูงสุด
ผมพบว่าการกวดวิชาที่เป็นประโยชน์มากเกี่ยวกับอัลกอริทึม EM ตัวอย่างและรูปภาพจากบทช่วยสอนนั้นยอดเยี่ยมมาก คำถามที่เกี่ยวข้องเกี่ยวกับการคำนวณความน่าจะเป็นการเพิ่มความคาดหวังทำงานอย่างไร ฉันมีคำถามอื่นเกี่ยวกับวิธีการเชื่อมต่อทฤษฎีที่อธิบายในบทช่วยสอนกับตัวอย่าง gtgtg_tlogP(x;Θ)log⁡P(x;Θ)\log P(x;\Theta)gt(Θ^(t))=logP(x;Θ^(t))gt(Θ^(t))=log⁡P(x;Θ^(t))g_t( \hat{\Theta}^{(t)}) = \log P(x; \hat{\Theta}^{(t)}) gtgtg_t Θ^(0)A=0.6Θ^A(0)=0.6\hat{\Theta}_A^{(0)} = 0.6Θ^(0)B=0.5Θ^B(0)=0.5\hat{\Theta}_B^{(0)} = 0.5Θ^(1)A=0.71Θ^A(1)=0.71\hat{\Theta}_A^{(1)} = 0.71Θ^(1)B=0.58Θ^B(1)=0.58\hat{\Theta}_B^{(1)} = 0.58Θ^(0)Θ^(0)\hat{\Theta}^{(0)}Θ^(1)Θ^(1)\hat{\Theta}^{(1)} Q(z)Q(z)Q(z)Q(z)=P(z|x;Θ)Q(z)=P(z|x;Θ)Q(z)=P(z|x;\Theta) ขอบคุณ.

3
โมดูลาร์เครือข่ายของนิวแมนใช้งานได้กับกราฟน้ำหนักที่ลงนามแล้วหรือไม่?
ต้นแบบของกราฟถูกกำหนดไว้ในตัวหน้าวิกิพีเดีย ในการโพสต์ที่แตกต่างกันบางคนอธิบายว่า modularity สามารถคำนวณได้ง่าย (และขยายใหญ่สุด) สำหรับเครือข่ายที่มีน้ำหนักเนื่องจากเมทริกซ์ adjacencyสามารถมีความสัมพันธ์ที่มีคุณค่า อย่างไรก็ตามฉันต้องการทราบว่าสิ่งนี้จะใช้ได้กับขอบที่มีการเซ็นชื่อและมีค่าเช่นตั้งแต่ -10 ถึง +10 คุณสามารถให้สัญชาติญาณพิสูจน์หรืออ้างอิงถึงปัญหานี้ได้หรือไม่?AฉันเจAijA_{ij}

1
สัญชาตญาณของการแปรผันของข้อมูล (VI) สำหรับการตรวจสอบความถูกต้องของคลัสเตอร์คืออะไร
สำหรับนักสถิติที่ไม่ใช่ฉันมันยากมากที่จะจับความคิดของVIตัวชี้วัด (การเปลี่ยนแปลงของข้อมูล) แม้หลังจากอ่านบทความที่เกี่ยวข้องโดย Marina Melia "การเปรียบเทียบการจัดกลุ่ม - ระยะทางตามข้อมูล " (วารสารการวิเคราะห์หลายตัวแปร 2007) ในความเป็นจริงฉันไม่คุ้นเคยกับคำศัพท์หลาย ๆ ด้านล่างคือ MWE และฉันต้องการทราบว่าผลลัพธ์หมายถึงอะไรในการวัดต่างๆที่ใช้ ฉันมีสองกลุ่มนี้ใน R และใน ID เดียวกัน: > dput(a) structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, …

2
ระยะทางระหว่างตัวแปรที่ทำเมทริกซ์ความแปรปรวนร่วมคืออะไร
ฉันมีเมทริกซ์ความแปรปรวนร่วมและต้องการแบ่งพาร์ติชันตัวแปรเป็นกลุ่มโดยใช้การจัดกลุ่มแบบลำดับชั้น (ตัวอย่างเช่นเพื่อเรียงลำดับเมทริกซ์ความแปรปรวนร่วม)n×nn×nn \times nkkk มีฟังก์ชั่นระยะทางทั่วไประหว่างตัวแปร (เช่นระหว่างคอลัมน์ / แถวของเมทริกซ์ความแปรปรวนร่วมสี่เหลี่ยม) หรือไม่ หรือถ้ามีมากขึ้นมีการอ้างอิงที่ดีในหัวข้อ?

2
วิธีการค้นหาการจัดกลุ่ม (วิถี) ในข้อมูลระยะยาว?
บริบท ฉันต้องการตั้งฉากก่อนที่จะขยายคำถาม ฉันมีข้อมูลตามยาวการวัดผลของอาสาสมัครทุก ๆ 3 เดือนผลลัพธ์หลักคือตัวเลข (อย่างต่อเนื่องถึง 1dp) ในช่วง 5 ถึง 14 โดยมีค่าเป็นกลุ่ม (ของจุดข้อมูลทั้งหมด) อยู่ระหว่าง 7 และ 10 ถ้าฉันทำ พล็อตสปาเก็ตตี้ (อายุบนแกน x และเส้นสำหรับแต่ละคน) เห็นได้ชัดว่ามันยุ่งเหยิงอย่างมากเมื่อฉันมีอาสาสมัครมากกว่า 1,500 คน แต่มีความชัดเจนในการก้าวไปสู่ค่าที่สูงขึ้นเมื่ออายุเพิ่มขึ้น คำถามที่กว้างกว่า:สิ่งที่เราต้องการจะทำคือการระบุกลุ่มที่มีแนวโน้ม (กลุ่มที่เริ่มต้นสูงและอยู่สูงกลุ่มที่เริ่มต่ำและอยู่ต่ำผู้ที่เริ่มต่ำและเพิ่มขึ้นสูง ฯลฯ ) จากนั้นเราสามารถ ดูปัจจัยส่วนบุคคลที่เกี่ยวข้องกับการเป็นสมาชิก 'กลุ่มแนวโน้ม' คำถามของฉันที่นี่เกี่ยวข้องกับส่วนแรกโดยเฉพาะการจัดกลุ่มตามแนวโน้ม คำถาม เราจะจัดกลุ่มวิถียาวของบุคคลได้อย่างไร ซอฟต์แวร์ใดที่เหมาะสำหรับการนำไปใช้งานนี้ ฉันได้ดู Proc Traj ใน SAS และ M-Plus ที่เพื่อนร่วมงานแนะนำซึ่งฉันกำลังดูอยู่ แต่ต้องการทราบว่าคนอื่นคิดอย่างไรกับเรื่องนี้

4
มีกรณีที่ไม่มี k ที่ดีที่สุดใน k-mean
สิ่งนี้อยู่ในใจฉันอย่างน้อยสองสามชั่วโมง ฉันพยายามหา k ที่เหมาะสมที่สุดสำหรับผลลัพธ์จากอัลกอริธึม k (หมายถึงความคล้ายคลึงกันโคไซน์ ) ดังนั้นฉันจึงวางแผนการบิดเบือนเป็นฟังก์ชันของจำนวนกลุ่ม ชุดข้อมูลของฉันคือชุดเอกสาร 800 ชุดในพื้นที่ 600 มิติ จากสิ่งที่ฉันเข้าใจการหาจุดหัวเข่าหรือจุดศอกบนเส้นโค้งนี้ควรบอกฉันอย่างน้อยประมาณจำนวนของกลุ่มที่ฉันต้องใส่ข้อมูลของฉัน ฉันใส่กราฟด้านล่าง จุดที่ได้รับเส้นแนวตั้งสีแดงนั้นได้มาจากการทดสอบอนุพันธ์อันดับสองสูงสุด หลังจากทำทั้งหมดนี้ฉันติดอยู่กับสิ่งที่ง่ายกว่ามาก: กราฟนี้บอกอะไรฉันเกี่ยวกับชุดข้อมูล มันบอกฉันไหมว่ามันไม่คุ้มกับการรวมกลุ่มและเอกสารของฉันขาดโครงสร้างหรือว่าฉันต้องตั้งค่า k ที่สูงมาก? สิ่งหนึ่งที่แปลกคือแม้ว่าจะมีค่า k ต่ำฉันก็เห็นเอกสารที่คล้ายกันรวมกันเป็นกลุ่มดังนั้นฉันจึงไม่แน่ใจว่าทำไมฉันถึงได้รับเส้นโค้งนี้ ความคิดใด ๆ

5
การจัดกลุ่ม SOM สำหรับตัวแปรระบุ / แบบวงกลม
เพียงแค่สงสัยว่าถ้าใครคุ้นเคยกับการจัดกลุ่มข้อมูลเข้าเล็กน้อย ฉันได้ดู SOM เป็นวิธีแก้ปัญหา แต่เห็นได้ชัดว่ามันทำงานได้เฉพาะกับคุณลักษณะตัวเลข มีส่วนขยายใด ๆ สำหรับคุณสมบัติหมวดหมู่หรือไม่ โดยเฉพาะฉันสงสัยเกี่ยวกับ 'Days of the Week' เป็นคุณลักษณะที่เป็นไปได้ แน่นอนว่ามันเป็นไปได้ที่จะแปลงให้เป็นคุณลักษณะเชิงตัวเลข (เช่นจันทร์ - อาทิตย์สอดคล้องกับเลข 1-7) อย่างไรก็ตามจากนั้นระยะทางแบบยุคลิดระหว่างดวงอาทิตย์และจันทร์ (1 และ 7) จะไม่เหมือนกับระยะทางจากจันทร์ถึงอังคาร (1 & 2) ) ข้อเสนอแนะหรือความคิดใด ๆ ที่จะได้รับการชื่นชมมาก

2
การแสดงข้อมูลหลายมิติ (LSI) ใน 2D
ฉันใช้การจัดทำดัชนีความหมายแฝงเพื่อค้นหาความคล้ายคลึงกันระหว่างเอกสาร ( ขอบคุณ JMS! ) หลังจากการลดขนาดฉันได้ลอง k-หมายถึงการจัดกลุ่มเพื่อจัดกลุ่มเอกสารเป็นกลุ่มซึ่งทำงานได้ดีมาก แต่ฉันอยากจะไปอีกหน่อยและมองภาพเอกสารเป็นชุดของโหนดโดยที่ระยะห่างระหว่างสองโหนดนั้นแปรผกผันกับความคล้ายคลึงกัน (โหนดที่มีความคล้ายคลึงกันมากอยู่ใกล้กัน) มันทำให้ฉันไม่สามารถลดเมทริกซ์ความคล้ายคลึงกันให้เป็นกราฟ 2 มิติได้อย่างแม่นยำเนื่องจากข้อมูลของฉันคือ> 2 มิติ ดังนั้นคำถามแรกของฉัน: มีวิธีมาตรฐานในการทำเช่นนี้? ฉันสามารถลดข้อมูลของฉันให้เหลือสองมิติจากนั้นจึงแปลงเป็นแกน X และ Y และนั่นจะเพียงพอสำหรับกลุ่มของเอกสาร ~ 100-200 หรือไม่ หากนี่เป็นวิธีแก้ปัญหาจะดีกว่าหรือไม่ที่จะลดข้อมูลของฉันลงเป็น 2 มิติจากจุดเริ่มต้นหรือมีวิธีการเลือกสองมิติที่ "ดีที่สุด" จากข้อมูลหลายมิติของฉันหรือไม่ ฉันใช้ Python และไลบรารี gensim หากนั่นสร้างความแตกต่าง

3
วิธีการเตรียมใช้งาน K-หมายถึงการจัดกลุ่ม
ฉันสนใจในสถานะปัจจุบันของศิลปะสำหรับการเลือกเมล็ดเริ่มต้น (ศูนย์คลัสเตอร์) สำหรับ K-mean Googling นำไปสู่สองตัวเลือกยอดนิยม: การสุ่มเลือกเมล็ดเริ่มต้นและ การใช้เทคนิคการเลือก KMeans ++: Arthur & Vassilvitskii 2006 k-หมายถึง ++: ข้อดีของการเพาะอย่างระมัดระวัง มีวิธีการที่มีแนวโน้มอื่น ๆ ที่ทุกคนที่นี่รู้หรือไม่ซึ่งอาจไม่เป็นที่นิยม?

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
อัลกอริทึมใดที่ฉันควรใช้เพื่อจัดกลุ่มชุดข้อมูลไบนารีขนาดใหญ่เป็นไม่กี่หมวดหมู่
ฉันมีเมทริกซ์ขนาดใหญ่ (650K แถว * 62 คอลัมน์) ของข้อมูลไบนารี (รายการ 0-1 เท่านั้น) เมทริกซ์ส่วนใหญ่จะกระจัดกระจาย: เติมประมาณ 8% ฉันต้องการจัดกลุ่มเป็น 5 กลุ่ม - พูดชื่อตั้งแต่ 1 ถึง 5 ฉันได้ลองจัดกลุ่มแบบลำดับชั้นและไม่สามารถจัดการขนาดได้ ฉันยังใช้อัลกอริทึมการจัดกลุ่ม k - หมายถึงการคำนวณระยะทางด้วยการคำนึงถึงเวกเตอร์บิต 650K ที่มีความยาว 62 ฉันไม่ได้ผลลัพธ์ที่เหมาะสมกับสิ่งเหล่านี้ กรุณาช่วย.

3
ระยะทางระหว่างสองแบบเกาส์นผสมเพื่อประเมินโซลูชันคลัสเตอร์
ฉันใช้การจำลองอย่างรวดเร็วเพื่อเปรียบเทียบวิธีการจัดกลุ่มที่แตกต่างกันและในปัจจุบันมีอุปสรรคพยายามประเมินโซลูชั่นคลัสเตอร์ ฉันรู้เกี่ยวกับการตรวจสอบความถูกต้องหลายอย่าง (จำนวนมากที่พบในcluster.stats ()ใน R) แต่ฉันคิดว่าสิ่งเหล่านี้จะถูกใช้ดีที่สุดถ้าจำนวนกลุ่มโดยประมาณจริงเท่ากับจำนวนจริงของกลุ่ม ฉันต้องการรักษาความสามารถในการวัดประสิทธิภาพของวิธีการแก้ปัญหาการจัดกลุ่มเมื่อไม่ได้ระบุจำนวนที่ถูกต้องของกลุ่มในการจำลองแบบดั้งเดิม (เช่นการจำลองข้อมูลวิธีการแก้ปัญหาของกลุ่มที่สามที่จำลองเป็น 4 กลุ่ม สารละลาย). สำหรับข้อมูลของคุณกลุ่มจะถูกจำลองเพื่อให้มีเมทริกซ์ความแปรปรวนร่วมเหมือนกัน ฉันคิดว่า KL แตกต่างระหว่างสองส่วนผสมของ Gaussians จะเป็นประโยชน์ในการใช้ แต่ไม่มีวิธีแก้ปัญหาแบบปิด ( Hershey และ Olson (2007) ) และการใช้แบบจำลอง Monte Carlo เริ่มมีราคาแพง มีวิธีแก้ไขปัญหาอื่น ๆ ที่อาจใช้งานง่าย (แม้ว่าจะเป็นเพียงการประมาณ)?

2
วิธีการ 'เก็บข้อมูลที่เรียงลำดับอย่างชาญฉลาด' อย่างชาญฉลาด
ฉันกำลังพยายามที่จะจัดเก็บคอลเลกชันที่เรียงอย่างชาญฉลาด ฉันมีชุดข้อมูลจำนวนชิ้น แต่ฉันรู้ว่านี้เหมาะกับข้อมูลลงในขนาดถังขยะไม่มีที่เปรียบ ฉันไม่รู้วิธีเลือกจุดสิ้นสุดอย่างชาญฉลาดเพื่อให้พอดีกับข้อมูล ตัวอย่างเช่น:nnnม.ม.m ว่าฉันมี 12 รายการในคอลเลกชันของฉันและฉันรู้ว่าข้อมูลจะพอดีกับ 3 ถังขยะ: Index: 1 2 3 4 5 6 7 8 9 10 11 12 Value: 1 1 1 3 3 3 3 3 3 5 5 6 ฉันจะเลือกเบรกพอยต์อย่างชาญฉลาดสำหรับช่องเก็บของอย่างไรi = { 1 - 3 } , { 4 - 9 } , …

5
การทำคลัสเตอร์เป็นวิธีการแยกข้อมูลสำหรับการถดถอยโลจิสติก
ฉันพยายามที่จะทำนายความสำเร็จหรือความล้มเหลวของนักเรียนตามคุณลักษณะบางอย่างที่มีรูปแบบการถดถอยโลจิสติก เพื่อปรับปรุงประสิทธิภาพของแบบจำลองฉันได้คิดถึงการแบ่งนักเรียนออกเป็นกลุ่มต่าง ๆ โดยพิจารณาจากความแตกต่างที่ชัดเจนและการสร้างแบบจำลองแยกกันสำหรับแต่ละกลุ่ม แต่ฉันคิดว่ามันอาจเป็นเรื่องยากที่จะระบุกลุ่มเหล่านี้โดยการสอบดังนั้นฉันจึงคิดว่าจะแยกนักเรียนออกเป็นกลุ่มโดยการรวมกลุ่มกับคุณลักษณะของพวกเขา นี่เป็นวิธีปฏิบัติทั่วไปในการสร้างแบบจำลองดังกล่าวหรือไม่? คุณจะแนะนำให้ฉันแบ่งมันออกเป็นกลุ่มชัดเจน (ตัวอย่างเช่นนักเรียนภาคเรียนแรกกับนักเรียนที่กลับมา) จากนั้นทำการจัดกลุ่มในกลุ่มเหล่านั้นหรือกลุ่มจากจุดเริ่มต้น หากต้องการพยายามชี้แจง: สิ่งที่ฉันหมายถึงคือฉันกำลังพิจารณาใช้อัลกอริทึมการจัดกลุ่มเพื่อแยกชุดฝึกอบรมสำหรับการถดถอยโลจิสติกออกเป็นกลุ่ม จากนั้นฉันจะทำการแยกการถดถอยแบบโลจิสติกส์สำหรับแต่ละกลุ่มเหล่านั้น จากนั้นเมื่อใช้การถดถอยโลจิสติกในการทำนายผลลัพธ์สำหรับนักเรียนฉันจะเลือกรูปแบบที่จะใช้ขึ้นอยู่กับกลุ่มที่พวกเขาเหมาะสมที่สุด บางทีฉันอาจทำสิ่งเดียวกันโดยรวมตัวระบุกลุ่มตัวอย่างเช่น 1 ถ้านักเรียนกลับมาและเป็น 0 ถ้าไม่ใช่ ตอนนี้คุณมีฉันคิดว่ามันอาจจะเป็นประโยชน์ในการจัดกลุ่มชุดข้อมูลการฝึกอบรมและการใช้ป้ายชื่อกลุ่มของพวกเขาเป็นคุณสมบัติในการถดถอยโลจิสติกมากกว่าการสร้างแบบจำลองการถดถอยโลจิสติกแยกสำหรับแต่ละประชากร หากมีประโยชน์ที่จะรวมตัวระบุกลุ่มสำหรับผู้ที่ส่งคืนนักเรียนกับนักเรียนใหม่อาจเป็นประโยชน์หรือไม่ที่จะขยายรายการกลุ่ม การจัดกลุ่มดูเหมือนเป็นวิธีธรรมชาติในการทำเช่นนี้ ฉันหวังว่าชัดเจน ...

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.