คำถามติดแท็ก hierarchical-clustering

3
วิธีการเลือกวิธีการจัดกลุ่ม? วิธีการตรวจสอบวิธีการแก้ปัญหาของคลัสเตอร์ (เพื่อรับประกันทางเลือกวิธีการ)?
หนึ่งในปัญหาที่ใหญ่ที่สุดที่มีการวิเคราะห์กลุ่มคือเราอาจต้องได้ข้อสรุปที่แตกต่างกันเมื่อใช้วิธีการจัดกลุ่มที่แตกต่างกัน (รวมถึงวิธีการเชื่อมโยงที่แตกต่างกันในการจัดกลุ่มแบบลำดับชั้น) ฉันต้องการทราบความคิดเห็นของคุณเกี่ยวกับเรื่องนี้ - คุณจะเลือกวิธีการอย่างไรและอย่างไร บางคนอาจพูดว่า "วิธีที่ดีที่สุดในการทำคลัสเตอร์คือให้คำตอบที่ถูกต้อง"; แต่ฉันอาจถามเพื่อตอบสนองว่าการวิเคราะห์กลุ่มควรเป็นเทคนิคที่ไม่ได้รับการสำรอง - ดังนั้นฉันจะรู้ได้อย่างไรว่าวิธีการหรือการเชื่อมโยงใดเป็นคำตอบที่ถูกต้อง? โดยทั่วไป: การจัดกลุ่มเพียงอย่างเดียวแข็งแกร่งเพียงพอที่จะพึ่งพาหรือไม่ หรือเราต้องการวิธีที่สองและรับผลการแบ่งปันเพื่อเป็นไปตามทั้งสองอย่าง? คำถามของฉันไม่เพียงเกี่ยวกับวิธีที่เป็นไปได้ในการตรวจสอบ / ประเมินประสิทธิภาพการจัดกลุ่ม แต่ยังมีความกว้างกว่า - เราเลือก / ชอบวิธีการจัดกลุ่ม / อัลกอริทึมมากกว่าวิธีอื่น นอกจากนี้ยังมีคำเตือนทั่วไปที่เราควรพิจารณาเมื่อเราเลือกวิธีการจัดกลุ่มข้อมูลของเราหรือไม่ ฉันรู้ว่ามันเป็นคำถามทั่วไปและยากที่จะตอบ ฉันแค่อยากจะรู้ว่าถ้าคุณมีความคิดเห็นหรือคำแนะนำใด ๆ หรือข้อเสนอแนะสำหรับฉันที่จะเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้

2
การเลือกวิธีการเชื่อมโยงที่ถูกต้องสำหรับการทำคลัสเตอร์แบบลำดับชั้น
ฉันกำลังทำการจัดกลุ่มตามลำดับชั้นกับข้อมูลที่ฉันรวบรวมและประมวลผลจากการถ่ายโอนข้อมูล reddit ใน Google BigQuery กระบวนการของฉันมีดังต่อไปนี้: รับโพสต์ล่าสุด 1,000 รายการใน / r / การเมือง รวบรวมความคิดเห็นทั้งหมด ประมวลผลข้อมูลและคำนวณn x mเมทริกซ์ข้อมูล (n: ผู้ใช้ / ตัวอย่าง, m: โพสต์ / คุณสมบัติ) คำนวณเมทริกซ์ระยะทางสำหรับการจัดกลุ่มลำดับชั้น เลือกวิธีการลิงก์และดำเนินการจัดกลุ่มตามลำดับชั้น ลงจุดข้อมูลเป็น dendrogram คำถามของฉันคือฉันจะกำหนดวิธีการเชื่อมโยงที่ดีที่สุดได้อย่างไร ฉันกำลังใช้Wardแต่ฉันจะรู้ว่าฉันควรจะใช้single, complete, averageetc? ฉันยังใหม่กับสิ่งนี้ แต่ฉันไม่สามารถหาคำตอบที่ชัดเจนออนไลน์ได้เพราะฉันไม่แน่ใจว่ามี ดังนั้นอาจเป็นความคิดที่ดีสำหรับใบสมัครของฉัน? โปรดทราบว่าข้อมูลค่อนข้างเบาบางในแง่ที่ว่าn x mเมทริกซ์มีศูนย์เป็นจำนวนมาก (คนส่วนใหญ่ไม่แสดงความคิดเห็นในโพสต์มากกว่าสองสามโพสต์)

3
วิธีตีความ dendrogram ของการวิเคราะห์คลัสเตอร์แบบลำดับชั้น
ลองพิจารณาตัวอย่าง R ด้านล่าง: plot( hclust(dist(USArrests), "ave") ) แกน y "ความสูง" หมายความว่าอะไร? มองไปที่นอร์ ธ แคโรไลน่าและแคลิฟอร์เนีย (ทางซ้าย) แคลิฟอร์เนียอยู่ใกล้กับนอร์ทแคโรไลนามากกว่าแอริโซนาหรือไม่ ฉันสามารถตีความได้ไหม ฮาวาย (ขวา) เข้าร่วมกลุ่มค่อนข้างช้า ฉันเห็นสิ่งนี้เพราะ "สูง" กว่ารัฐอื่น โดยทั่วไปแล้วฉันจะตีความความจริงว่าป้ายกำกับ "สูงกว่า" หรือ "ต่ำลง" ใน dendrogram ถูกต้องได้อย่างไร

1
ใช้ความสัมพันธ์เป็นตัวชี้วัดระยะทาง (สำหรับการจัดกลุ่มแบบลำดับชั้น)
ฉันต้องการจัดกลุ่มข้อมูลของฉันแบบลำดับชั้น แต่แทนที่จะใช้ระยะทางแบบยุคลิดฉันต้องการใช้ความสัมพันธ์ นอกจากนี้เนื่องจากค่าสัมประสิทธิ์สหสัมพันธ์มีค่าตั้งแต่ -1 ถึง 1 โดยที่ทั้ง -1 และ 1 แสดงถึง "การควบคุมร่วม" ในการศึกษาของฉันฉันจึงรักษาทั้ง -1 และ 1 เป็น d = 0 ดังนั้นการคำนวณของฉันคือ d= 1 - | r | d=1-|R|\ d = 1-|r| ผมอ่านในคำถามที่แยกต่างหาก (เกี่ยวกับ K-วิธีการจัดกลุ่ม) ที่คุณควรแปลงRเข้าจริง euclidean dใช้ทฤษฎีบทโคไซน์:d= 2 ( 1 - r )-------√d=2(1-R)d = \sqrt{2(1-r)} วิธีที่ถูกต้องที่สุดในการแปลงสหสัมพันธ์เป็นระยะทางสำหรับการจัดกลุ่มแบบลำดับชั้นคืออะไร

4
จะเข้าใจข้อเสียของการจัดกลุ่มลำดับชั้นได้อย่างไร
ใครสามารถอธิบายข้อดีข้อเสียของการจัดกลุ่มลำดับชั้นได้? การจัดกลุ่มตามลำดับชั้นมีข้อเสียเช่นเดียวกับ K หมายความว่าอย่างไร อะไรคือข้อดีของการจัดกลุ่มลำดับชั้นมากกว่า K หมายถึงอะไร เมื่อใดที่เราควรใช้ K แทนการจัดกลุ่มตามลำดับชั้น & ในทางกลับกัน คำตอบสำหรับโพสต์นี้จะอธิบายข้อเสียของ k หมายถึงดีมาก วิธีการทำความเข้าใจข้อเสียของ K-mean

2
การทำคลัสเตอร์ - สัญชาตญาณเบื้องหลังทฤษฎีบทความเป็นไปไม่ได้ของไคลน์เบิร์ก
ฉันกำลังคิดเกี่ยวกับการเขียนโพสต์บล็อกในการวิเคราะห์ที่น่าสนใจนี้โดยKleinberg (2002)ที่สำรวจความยากลำบากในการจัดกลุ่ม Kleinberg แสดงตัวอธิบายลักษณะสามเดเดอราตาที่ใช้งานง่ายสำหรับฟังก์ชั่นการจัดกลุ่มแล้วพิสูจน์ว่าไม่มีฟังก์ชันดังกล่าวอยู่ มีอัลกอริทึมการจัดกลุ่มจำนวนมากที่ satify เกณฑ์สองในสาม อย่างไรก็ตามไม่มีฟังก์ชั่นที่สามารถตอบสนองทั้งสามพร้อมกันได้ โดยสังเขปและอย่างไม่เป็นทางการทั้งสามผู้อธิบายที่เขาสรุปคือ: มาตราส่วน - ค่าคงที่ : ถ้าเราแปลงข้อมูลเพื่อให้ทุกอย่างยืดออกไปในทุกทิศทางผลการจัดกลุ่มไม่ควรเปลี่ยนแปลง ความสอดคล้อง : ถ้าเรายืดข้อมูลเพื่อให้ระยะห่างระหว่างกลุ่มเพิ่มขึ้นและ / หรือระยะทางภายในกลุ่มลดลงดังนั้นผลการจัดกลุ่มไม่ควรเปลี่ยนแปลง ความสมบูรณ์ : ฟังก์ชันการจัดกลุ่มในทางทฤษฎีควรสามารถสร้างพาร์ติชัน / การจัดกลุ่มข้อมูลได้ตามอำเภอใจ (โดยไม่ทราบระยะห่างระหว่างสองจุด) คำถาม: (1)มีสัญชาตญาณภาพเรขาคณิตที่ดีที่สามารถแสดงความไม่สอดคล้องระหว่างเกณฑ์ทั้งสามนี้หรือไม่? (2)นี่หมายถึงรายละเอียดทางเทคนิคของกระดาษ คุณจะต้องอ่านลิงก์ด้านบนเพื่อทำความเข้าใจในส่วนนี้ของคำถาม ในกระดาษการพิสูจน์ทฤษฎีบท 3.1 เป็นเรื่องยากสำหรับฉันที่จะตามไปที่จุด ฉันติดอยู่ที่: "Let fff . จะเป็นฟังก์ชั่นการจัดกลุ่มที่ตอบสนองความสอดคล้องเราอ้างว่าสำหรับการใด ๆ พาร์ทิชันΓ∈Range(f)Γ∈Range(f)\Gamma \in \text{Range}(f)ที่มีอยู่จำนวนจริงบวก&lt; ขดังกล่าวว่าคู่( , ข)เป็นΓ - บังคับให้."a&lt;ba&lt;ba < b(a,b)(a,b)(a, b)ΓΓ\Gamma ฉันไม่เห็นว่าสิ่งนี้จะเกิดขึ้นได้อย่างไร …

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata &lt;- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] &lt;- "no" mydata$admit_factor[mydata$admit==1] &lt;- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl &lt;- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid &lt;- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
ระยะทางจะต้องเป็น "ตัวชี้วัด" เพื่อให้การจัดกลุ่มแบบลำดับชั้นมีความถูกต้องหรือไม่
ให้เราบอกว่าเรากำหนดระยะทางซึ่งไม่ใช่ตัวชี้วัดระหว่างรายการ N ขึ้นอยู่กับระยะทางนี้เราก็ใช้การจัดกลุ่มตามลำดับชั้น Agglomerative เราสามารถใช้อัลกอริทึมที่รู้จักกัน (ลิงค์เดี่ยว / สูงสุด / avaerage ฯลฯ ) เพื่อให้ได้ผลลัพธ์ที่มีความหมายได้หรือไม่ หรือวางแตกต่างกันสิ่งที่เป็นปัญหากับการใช้พวกเขาหากระยะทางไม่ได้เป็นตัวชี้วัด?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.