คำถามติดแท็ก clustering

การวิเคราะห์กลุ่มเป็นหน้าที่ของการแบ่งข้อมูลออกเป็นส่วนย่อยของวัตถุตาม "ความคล้ายคลึงกัน" ซึ่งกันและกันโดยไม่ใช้ความรู้ที่มีมาก่อนเช่นป้ายชื่อชั้นเรียน [ข้อผิดพลาดมาตรฐานและ / หรือกลุ่มตัวอย่างควรติดแท็กเช่น; อย่าใช้แท็ก "การจัดกลุ่ม" สำหรับพวกเขา]

2
อนุกรมเวลาและการตรวจจับความผิดปกติ
ฉันต้องการติดตั้งอัลกอริทึมสำหรับตรวจจับความผิดปกติในอนุกรมเวลาและฉันวางแผนที่จะใช้การทำคลัสเตอร์สำหรับสิ่งนั้น เหตุใดฉันจึงควรใช้เมทริกซ์ระยะทางสำหรับการจัดกลุ่มและไม่ใช่ข้อมูลอนุกรมเวลา สำหรับการตรวจจับความผิดปกติฉันจะใช้การจัดกลุ่มตามความหนาแน่นอัลกอริธึมเป็น DBscan ดังนั้นกรณีนี้จะใช้ได้หรือไม่ มีเวอร์ชั่นออนไลน์สำหรับการสตรีมข้อมูลหรือไม่ ฉันต้องการตรวจจับความผิดปกติก่อนที่จะเกิดขึ้นดังนั้นการใช้อัลกอริธึมการตรวจจับแนวโน้ม (ARIMA) เป็นทางเลือกที่ดีหรือไม่?

3
การใช้ระยะทางแมนฮัตตันกับการเชื่อมโยงระหว่างคลัสเตอร์ของวอร์ดในการจัดกลุ่มตามลำดับชั้นเป็นเรื่องที่ดีหรือไม่?
ฉันใช้การจัดกลุ่มแบบลำดับชั้นเพื่อวิเคราะห์ข้อมูลอนุกรมเวลา รหัสของฉันถูกนำไปใช้โดยใช้ฟังก์ชั่นMathematicaDirectAgglomerate[...]ซึ่งสร้างกลุ่มแบบลำดับชั้นซึ่งกำหนดอินพุตต่อไปนี้: เมทริกซ์ระยะทาง D ชื่อของวิธีการที่ใช้เพื่อกำหนดการเชื่อมโยงระหว่างคลัสเตอร์ ฉันคำนวณระยะทางเมทริกซ์ D โดยใช้ระยะทางแมนฮัตตัน: d(x,y)=∑i|xi−yi|d(x,y)=∑i|xi−yi|d(x,y) = \sum_i|x_i - y_i| โดยที่และn ≈ 150คือจำนวนจุดข้อมูลในอนุกรมเวลาของฉันi=1,⋯,ni=1,⋯,ni = 1,\cdots, nn≈150n≈150n \approx 150 คำถามของฉันคือการใช้การเชื่อมโยงระหว่างคลัสเตอร์ของวอร์ดกับแมนฮัตตันนั้น แหล่งข้อมูลบางแหล่งชี้ให้เห็นว่าการเชื่อมโยงของวอร์ดควรใช้กับระยะยูคลิดเท่านั้น โปรดทราบว่าDirectAgglomerate[...]คำนวณการเชื่อมโยงของ Ward โดยใช้เมทริกซ์ระยะทางเท่านั้นไม่ใช่แบบสำรวจดั้งเดิม น่าเสียดายที่ฉันไม่แน่ใจว่าMathematicaแก้ไขอัลกอริทึมดั้งเดิมของ Ward ซึ่ง (จากความเข้าใจของฉัน) ทำงานอย่างไรโดยการลดผลรวมของข้อผิดพลาดของกำลังสองของการสังเกตให้เหลือน้อยที่สุดซึ่งคำนวณโดยเทียบกับค่าเฉลี่ยของคลัสเตอร์ ตัวอย่างเช่นสำหรับคลัสเตอร์ที่ประกอบด้วยเวกเตอร์ของการสังเกตแบบ univariate Ward จะกำหนดผลรวมข้อผิดพลาดของกำลังสองเป็น:ccc (∑j||cj−mean(c)||2)2(∑j||cj−mean(c)||2)2(\sum_j||c_j - mean(c)||_2)^2 (เครื่องมือซอฟต์แวร์อื่น ๆ เช่น Matlab และ R ยังใช้การจัดกลุ่มของ Ward โดยใช้เมทริกซ์ระยะทางดังนั้นคำถามจึงไม่เฉพาะเจาะจงกับ Mathematica)

1
การทำคลัสเตอร์: ฉันควรใช้ Jensen-Shannon Divergence หรือจตุรัสของมันหรือไม่?
ฉันจัดกลุ่มการแจกแจงความน่าจะเป็นโดยใช้อัลกอริธึมการขยายความสัมพันธ์และฉันวางแผนที่จะใช้ Jensen-Shannon Divergence เป็นตัวชี้วัดระยะทางของฉัน มันถูกต้องหรือไม่ที่จะใช้ JSD เป็นระยะทางหรือ JSD กำลังสอง? ทำไม? ความแตกต่างอะไรจะเป็นผลมาจากการเลือกอย่างใดอย่างหนึ่ง?

1
วิธีการคำนวณความบริสุทธิ์
ในการวิเคราะห์กลุ่มเราจะคำนวณความบริสุทธิ์ได้อย่างไร สมการคืออะไร? ฉันไม่ได้มองหารหัสที่จะทำเพื่อฉัน ให้เป็นคลัสเตอร์ k และคเจเป็นชั้น Jωkωk\omega_kcjcjc_j ดังนั้นความบริสุทธิ์ถูกต้องจริงหรือไม่ ดูเหมือนว่าจะรวมจำนวนคลาสที่จำแนกอย่างแท้จริงต่อคลัสเตอร์มากกว่าขนาดตัวอย่าง แหล่งที่มาของสมการ คำถามคือความสัมพันธ์ระหว่างผลลัพธ์และอินพุตคืออะไร หากมีการบวกอย่างแท้จริง (TP), ลบอย่างแท้จริง (TN), บวกเท็จ (FP), ลบเท็จ (FN) มัน ?Purity=TPK(TP+TN+FP+FN)Purity=TPK(TP+TN+FP+FN)Purity = \frac{TP_K}{(TP+TN+FP+FN)}
15 clustering 

3
จะลงจุดข้อมูลเอาต์พุตของการทำคลัสเตอร์ได้อย่างไร
ฉันพยายามจัดกลุ่มชุดข้อมูล (ชุดเครื่องหมาย) และมี 2 กลุ่ม ฉันต้องการที่จะเป็นตัวแทนกราฟิก บิตสับสนเกี่ยวกับการเป็นตัวแทนเนื่องจากฉันไม่มีพิกัด (x, y) กำลังมองหาฟังก์ชัน MATLAB / Python สำหรับการทำเช่นนั้น แก้ไข ฉันคิดว่าการโพสต์ข้อมูลทำให้คำถามชัดเจนขึ้น ฉันมีสองกลุ่มที่ฉันทำโดยใช้การจัดกลุ่ม kmeans ใน Python (ไม่ใช้ scipy) พวกเขาเป็น class 1: a=[3222403552.0, 3222493472.0, 3222491808.0, 3222489152.0, 3222413632.0, 3222394528.0, 3222414976.0, 3222522768.0, 3222403552.0, 3222498896.0, 3222541408.0, 3222403552.0, 3222402816.0, 3222588192.0, 3222403552.0, 3222410272.0, 3222394560.0, 3222402704.0, 3222298192.0, 3222409264.0, 3222414688.0, 3222522512.0, 3222404096.0, 3222486720.0, 3222403968.0, …

2
Dirichlet กระบวนการสำหรับการทำคลัสเตอร์: วิธีจัดการกับป้ายกำกับ?
Q:วิธีมาตรฐานในการจัดกลุ่มข้อมูลโดยใช้กระบวนการ Dirichlet คืออะไร เมื่อใช้กลุ่มการสุ่มตัวอย่างของกิ๊บส์จะปรากฏขึ้นและหายไประหว่างการสุ่มตัวอย่าง นอกจากนี้เรามีปัญหาในการระบุตัวตนเนื่องจากการกระจายหลังนั้นไม่แปรเปลี่ยนไปจากการจัดกลุ่มใหม่ ดังนั้นเราไม่สามารถพูดได้ว่าเป็นกลุ่มของผู้ใช้ แต่ที่ผู้ใช้สองคนที่อยู่ในกลุ่มเดียวกัน (นั่นคือp(ci=cj)p(ci=cj)p(c_i=c_j) ) เราสามารถสรุปข้อมูลที่ได้รับมอบหมายในชั้นเรียนเพื่อที่ว่าถ้าคือการกำหนดกลุ่มของจุดฉันตอนนี้เราไม่เพียง แต่ที่คฉัน = คเจแต่ที่คฉัน = คJ = คJ = . . = ccicic_iiiici=cjci=cjc_i=c_j ?ci=cj=cj=...=czci=cj=cj=...=czc_i=c_j=c_j=...=c_z นี่เป็นทางเลือกที่ฉันพบและทำไมฉันจึงคิดว่าสิ่งเหล่านี้ไม่สมบูรณ์หรือเข้าใจผิด (1) DP-GMM + การสุ่มตัวอย่าง Gibbs + เมทริกซ์ความสับสนตามคู่ หากต้องการใช้แบบจำลองส่วนผสมของกระบวนการ Dirichlet แบบเกาส์ (DP-GMM) สำหรับการจัดกลุ่มฉันได้นำบทความนี้ไปใช้โดยผู้เขียนเสนอ DP-GMM สำหรับการประเมินความหนาแน่นโดยใช้การสุ่มตัวอย่างแบบกิ๊บส์ เพื่อสำรวจประสิทธิภาพการจัดกลุ่มพวกเขาพูดว่า: เนื่องจากจำนวนของส่วนประกอบเปลี่ยนแปลงไปตลอดห่วงโซ่ [MCMC] เราจะต้องสร้างเมทริกซ์ความสับสนซึ่งแสดงความถี่ของคู่ข้อมูลแต่ละคู่ที่ได้รับมอบหมายให้เป็นองค์ประกอบเดียวกันสำหรับทั้งห่วงโซ่ดูรูปที่ 6 ข้อด้อย : นี่ไม่ใช่การจัดกลุ่มแบบ "สมบูรณ์" จริง แต่เป็นการทำคลัสเตอร์แบบคู่ที่ชาญฉลาด รูปดูดีมากเพราะเรารู้ว่ากลุ่มจริงและจัดเมทริกซ์ตามนั้น …

2
k-mean เทียบกับ k-median?
ฉันรู้ว่ามีอัลกอริธึมการจัดกลุ่ม k-mean และ k-median หนึ่งที่ใช้ค่าเฉลี่ยเป็นศูนย์กลางของคลัสเตอร์และอื่น ๆ ที่ใช้ค่ามัธยฐาน คำถามของฉันคือเมื่อใด / ที่ไหนที่จะใช้?

2
ฉันจะจัดกลุ่มข้อมูลตัวเลขให้อยู่ในรูปแบบ“ วงเล็บ” ได้อย่างไร (เช่นรายได้)
ข้อความต่อไปนี้อธิบายถึงสิ่งที่ฉันพยายามทำ แต่เป็นไปได้ว่าข้อความแสดงปัญหาอื่นสามารถอธิบายเป้าหมายของฉันได้: ฉันต้องการ แบ่งตัวเลขต่อไปนี้ออกเป็นกลุ่มที่ความแปรปรวนของตัวเลขภายในแต่ละกลุ่มไม่ใหญ่เกินไปและความแตกต่างระหว่างค่าเฉลี่ยของกลุ่มไม่เล็กเกินไป เปรียบเทียบการกระจายที่ได้รับในท้ายที่สุดกับคนที่ "สมบูรณ์แบบ" และดูว่า "แตกต่าง" มันมาจากการที่สมบูรณ์แบบ คำอธิบายของคนธรรมดาเกี่ยวกับเป้าหมาย ฉันกำลังพยายามคำนวณการกระจายรายได้และกำหนด "วงเล็บรายได้" แต่ละประชากรอยู่ระบบวงเล็บรายได้ควรจะปรับตัวเองตามข้อมูลอินพุต เป้าหมายของฉันคือการวัดหรือคำนวณความแตกต่างระหว่างรายได้จากวงเล็บ ฉันคิดว่าจะมีวงเล็บจำนวนมากและต้องการดูว่า "แยก" แต่ละชั้นนั้นไกลแค่ไหน นี่คือตัวอย่างของรายได้รายชั่วโมงสำหรับชุดตัวอย่างของประชากร 20 และรายได้รวม 3587: Population= 10 pop=2 population=5 population =3 10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900 ฉันจะใช้แนวคิดทางคณิตศาสตร์เพื่อจัดกลุ่มเรียงลำดับและวิเคราะห์ข้อมูลที่ทำหน้าที่เหมือนการกระจายรายได้ผ่านประชากรที่กำหนดได้อย่างไร ในตอนท้ายของการคำนวณฉันต้องการกำหนดการกระจายรายได้แบบฉัตรซึ่งการกระจายที่สมบูรณ์แบบจะมีลักษณะ (บางอย่าง) เช่นนี้ (each person makes $10 more per hour than the previous; total is 3587) 89, …

3
เหตุใดเราจึงใช้วิธี k แทนค่าอัลกอริทึมอื่น
ฉันค้นคว้าเกี่ยวกับ k-mean และสิ่งเหล่านี้คือสิ่งที่ฉันได้รับ: k-mean เป็นหนึ่งในอัลกอริธึมที่ง่ายที่สุดที่ใช้วิธีการเรียนรู้แบบไม่ดูแลเพื่อแก้ปัญหาการจัดกลุ่มที่รู้จัก มันทำงานได้ดีกับชุดข้อมูลขนาดใหญ่ อย่างไรก็ตาม K-Means มีข้อเสียคือ: ความไวสูงต่อค่าผิดปกติและเสียงรบกวน ใช้งานไม่ได้กับรูปร่างของคลัสเตอร์ที่ไม่เป็นวงกลม - ต้องระบุจำนวนของคลัสเตอร์และค่าเริ่มต้นของเมล็ดก่อน ความสามารถต่ำในการส่งผ่านที่เหมาะสมที่สุดในท้องถิ่น มีอะไรที่ยอดเยี่ยมเกี่ยวกับ k-mean หรือไม่เพราะดูเหมือนว่าข้อเสียเปรียบอยู่เหนือสิ่งที่ดีเกี่ยวกับ k-mean โปรดสอนฉัน

4
วิธีการวัดรูปร่างของคลัสเตอร์?
ฉันรู้ว่าคำถามนี้ไม่ได้กำหนดไว้อย่างชัดเจน แต่บางกลุ่มมีแนวโน้มที่จะเป็นรูปไข่หรือนอนในพื้นที่มิติที่ต่ำกว่าในขณะที่คนอื่นมีรูปร่างไม่เชิงเส้น (ในตัวอย่าง 2D หรือ 3D) มีการวัดความไม่เชิงเส้น (หรือ "รูปร่าง") ของกลุ่มใดบ้าง? โปรดสังเกตว่าในพื้นที่ 2D และ 3D ไม่ใช่ปัญหาในการดูรูปร่างของคลัสเตอร์ใด ๆ แต่ในพื้นที่มิติที่สูงขึ้นเป็นปัญหาที่จะพูดบางอย่างเกี่ยวกับรูปร่าง โดยเฉพาะมีมาตรการว่าคลัสเตอร์นูนเป็นอย่างไร ฉันได้รับแรงบันดาลใจสำหรับคำถามนี้จากคำถามการจัดกลุ่มอื่น ๆ ที่ผู้คนพูดถึงกลุ่ม แต่ไม่มีใครสามารถเห็นพวกเขา (ในพื้นที่มิติที่สูงขึ้น) นอกจากนี้ฉันรู้ว่ามีมาตรการไม่เชิงเส้นสำหรับเส้นโค้ง 2D

3
ใครช่วยอธิบายการแปรปรวนเวลาแบบไดนามิกเพื่อพิจารณาความคล้ายคลึงของอนุกรมเวลาได้หรือไม่?
ฉันพยายามเข้าใจการวัดเวลาแปรปรวนแบบไดนามิกสำหรับการเปรียบเทียบอนุกรมเวลาเข้าด้วยกัน ฉันมีชุดข้อมูลสามชุดดังนี้: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, 0.000275608635737, 0.000622665006227, 0.00036075036075, 0.00029057097196, 0.000353232073472, 0.000394710874285, 0.000207555002076, 0.000402738622634, 0, 0.000309693403531, 0.000506521463847, 0.000226988991034, 0.000414164423276, 9.6590360282e-05, 0.000476689865573, 0.000377572210685, 0.000378967314069, 9.25240562546e-05, 0.000172309813044, …

8
อะไรคือ“ อัลกอริธึมร้อนแรง” สำหรับการเรียนรู้ของเครื่อง?
นี่เป็นคำถามที่ไร้เดียงสาจากคนที่เริ่มเรียนรู้การเรียนรู้ของเครื่อง ฉันกำลังอ่านหนังสือ "การเรียนรู้ของเครื่อง: มุมมองอัลกอริทึม" จากหนังสือเมื่อวานนี้ ฉันพบว่ามันมีประโยชน์ในฐานะหนังสือเกริ่นนำ แต่ตอนนี้ฉันอยากจะไปสู่อัลกอริธึมขั้นสูงผู้ที่ให้ผลลัพธ์ที่ดีที่สุดในปัจจุบัน ฉันส่วนใหญ่สนใจในชีวสารสนเทศศาสตร์: การรวมกลุ่มของเครือข่ายทางชีวภาพและการค้นหารูปแบบในลำดับทางชีวภาพโดยเฉพาะอย่างยิ่งนำไปใช้กับการวิเคราะห์นิวคลีโอไทด์ polymorphism (SNP) เดียว คุณช่วยแนะนำให้ฉันอ่านรีวิวหรือหนังสือได้ไหม?

3
หรือ
ไม่มีใครใช้L1L1L_1หรือL.5L.5L_.5ตัวชี้วัดสำหรับการจัดกลุ่มมากกว่าL2L2L_2 ? Aggarwal และคณะ, เกี่ยวกับพฤติกรรมที่น่าประหลาดใจของการวัดระยะทางในพื้นที่มิติสูง กล่าวว่า (ในปี 2001) L1L1L_1เป็นที่นิยมมากกว่าอย่างต่อเนื่องจากนั้น Euclidean distance metro L2L2L_2สำหรับการใช้งานการขุดข้อมูลขนาดสูง และอ้างว่าL.5L.5L_.5หรือL.1L.1L_.1สามารถทำได้ดีกว่า เหตุผลในการใช้L1L1L_1หรือL.5L.5L_.5อาจเป็นเชิงทฤษฎีหรือเชิงทดลองเช่นความอ่อนไหวต่อค่าผิดปกติ / เอกสารของKabánหรือโปรแกรมที่ทำงานบนข้อมูลจริงหรือสังเคราะห์ (ทำซ้ำได้) ตัวอย่างหรือรูปภาพจะช่วยปรีชาของคนธรรมดาของฉัน คำถามนี้เป็นคำถามติดตามคำตอบบ๊อบ Durrant ไป เมื่อ-is-ใกล้ที่สุด-เพื่อนบ้านที่มีความหมายต่อวัน ดังที่เขากล่าวตัวเลือกของpppจะเป็นทั้งข้อมูลและแอพพลิเคชั่น อย่างไรก็ตามรายงานจากประสบการณ์จริงจะเป็นประโยชน์ หมายเหตุได้เพิ่มอังคาร 7 มิถุนายน: ฉันพบ "การวิเคราะห์ข้อมูลทางสถิติตาม L1-norm และวิธีการที่เกี่ยวข้อง", Dodge ed., 2002, 454p, is 37n 3764369205 - เอกสารการประชุมนับสิบ ทุกคนสามารถวิเคราะห์ความเข้มข้นของระยะทางสำหรับคุณสมบัติเด่นของ iid ได้หรือไม่? เหตุผลหนึ่งที่ทำให้เอ็กซ์โปเนนเชียลคือ ; อื่น (ไม่ใช่ผู้เชี่ยวชาญ) คือการกระจายสูงสุดของเอนโทรปี≥ 0; …

9
ซอฟต์แวร์สร้างภาพข้อมูลสำหรับการทำคลัสเตอร์
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันต้องการรวมกลุ่ม ~ 22,000 คะแนน อัลกอริทึมการจัดกลุ่มจำนวนมากทำงานได้ดีขึ้นด้วยการเดาเริ่มต้นที่มีคุณภาพสูงขึ้น มีเครื่องมืออะไรบ้างที่สามารถให้ความคิดที่ดีเกี่ยวกับรูปทรงคร่าวๆของข้อมูล ฉันต้องการเลือกการวัดระยะทางของฉันเองดังนั้นโปรแกรมที่ฉันสามารถป้อนรายการระยะทางตามเข็มคู่เพื่อให้ใช้ได้ ฉันต้องการที่จะทำบางสิ่งบางอย่างเช่นไฮไลต์ภูมิภาคหรือคลัสเตอร์บนจอแสดงผลและรับรายการจุดข้อมูลที่อยู่ในพื้นที่นั้น ต้องการซอฟต์แวร์ฟรี แต่ฉันมี SAS และ MATLAB อยู่แล้ว

4
มีอัลกอริทึมการจัดกลุ่มตามระยะทางใด ๆ หรือไม่?
ดูเหมือนว่าสำหรับ K-mean และอัลกอริธึมที่เกี่ยวข้องอื่น ๆ การจัดกลุ่มจะขึ้นอยู่กับการคำนวณระยะห่างระหว่างจุด มีอย่างใดอย่างหนึ่งที่ทำงานโดยไม่ได้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.