จะเข้าใจข้อเสียของการจัดกลุ่มลำดับชั้นได้อย่างไร


19

ใครสามารถอธิบายข้อดีข้อเสียของการจัดกลุ่มลำดับชั้นได้?

  1. การจัดกลุ่มตามลำดับชั้นมีข้อเสียเช่นเดียวกับ K หมายความว่าอย่างไร
  2. อะไรคือข้อดีของการจัดกลุ่มลำดับชั้นมากกว่า K หมายถึงอะไร
  3. เมื่อใดที่เราควรใช้ K แทนการจัดกลุ่มตามลำดับชั้น & ในทางกลับกัน

คำตอบสำหรับโพสต์นี้จะอธิบายข้อเสียของ k หมายถึงดีมาก วิธีการทำความเข้าใจข้อเสียของ K-mean


2
ในคำตอบนี้ฉันได้สัมผัสบางแง่มุมที่อาจเป็นปัญหาของการวิเคราะห์กลุ่ม agglomerative ลำดับชั้น "ข้อเสียเปรียบหลัก" คือมันไม่ใช่อัลกอริทึมโลภผ่านเดียว ด้วยอัลกอริธึมที่โลภคุณจะปรับภารกิจของขั้นตอนปัจจุบันให้ดีที่สุดซึ่งสำหรับวิธีการ HC ส่วนใหญ่ไม่จำเป็นต้องรับประกันว่าพาร์ทิชันที่ดีที่สุดในขั้นตอนอนาคตอันไกลโพ้น ข้อได้เปรียบหลักของ HC คือมีความยืดหยุ่นเมื่อเทียบกับตัวเลือกการวัดระยะใกล้ที่จะใช้ @Mic ได้รับคำตอบที่ดีด้านล่างดังนั้นฉันแค่ก้อง
ttnphns

คำตอบ:


13

ในขณะที่k -means พยายามเพิ่มประสิทธิภาพเป้าหมายระดับโลก (ความแปรปรวนของกลุ่ม) และประสบความสำเร็จในการจัดกลุ่มลำดับชั้นแบบ agglomerative ที่เหมาะสมที่สุดในท้องถิ่นเพื่อค้นหาขั้นตอนที่ดีที่สุดในแต่ละฟิวชั่นคลัสเตอร์ (อัลกอริธึมโลภ) .

หนึ่งควรใช้การจัดกลุ่มแบบลำดับชั้นเมื่อข้อมูลพื้นฐานมีโครงสร้างแบบลำดับชั้น (เช่นความสัมพันธ์ในตลาดการเงิน) และคุณต้องการกู้คืนลำดับชั้น คุณยังสามารถใช้k -me ในการทำเช่นนั้นได้ แต่คุณอาจจบลงด้วยพาร์ติชัน (จากจุดที่หยาบ (จุดข้อมูลทั้งหมดในคลัสเตอร์)) กับจุดที่ดีที่สุด (จุดข้อมูลแต่ละจุดเป็นแบบคลัสเตอร์) ซึ่งไม่ซ้อนกัน ไม่ใช่ลำดับชั้นที่เหมาะสม

หากคุณต้องการขุดลงในคุณสมบัติปลีกย่อยของการทำคลัสเตอร์คุณอาจไม่ต้องการคัดค้านการทำคลัสเตอร์แบบแบนเช่นหมายถึงการจัดกลุ่มแบบลำดับชั้นเช่น Single, Average, Complete Linkages ตัวอย่างเช่นการจัดกลุ่มทั้งหมดนี้เป็นการประหยัดพื้นที่นั่นคือเมื่อคุณสร้างกลุ่มคุณจะไม่บิดเบือนพื้นที่ในขณะที่การจัดกลุ่มแบบลำดับชั้นเช่น Ward ไม่ได้เป็นการประหยัดพื้นที่เช่นในแต่ละขั้นตอนการรวมจะทำให้บิดเบือนพื้นที่เมตริกk

เพื่อสรุปข้อเสียของอัลกอริทึมการจัดกลุ่มแบบลำดับชั้นอาจแตกต่างกันอย่างมากจากที่หนึ่งไปยังอีก บางคนอาจแบ่งปันคุณสมบัติที่คล้ายกันกับ -means: Ward มีจุดมุ่งหมายเพื่อปรับความแปรปรวนให้เหมาะสม แต่การเชื่อมโยงเดี่ยวไม่ได้ แต่พวกเขายังสามารถมีคุณสมบัติที่แตกต่าง: วอร์ดคือการขยายพื้นที่ในขณะที่การเชื่อมโยงเดียวคือการอนุรักษ์พื้นที่เช่นk-หมายถึงkk

- แก้ไขเพื่อให้แม่นยำคุณสมบัติการอนุรักษ์พื้นที่และการขยายพื้นที่

D i j C i C j d

Dij[minxCi,yCjd(x,y),maxxCi,yJd(x,Y)]
DผมJผมJd

พื้นที่การพอง: เช่นโดยการผสานและอัลกอริทึมจะผลักดันให้ห่างไกลคลัสเตอร์C_k

D(CiCj,Ck)max(Dik,Djk),
CiCjCk

คุณสามารถให้ตัวอย่างเพิ่มเติมของข้อมูลที่มีโครงสร้างแบบลำดับชั้นได้หรือไม่ ไม่ได้ติดตามตัวอย่างตลาดการเงิน
GeorgeOfTheRF

แน่ใจ cf เลย arxiv.org/pdf/cond-mat/9802256.pdfหรือเพียงแค่รูปที่ 7 ในarxiv.org/pdf/1506.00976.pdfซึ่งแสดงเมทริกซ์สหสัมพันธ์ซึ่งมีโครงสร้างบล็อกเกี่ยวกับความสัมพันธ์แบบลำดับชั้น (เสียงดัง): คุณสามารถสังเกตเห็นบล็อกบนหลัก เส้นทแยงมุมซึ่งแบ่งออกเป็นบล็อกมากขึ้นแต่ละคนแบ่งออกเป็นบล็อกมากยิ่งขึ้น มันสอดคล้องกับส่วนย่อยในภูมิภาค (ยุโรป, สหรัฐอเมริกา, เอเชีย, ญี่ปุ่น, ญี่ปุ่น) แต่ละภูมิภาคหารด้วยคุณภาพสินทรัพย์ (พูดคุณภาพสูงเทียบกับขยะ) แล้วแบ่งตามภาคอุตสาหกรรมขนาดใหญ่ (ค้าปลีกอุตสาหกรรม สื่อ) แบ่งย่อยออกเป็น (อากาศยาน, ยานยนต์ ... )
ไมค์

3
+1 อย่างไรก็ตามshould use hierarchical clustering when underlying data has a hierarchical structure... and you want to recover the hierarchyไม่จำเป็นต้อง ในกรณีส่วนใหญ่ค่อนข้างตรงกันข้าม hierarhy ของ HC ค่อนข้างเรื่องราวของอัลโกกว่าโครงสร้างของข้อมูลที่ ถึงกระนั้นคำถามนี้ท้ายที่สุดก็คือปรัชญา / ตรรกะไม่ใช่เชิงสถิติ
ttnphns

Ward is not space-conserving, i.e. at each merging step it will distort the metric space. คุณสามารถเขียนเพิ่มเติมเกี่ยวกับมันได้หรือไม่ มันไม่ชัดเจนมาก
ttnphns

Ward is space-dilating, whereas Single Linkage is space-conserving like k-means. คุณต้องการที่จะบอกว่าการทำสัญญาพื้นที่สำหรับการเชื่อมโยงเดียว?
ttnphns

13

scalability

kหมายความว่าเป็นผู้ชนะที่ชัดเจนที่นี่ ดีกว่า (ในบางกรณี ) scalability ของการจัดกลุ่มแบบลำดับชั้นเนื่องจากโดยปกติทั้งและและมีขนาดเล็ก (น่าเสียดายที่มีแนวโน้มที่จะเติบโตด้วยดังนั้นจึงไม่ถือตามปกติ) นอกจากนี้การใช้หน่วยความจำเป็นแบบเชิงเส้นซึ่งตรงข้ามกับกำลังสอง (โดยปกติจะมีกรณีพิเศษเชิงเส้นอยู่)O(nkdi)O(n3d)O(n2d)kidinO(n)

มีความยืดหยุ่น

kหมายถึงมีข้อ จำกัด อย่างมากในการบังคับใช้ มัน จำกัด อยู่ที่ระยะทางแบบยุคลิด (รวมถึงแบบยุคลิดในพื้นที่เคอร์เนลและความแตกต่างของ Bregman แต่สิ่งเหล่านี้ค่อนข้างแปลกใหม่และไม่มีใครใช้จริงกับ means) ยิ่งแย่ไปกว่า -means จะทำงานกับข้อมูลตัวเลขเท่านั้น (ซึ่งควรจะต่อเนื่องและหนาแน่นเพื่อให้เหมาะสำหรับ means)kkk

การจัดกลุ่มตามลำดับชั้นเป็นผู้ชนะที่ชัดเจนที่นี่ ไม่ต้องใช้ระยะทาง - สามารถใช้การวัดใดก็ได้รวมถึงฟังก์ชั่นที่คล้ายคลึงกันโดยการเลือกค่าที่สูงถึงต่ำ ข้อมูลหมวดหมู่? แน่นอนว่าใช้เช่น Jaccard สตริง? ลองใช้ระยะทางของ Levenshtein อนุกรมเวลา แน่ใจ ข้อมูลประเภทผสมใช่ไหม ระยะทางโกเวอร์ มีชุดข้อมูลหลายล้านชุดที่คุณสามารถใช้การทำคลัสเตอร์แบบลำดับชั้นได้ แต่คุณไม่สามารถใช้ -means ได้k

แบบ

ไม่มีผู้ชนะที่นี่ หมายถึงคะแนนสูงเพราะให้ผลการลดข้อมูลที่ดี Centroids เข้าใจง่ายและใช้งานง่าย การจัดกลุ่มตามลำดับชั้นในทางกลับกันจะสร้าง dendrogram dendrogram ยังมีประโยชน์อย่างมากในการทำความเข้าใจชุดข้อมูลของคุณk


ลำดับขั้นของความล้มเหลวเช่น k หมายถึงเมื่อกลุ่มเป็น 1) ไม่ใช่ทรงกลม 2) มีรัศมีที่แตกต่างกัน 3) มีความหนาแน่นต่างกันหรือไม่?
GeorgeOfTheRF

2
ทั้งสองสามารถทำงานได้และทั้งสองสามารถล้มเหลว นั่นคือเหตุผลที่สิ่งต่าง ๆ เช่น dendrograms มีประโยชน์ อย่าเชื่อถือผลการจัดกลุ่มที่จะ "ถูกต้อง" ตลอดไป
Anony-Mousse - Reinstate Monica

การจัดกลุ่มตามลำดับชั้นอาจมอบคลัสเตอร์ที่เหมาะสมในพื้นที่เนื่องจากเป็นวิธีโลภ แต่ K หมายถึงคลัสเตอร์ที่ได้รับการเพิ่มประสิทธิภาพทั่วโลก ฉันยังเคยพบว่าคำอธิบายของการจัดกลุ่มแบบลำดับชั้นค่อนข้างง่ายต่อการทำธุรกิจเปรียบเทียบกับ K หมายถึง
Arpit Sisodia

7

ฉันแค่อยากจะเพิ่มคำตอบอื่น ๆ เล็กน้อยเกี่ยวกับวิธีการในบางแง่มีเหตุผลทางทฤษฎีที่แข็งแกร่งในการชอบวิธีการจัดกลุ่มแบบลำดับชั้นบางอย่าง

สมมติฐานที่พบบ่อยในการวิเคราะห์กลุ่มคือว่าข้อมูลที่มีการเก็บตัวอย่างจากบางหนาแน่นเป็นพื้นฐานว่าเราไม่ได้มีการเข้าถึง แต่สมมติว่าเราเข้าถึงมันได้ เราจะกำหนดกลุ่มของfอย่างไรff

วิธีการที่เป็นธรรมชาติและใช้งานง่ายคือการกล่าวว่ากลุ่มของเป็นพื้นที่ที่มีความหนาแน่นสูง ตัวอย่างเช่นพิจารณาความหนาแน่นสองจุดด้านล่าง:f

enter image description here

โดยการลากเส้นผ่านกราฟเราทำให้เกิดกลุ่มของกลุ่ม ตัวอย่างเช่นถ้าเราวาดเส้นที่เราจะได้สองกลุ่มแสดง แต่ถ้าเราวาดเส้นที่λ 3เราจะได้คลัสเตอร์เดียวλ1λ3

นี้เพื่อให้แม่นยำมากขึ้นเช่นสมมติว่าเรามีพล 0 กลุ่มfที่ระดับλคืออะไร พวกเขาเป็นองค์ประกอบที่เกี่ยวโยงกันของ superlevel ชุด{ x : F ( x ) λ }λ>0fλ{x:f(x)λ}

ตอนนี้แทนการยกพลเราอาจจะพิจารณาทุกλเช่นว่าชุดของกลุ่ม "จริง" ของFเป็นส่วนประกอบทั้งหมดที่เชื่อมต่อชุด superlevel ใด ๆ ของฉ กุญแจสำคัญคือการรวบรวมกลุ่มนี้มีโครงสร้างแบบลำดับชั้นλ λff

ขอผมทำให้มันแม่นยำยิ่งขึ้น สมมติรับการสนับสนุนบนX ตอนนี้ขอC 1เป็นองค์ประกอบที่เกี่ยวโยงกันของ{ x : F ( x ) λ 1 }และC 2เป็นองค์ประกอบที่เกี่ยวโยงกันของ{ x : F ( x ) λ 2 } ในคำอื่น ๆC 1เป็นคลัสเตอร์ในระดับλ 1และC 2เป็นคลัสเตอร์ในระดับλ 2 ถ้าอย่างนั้นfXC1{x:f(x)λ1}C2{x:f(x)λ2}C1λ1C2λ2แล้วทั้ง C 1C 2หรือ C 1C 2 = ความสัมพันธ์ในการซ้อนนี้มีไว้สำหรับกลุ่มใด ๆ ในคอลเลกชันของเราดังนั้นสิ่งที่เรามีก็คือลำดับชั้นของกลุ่ม เราเรียกสิ่งนี้ว่าต้นไม้คลัสเตอร์λ2<λ1C1C2C1C2=

ตอนนี้ฉันมีข้อมูลบางอย่างที่สุ่มมาจากความหนาแน่น ฉันสามารถจัดกลุ่มข้อมูลนี้ในแบบที่กู้คืนแผนผังคลัสเตอร์ได้หรือไม่? โดยเฉพาะอย่างยิ่งเราต้องการวิธีการที่สอดคล้องกันในแง่ที่ว่าเมื่อเรารวบรวมข้อมูลมากขึ้นเรื่อย ๆ การประมาณเชิงประจักษ์ของต้นไม้คลัสเตอร์ของเราจะเพิ่มขึ้นอย่างใกล้ชิดและใกล้ชิดกับต้นไม้คลัสเตอร์จริง

Hartigan เป็นคนแรกที่ถามคำถามดังกล่าวและในการทำเช่นนั้นเขาได้กำหนดอย่างแม่นยำว่ามันจะมีความหมายอย่างไรสำหรับวิธีการจัดกลุ่มแบบลำดับชั้นเพื่อประเมินต้นไม้คลัสเตอร์อย่างสม่ำเสมอ คำจำกัดความของเขามีดังต่อไปนี้: ให้และBเป็นกลุ่มที่แยกจากกันตามจริงของfตามที่นิยามไว้ข้างต้น - นั่นคือพวกมันเป็นส่วนประกอบที่เชื่อมโยงกันของชุดระดับสูง ตอนนี้วาดชุดของnตัวอย่าง IID จากFและเรียกชุดนี้X n เราใช้วิธีการจัดกลุ่มแบบลำดับชั้นกับข้อมูลX nและเราได้รับกลุ่มของเชิงประจักษ์กลับมา ให้nเป็นขนาดเล็กที่สุดABfnfXnXnAnคลัสเตอร์เชิงประจักษ์ที่มีทั้งหมดของX nและให้B nจะมีขนาดเล็กที่สุดที่มีทั้งหมดของB X n แล้ววิธีการจัดกลุ่มของเราก็บอกว่าจะHartigan สอดคล้องถ้าPr ( nB n ) = →การ1เป็นn →การสำหรับคู่ของกลุ่มใด ๆ เคล็ดและBAXnBnBXnPr(AnBn)=1nAB

โดยพื้นฐานแล้วความสม่ำเสมอของ Hartigan บอกว่าวิธีการจัดกลุ่มของเราควรแยกพื้นที่ที่มีความหนาแน่นสูงออกจากกันอย่างเพียงพอ Hartigan ตรวจสอบว่าการเชื่อมโยงกลุ่มเดียวอาจมีความสอดคล้องกันหรือไม่และพบว่ามันไม่สอดคล้องกันในมิติ> 1. ปัญหาในการค้นหาวิธีการทั่วไปที่สอดคล้องกันสำหรับการประเมินต้นไม้คลัสเตอร์เปิดอยู่จนกระทั่งเมื่อไม่กี่ปีก่อนเมื่อ Chaudhuri และ Dasgupta การเชื่อมโยงเดี่ยวที่แข็งแกร่งซึ่งสอดคล้องกันอย่างพิสูจน์ได้ ฉันขอแนะนำให้อ่านเกี่ยวกับวิธีการของพวกเขาเนื่องจากมันค่อนข้างหรูหราในความคิดของฉัน

ดังนั้นเพื่อตอบคำถามของคุณมีความรู้สึกว่าคลัสเตอร์แบบลำดับขั้นเป็นสิ่งที่ "ถูกต้อง" เมื่อพยายามกู้คืนโครงสร้างของความหนาแน่น อย่างไรก็ตามโปรดสังเกตคำพูดที่ทำให้ตกใจ - รอบ "ถูกต้อง" ... วิธีการจัดกลุ่มตามความหนาแน่นในที่สุดมีแนวโน้มที่จะทำงานได้ไม่ดีในมิติที่สูงเนื่องจากการสาปแช่งของมิติและดังนั้นแม้ว่าคำจำกัดความของการจัดกลุ่มตามกลุ่มที่อยู่ในภูมิภาค ค่อนข้างสะอาดและใช้งานง่ายมันมักถูกมองข้ามไปในทางที่ดีกว่าในทางปฏิบัติ นั่นไม่ได้เป็นการบอกว่าการเชื่อมโยงเดี่ยวที่มีประสิทธิภาพนั้นไม่สามารถนำไปใช้ได้จริง - มันใช้งานได้ดีกับปัญหาในมิติที่ต่ำกว่า

สุดท้ายนี้ฉันจะบอกว่าความสอดคล้องของ Hartigan นั้นในแง่หนึ่งไม่สอดคล้องกับสัญชาตญาณของการลู่เข้า ปัญหาคือความสอดคล้องของ Hartigan ช่วยให้วิธีการจัดกลุ่มกระจุกกลุ่มมากเกินกว่าที่อัลกอริทึมอาจสอดคล้องกันกับ Hartigan แต่ผลิตการจัดกลุ่มที่แตกต่างจากโครงสร้างคลัสเตอร์จริงมาก เราได้ผลิตงานในปีนี้จากแนวคิดทางเลือกอื่นของการลู่เข้าซึ่งแก้ไขปัญหาเหล่านี้ งานดังกล่าวปรากฏใน "Beyond Hartist Consistency: ผสานการวัดการบิดเบือนสำหรับการจัดกลุ่มแบบลำดับชั้น" ใน COLT 2015


นี่เป็นวิธีคิดที่น่าสนใจเกี่ยวกับการจัดกลุ่มแบบลำดับชั้น ฉันคิดว่ามันยิ่งชวนให้นึกถึงการจัดกลุ่มโดยการประมาณค่าความหนาแน่นไม่อิงพารามิเตอร์ ( ไฟล์ PDF ) ซึ่งจะดำเนินการในRในpdfClusterแพคเกจ (ฉันพูดถึงที่นี่ )
gung - Reinstate Monica

HDBSCAN * ใช้วิธีการที่คล้ายกัน
Anony-Mousse - Reinstate Monica

3

ข้อได้เปรียบในทางปฏิบัติเพิ่มเติมในการจัดกลุ่มแบบลำดับชั้นคือความเป็นไปได้ของการแสดงผลลัพธ์โดยใช้ dendrogram หากคุณไม่ทราบล่วงหน้าว่ามีคลัสเตอร์ใดบ้างที่คุณกำลังมองหา (ตามปกติคือ ... ) คุณสามารถพล็อตของ dendrogram สามารถช่วยคุณเลือกโดยไม่จำเป็นต้องสร้างการแยกกลุ่ม Dedrogram ยังสามารถให้ข้อมูลเชิงลึกที่ยอดเยี่ยมเกี่ยวกับโครงสร้างข้อมูลช่วยระบุค่าผิดปกติและอื่น ๆ การจัดกลุ่มลำดับชั้นยังเป็นที่กำหนดในขณะที่ k- หมายถึงด้วยการเริ่มต้นแบบสุ่มสามารถให้ผลลัพธ์ที่แตกต่างกันเมื่อทำงานหลายครั้งในข้อมูลเดียวกัน ใน k-หมายความว่าคุณยังสามารถเลือกวิธีที่แตกต่างกันสำหรับการปรับปรุงหมายถึงคลัสเตอร์ (แม้ว่าวิธี Hartigan-Wong เป็นวิธีที่พบมากที่สุด) ซึ่งไม่มีปัญหากับวิธีการลำดับชั้นk

แก้ไขขอบคุณ ttnphns: คุณลักษณะหนึ่งที่แบ่งกลุ่มแบบลำดับชั้นด้วยอัลกอริทึมอื่น ๆ คือความต้องการเลือกการวัดระยะทาง ซึ่งมักขึ้นอยู่กับแอปพลิเคชันและเป้าหมายเฉพาะ สิ่งนี้อาจถูกมองว่าเป็นภาวะแทรกซ้อนเพิ่มเติม (พารามิเตอร์อื่นเพื่อเลือก ... ) แต่ยังเป็นสินทรัพย์ - ความเป็นไปได้มากขึ้น ในทางตรงกันข้ามอัลกอริธึม K-แปลแบบคลาสสิกใช้ระยะทางแบบยุคลิด


3
ฉันคิดว่า "ปัญหา" ในย่อหน้าสุดท้ายของคุณจะถูกมองว่าเป็นสินทรัพย์ K-วิธีการอย่างไรจะตามโดยปริยายในระยะทางยุคลิดเท่านั้น
ttnphns

ตัวเลือกที่เป็นไปได้มากมายอาจเป็นปัญหาเช่นเดียวกับสินทรัพย์แน่นอน :) ขอบคุณสำหรับความคิดเห็นเกี่ยวกับ k-mean ฉันจะปรับปรุงย่อหน้านั้น
Jacek Podlewski

kk

ฉันเชื่อว่าคำถามดั้งเดิมถูกสร้างขึ้นโดยคำนึงถึง "ความคลาสสิค" K-mean และไม่ใช่ความตั้งใจเพียงเล็กน้อยที่จะเจาะลึกความแตกต่างของ Bregman อย่างไรก็ตามคำพูดที่ดีแม้ว่าฉันจะดูบทความนี้อย่างละเอียดยิ่งขึ้น
Jacek Podlewski

@mic ไม่มีใครใช้ divergences ของ Bregman เกินกว่าระยะทางแบบยุคลิดแบบต่าง ๆ ... มันเป็นคลาสจิ๋วเพียงเล็กน้อยเท่านั้น แต่ผู้คนต้องการใช้เช่นระยะทางแมนฮัตตันโกเวอร์และอื่น ๆ ซึ่งไม่ใช่ความแตกต่างของ Bregman สำหรับทุกสิ่งที่ฉันรู้
Anony-Mousse - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.