ฉันแค่อยากจะเพิ่มคำตอบอื่น ๆ เล็กน้อยเกี่ยวกับวิธีการในบางแง่มีเหตุผลทางทฤษฎีที่แข็งแกร่งในการชอบวิธีการจัดกลุ่มแบบลำดับชั้นบางอย่าง
สมมติฐานที่พบบ่อยในการวิเคราะห์กลุ่มคือว่าข้อมูลที่มีการเก็บตัวอย่างจากบางหนาแน่นเป็นพื้นฐานว่าเราไม่ได้มีการเข้าถึง แต่สมมติว่าเราเข้าถึงมันได้ เราจะกำหนดกลุ่มของfอย่างไรff
วิธีการที่เป็นธรรมชาติและใช้งานง่ายคือการกล่าวว่ากลุ่มของเป็นพื้นที่ที่มีความหนาแน่นสูง ตัวอย่างเช่นพิจารณาความหนาแน่นสองจุดด้านล่าง:f
โดยการลากเส้นผ่านกราฟเราทำให้เกิดกลุ่มของกลุ่ม ตัวอย่างเช่นถ้าเราวาดเส้นที่เราจะได้สองกลุ่มแสดง แต่ถ้าเราวาดเส้นที่λ 3เราจะได้คลัสเตอร์เดียวλ1λ3
นี้เพื่อให้แม่นยำมากขึ้นเช่นสมมติว่าเรามีพล 0 กลุ่มfที่ระดับλคืออะไร พวกเขาเป็นองค์ประกอบที่เกี่ยวโยงกันของ superlevel ชุด{ x : F ( x ) ≥ λ }λ>0fλ{x:f(x)≥λ}
ตอนนี้แทนการยกพลเราอาจจะพิจารณาทุกλเช่นว่าชุดของกลุ่ม "จริง" ของFเป็นส่วนประกอบทั้งหมดที่เชื่อมต่อชุด superlevel ใด ๆ ของฉ กุญแจสำคัญคือการรวบรวมกลุ่มนี้มีโครงสร้างแบบลำดับชั้นλ λff
ขอผมทำให้มันแม่นยำยิ่งขึ้น สมมติรับการสนับสนุนบนX ตอนนี้ขอC 1เป็นองค์ประกอบที่เกี่ยวโยงกันของ{ x : F ( x ) ≥ λ 1 }และC 2เป็นองค์ประกอบที่เกี่ยวโยงกันของ{ x : F ( x ) ≥ λ 2 } ในคำอื่น ๆC 1เป็นคลัสเตอร์ในระดับλ 1และC 2เป็นคลัสเตอร์ในระดับλ 2 ถ้าอย่างนั้นfXC1{x:f(x)≥λ1}C2{x:f(x)≥λ2}C1λ1C2λ2แล้วทั้ง C 1 ⊂ C 2หรือ C 1 ∩ C 2 = ∅ ความสัมพันธ์ในการซ้อนนี้มีไว้สำหรับกลุ่มใด ๆ ในคอลเลกชันของเราดังนั้นสิ่งที่เรามีก็คือลำดับชั้นของกลุ่ม เราเรียกสิ่งนี้ว่าต้นไม้คลัสเตอร์λ2<λ1C1⊂C2C1∩C2=∅
ตอนนี้ฉันมีข้อมูลบางอย่างที่สุ่มมาจากความหนาแน่น ฉันสามารถจัดกลุ่มข้อมูลนี้ในแบบที่กู้คืนแผนผังคลัสเตอร์ได้หรือไม่? โดยเฉพาะอย่างยิ่งเราต้องการวิธีการที่สอดคล้องกันในแง่ที่ว่าเมื่อเรารวบรวมข้อมูลมากขึ้นเรื่อย ๆ การประมาณเชิงประจักษ์ของต้นไม้คลัสเตอร์ของเราจะเพิ่มขึ้นอย่างใกล้ชิดและใกล้ชิดกับต้นไม้คลัสเตอร์จริง
Hartigan เป็นคนแรกที่ถามคำถามดังกล่าวและในการทำเช่นนั้นเขาได้กำหนดอย่างแม่นยำว่ามันจะมีความหมายอย่างไรสำหรับวิธีการจัดกลุ่มแบบลำดับชั้นเพื่อประเมินต้นไม้คลัสเตอร์อย่างสม่ำเสมอ คำจำกัดความของเขามีดังต่อไปนี้: ให้และBเป็นกลุ่มที่แยกจากกันตามจริงของfตามที่นิยามไว้ข้างต้น - นั่นคือพวกมันเป็นส่วนประกอบที่เชื่อมโยงกันของชุดระดับสูง ตอนนี้วาดชุดของnตัวอย่าง IID จากFและเรียกชุดนี้X n เราใช้วิธีการจัดกลุ่มแบบลำดับชั้นกับข้อมูลX nและเราได้รับกลุ่มของเชิงประจักษ์กลับมา ให้nเป็นขนาดเล็กที่สุดABfnfXnXnAnคลัสเตอร์เชิงประจักษ์ที่มีทั้งหมดของ∩ X nและให้B nจะมีขนาดเล็กที่สุดที่มีทั้งหมดของB ∩ X n แล้ววิธีการจัดกลุ่มของเราก็บอกว่าจะHartigan สอดคล้องถ้าPr ( n ∩ B n ) = ∅ →การ1เป็นn →การ∞สำหรับคู่ของกลุ่มใด ๆ เคล็ดและBA∩XnBnB∩XnPr(An∩Bn)=∅→1n→∞AB
โดยพื้นฐานแล้วความสม่ำเสมอของ Hartigan บอกว่าวิธีการจัดกลุ่มของเราควรแยกพื้นที่ที่มีความหนาแน่นสูงออกจากกันอย่างเพียงพอ Hartigan ตรวจสอบว่าการเชื่อมโยงกลุ่มเดียวอาจมีความสอดคล้องกันหรือไม่และพบว่ามันไม่สอดคล้องกันในมิติ> 1. ปัญหาในการค้นหาวิธีการทั่วไปที่สอดคล้องกันสำหรับการประเมินต้นไม้คลัสเตอร์เปิดอยู่จนกระทั่งเมื่อไม่กี่ปีก่อนเมื่อ Chaudhuri และ Dasgupta การเชื่อมโยงเดี่ยวที่แข็งแกร่งซึ่งสอดคล้องกันอย่างพิสูจน์ได้ ฉันขอแนะนำให้อ่านเกี่ยวกับวิธีการของพวกเขาเนื่องจากมันค่อนข้างหรูหราในความคิดของฉัน
ดังนั้นเพื่อตอบคำถามของคุณมีความรู้สึกว่าคลัสเตอร์แบบลำดับขั้นเป็นสิ่งที่ "ถูกต้อง" เมื่อพยายามกู้คืนโครงสร้างของความหนาแน่น อย่างไรก็ตามโปรดสังเกตคำพูดที่ทำให้ตกใจ - รอบ "ถูกต้อง" ... วิธีการจัดกลุ่มตามความหนาแน่นในที่สุดมีแนวโน้มที่จะทำงานได้ไม่ดีในมิติที่สูงเนื่องจากการสาปแช่งของมิติและดังนั้นแม้ว่าคำจำกัดความของการจัดกลุ่มตามกลุ่มที่อยู่ในภูมิภาค ค่อนข้างสะอาดและใช้งานง่ายมันมักถูกมองข้ามไปในทางที่ดีกว่าในทางปฏิบัติ นั่นไม่ได้เป็นการบอกว่าการเชื่อมโยงเดี่ยวที่มีประสิทธิภาพนั้นไม่สามารถนำไปใช้ได้จริง - มันใช้งานได้ดีกับปัญหาในมิติที่ต่ำกว่า
สุดท้ายนี้ฉันจะบอกว่าความสอดคล้องของ Hartigan นั้นในแง่หนึ่งไม่สอดคล้องกับสัญชาตญาณของการลู่เข้า ปัญหาคือความสอดคล้องของ Hartigan ช่วยให้วิธีการจัดกลุ่มกระจุกกลุ่มมากเกินกว่าที่อัลกอริทึมอาจสอดคล้องกันกับ Hartigan แต่ผลิตการจัดกลุ่มที่แตกต่างจากโครงสร้างคลัสเตอร์จริงมาก เราได้ผลิตงานในปีนี้จากแนวคิดทางเลือกอื่นของการลู่เข้าซึ่งแก้ไขปัญหาเหล่านี้ งานดังกล่าวปรากฏใน "Beyond Hartist Consistency: ผสานการวัดการบิดเบือนสำหรับการจัดกลุ่มแบบลำดับชั้น" ใน COLT 2015