การเปรียบเทียบการจัดกลุ่มลำดับชั้นแบบย่อที่ได้จากระยะทางและวิธีการต่าง ๆ

[ชื่อเริ่มต้น "การวัดความคล้ายคลึงกันสำหรับต้นไม้การจัดกลุ่มแบบลำดับชั้น" ถูกเปลี่ยนในภายหลังโดย @ttnphns เพื่อให้สะท้อนหัวข้อได้ดียิ่งขึ้น]

ฉันกำลังทำการวิเคราะห์คลัสเตอร์แบบลำดับชั้นจำนวนหนึ่งเกี่ยวกับ dataframe ของบันทึกผู้ป่วย (เช่นคล้ายกับhttp://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y )

ฉันกำลังทดลองกับการวัดระยะทางที่แตกต่างกันน้ำหนักของพารามิเตอร์ที่แตกต่างกันและวิธีการลำดับชั้นที่แตกต่างกันเพื่อทำความเข้าใจผลกระทบที่มีต่อกลุ่ม / โครงสร้าง / มุมมองสุดท้ายของต้นไม้ (dendrogram) คำถามของฉันไม่ว่าจะมีการคำนวณมาตรฐาน / การวัดเพื่อคำนวณความแตกต่างระหว่างต้นไม้แบบลำดับชั้นที่แตกต่างกันและวิธีการใช้สิ่งนี้ใน R (เช่นเพื่อหาจำนวนที่ต้นไม้บางต้นเกือบเหมือนกันและแตกต่างกันอย่างมาก)

— Wouter
แหล่งที่มา

เพื่อเปรียบเทียบความคล้ายคลึงกันของโครงสร้างสองชั้น (เหมือนต้นไม้) มีการใช้มาตรการตามแนวคิดความสัมพันธ์แบบ cophenetic แต่มันถูกต้องหรือไม่ที่จะทำการเปรียบเทียบ dendrograms เพื่อเลือกวิธี "ขวา" หรือการวัดระยะทางในการจัดกลุ่มแบบลำดับชั้น?

มีบางประเด็น - อุปสรรค์ที่ซ่อนอยู่ - เกี่ยวกับการวิเคราะห์คลัสเตอร์แบบลำดับชั้นที่ฉันจะถือค่อนข้างสำคัญ :

อย่าเปรียบเทียบ (เพื่อเลือกวิธีที่ให้พาร์ติชันที่แข็งแรงกว่า) การตรวจสอบ dendrograms ที่ได้จากวิธีการรวมตัวกันที่แตกต่างกันด้วยสายตา มันจะไม่บอกวิธีการที่ "ดีกว่า" ที่ แต่ละวิธีมีรูปลักษณ์ของต้นไม้ "ต้นแบบ": ต้นไม้จะแตกต่างกันอย่างต่อเนื่องแม้ว่าข้อมูลจะไม่มีโครงสร้างคลัสเตอร์หรือมีโครงสร้างของกลุ่มแบบสุ่ม (และฉันไม่คิดว่าจะมีมาตรฐานหรือมาตรการที่จะขจัดความแตกต่างที่แท้จริงเหล่านี้) อย่างไรก็ตามคุณอาจเปรียบเทียบรูปลักษณ์ของ dendrogram ของผลลัพธ์ที่ผลิตโดยวิธีการเดียวกันกับข้อมูลที่แตกต่างกัน Maxim: โดยตรงลักษณะการเปรียบเทียบของ dendrograms หลังจากที่วิธีการที่แตกต่างกันเป็นที่ยอมรับ
อย่าตัดสินใจเกี่ยวกับจำนวนของกลุ่ม (เช่นที่ที่จะตัดต้นไม้) โดยดูที่ dendrogram ของวิธีการของWard ในวอร์ดต้นไม้แสดงให้เห็นถึงการเติบโตของยอดรวมไม่ใช่ค่าเฉลี่ย และผลที่ตามมาก็คือหลังจากที่กลุ่มใหญ่กว่าจำนวนคะแนนกลุ่มต่อมาดู "ดี" บนต้นไม้ทำให้เข้าใจผิด เพื่อสร้างมาตรฐาน dendrogramm ของวอร์ดอย่างเหมาะสมแบ่งการเติบโตของสัมประสิทธิ์ในแต่ละขั้นตอนด้วยจำนวนคะแนนรวมในสองกลุ่มที่รวมกัน (เช่นมาตรฐาน dendrogram ของวอร์ดแม้ว่าอาจยากที่จะใช้งานกราฟิก) $^1$ แม็กซิม: เลือกระดับการตัดโดยใคร่ครวญลักษณะ dendrogram ในขณะที่เป็นไปได้ไม่ได้เป็นวิธีที่ดีที่สุดที่จะเลือกพาร์ทิชันและสำหรับวิธีการบางอย่างอาจจะทำให้เข้าใจผิด ขอแนะนำให้ใช้เกณฑ์การจัดกลุ่มภายในที่เป็นทางการแทน
แม้ว่าจะไม่มีใครสามารถห้ามคุณ "ทดลอง" ด้วยการวัดระยะทางหรือวิธีการจับกลุ่มมันจะเป็นการดีกว่าที่จะเลือกระยะทางและวิธีการอย่างมีสติไม่ใช่การพยายามตาบอด ระยะทางควรสะท้อนให้เห็นถึงแง่มุมของความแตกต่างที่คุณสนใจและวิธีการหนึ่งที่ต้องระวัง - หมายถึงต้นแบบเฉพาะของคลัสเตอร์ (เช่นคำอุปมาของคลัสเตอร์วอร์ดคือฉันจะบอกว่าพิมพ์คลัสเตอร์หลังจากการเชื่อมโยงที่สมบูรณ์ เป็นวงกลม [โดยงานอดิเรกหรือพล็อต]; คลัสเตอร์หลังจากลิงก์เดียวจะเป็นสเปกตรัม [โซ่]; คลัสเตอร์หลังจากวิธี centroid จะอยู่ใกล้กับแพลตฟอร์ม [การเมือง]; คลัสเตอร์เชื่อมโยงเฉลี่ยเป็นแนวความคิดที่แตกต่างที่สุดและจะเป็นชั้นสหรัฐโดยทั่วไป )
วิธีการบางอย่างเรียกใช้การวัดระยะทางที่ถูกต้องและ / หรือประเภทของข้อมูลที่ถูกต้อง ยกตัวอย่างเช่นวอร์ดและเซนทรอยด์ต้องการเหตุผล (กำลังสอง) ยูคลิดระยะทาง - เพราะวิธีการเหล่านี้มีส่วนร่วมในการคำนวณเซนทรอยด์ในปริภูมิแบบยุคลิด และการคำนวณของ centroids ทางเรขาคณิตนั้นไม่สอดคล้องกันตัวอย่างเช่นข้อมูลไบนารี ข้อมูลควรเป็นสเกล / ต่อเนื่อง Maxim: สมมติฐาน / data / distance / method และการโต้ตอบเป็นสิ่งสำคัญมากและไม่ใช่คำถามที่ง่ายนัก
การประมวลผลล่วงหน้า (เช่นการจัดกึ่งกลางการปรับขนาดและการแปลงรูปแบบของตัวแปร / คุณสมบัติ) การคำนวณระยะทางก่อนหน้าและการทำคลัสเตอร์เป็นคำถามที่สำคัญมากเช่นกัน มันสามารถมีอิทธิพลต่อผลลัพธ์อย่างมาก ลองคิดดูว่าการประมวลผลล่วงหน้าอาจช่วยคุณได้และจะช่วยให้เข้าใจได้จากมุมมองการตีความ นอกจากนี้อย่าอายที่จะตรวจสอบข้อมูลของคุณอย่างระมัดระวังก่อนที่จะทำการวิเคราะห์กลุ่ม
ไม่สามารถมองเห็นวิธีการทั้งหมดของการจัดกลุ่มแบบ agglomerative เท่า ๆ กันเพื่อให้คุณมีการจัดกลุ่มแบบลำดับชั้น ... ในพื้นที่ทางปรัชญา ตัวอย่างเช่นวิธีการ centroid จะให้ลำดับชั้นในความรู้สึกเพราะศูนย์คลัสเตอร์เป็นคุณสมบัติที่เกิดขึ้นใหม่และการกำหนดของกลุ่มโดยรวมและการรวมกลุ่มจะถูกขับเคลื่อนโดยคุณสมบัติที่ การเชื่อมโยงที่สมบูรณ์ในทางกลับกัน "ห้าม" กลุ่มย่อยทั้งสองเมื่อรวมเข้าด้วยกัน - โดยอาศัยอำนาจของการบิดเบือนในวัตถุแต่ละชิ้นของทั้งสอง ดังนั้น dendrogram การเชื่อมโยงที่สมบูรณ์เป็นเพียงประวัติศาสตร์ของการเก็บและไม่ได้เรียงลำดับผู้ปกครองเด็กของอนุกรมวิธานMaxim: โดยทั่วไปการวิเคราะห์คลัสเตอร์แบบหลายชั้นโดยทั่วไปคาดว่าคุณจะสร้างพาร์ติชันตามผลลัพธ์แทนที่จะเห็นผลลัพธ์เป็นอนุกรมวิธานแบบลำดับชั้น
การจัดกลุ่มตามลำดับชั้นเป็นอัลกอริทึมโลภทั่วไปที่ทำให้ทางเลือกที่ดีที่สุดในบรรดาทางเลือกที่ปรากฏในแต่ละขั้นตอนโดยหวังว่าจะได้ใกล้เคียงกับทางออกที่ดีที่สุดในที่สุด อย่างไรก็ตามตัวเลือก "ที่ดีที่สุด" ที่ปรากฏในขั้นตอนระดับสูงมีแนวโน้มที่จะด้อยกว่าระดับที่เหมาะสมที่สุดในระดับโลกที่เป็นไปได้ในทางทฤษฎีในขั้นตอนนั้น ยิ่งเป็นขั้นตอนมากขึ้นเป็น suboptimality ตามกฎ เนื่องจากโดยปกติแล้วเราต้องการให้กลุ่มขั้นตอนสุดท้ายมีความสำคัญ และดังที่ได้กล่าวไปแล้วพวกเขาคาดหวังว่าจะค่อนข้างแย่ถ้าจำนวนของขั้นตอนนั้นสูง (พูดขั้นตอนที่หนึ่งพัน) นั่นเป็นเหตุผลที่โดยทั่วไปไม่แนะนำให้ใช้การจัดกลุ่มแบบลำดับชั้นสำหรับวัตถุขนาดใหญ่ (นับพันวัตถุ) แม้ว่าโปรแกรมสามารถจัดการเมทริกซ์ระยะทางขนาดใหญ่เช่นนี้ได้

หากหลังจากข้อควรระวังข้างต้นคุณยังคงคิดว่าคุณต้องการการวัดความคล้ายคลึงกันระหว่างการจำแนกประเภทแบบลำดับชั้นคุณอาจ google ที่ 'การเปรียบเทียบ dendrograms' และ 'การเปรียบเทียบการจำแนกประเภทแบบลำดับชั้น' มากที่สุดคนหนึ่งบอกตัวเองคิดที่อาจจะอยู่บนพื้นฐานของความสัมพันธ์ cophenetic: มีสอง dendrograms สำหรับชุดเดียวกันของnวัตถุให้เป็นค่าสัมประสิทธิ์ของ colligation (หรืออาจยศสูงจำนวนขั้นตอน) ระหว่างคู่ของวัตถุทุกIJใน หนึ่ง dendrogram และเช่นเดียวกันใน dendrogram อื่น ๆ คำนวณสหสัมพันธ์หรือโคไซน์ $X_{ij}$ $Y_{ij}$

$^1$ ปรับปรุงในภายหลังเกี่ยวกับปัญหาของ dendrogram ของวิธีการของWards โปรแกรมการจัดกลุ่มที่แตกต่างกันอาจส่งออกสัมประสิทธิ์การแปลง aglomeration ที่แตกต่างกันสำหรับวิธีของ Ward ดังนั้น dendrograms ของพวกเขาจะมีลักษณะค่อนข้างแตกต่างแม้จะมีประวัติของการจัดกลุ่มและผลเป็นแบบเดียวกัน ตัวอย่างเช่น SPSS ไม่นำค่ารูตจากค่าสัมประสิทธิ์อุลตร้าเมทริก อีกประเพณี (พบในบางแพ็คเกจ R) เป็นการนำรูท (หรือที่เรียกว่า"Ward-2"การใช้งาน) และไม่สะสม หากต้องการทำซ้ำอีกครั้งความแตกต่างดังกล่าวจะมีผลเฉพาะกับรูปร่าง / ลักษณะทั่วไปของ dendrogram ไม่ใช่ผลการจัดกลุ่ม แต่รูปลักษณ์ของ dendrogram อาจมีอิทธิพลต่อการตัดสินใจของคุณเกี่ยวกับจำนวนของกลุ่ม คุณธรรมคือความปลอดภัยที่จะไม่พึ่งพา dendrogram ในวิธีการของ Ward ทุกคนเว้นแต่คุณจะรู้ว่าสัมประสิทธิ์เหล่านี้ออกจากโปรแกรมของคุณเป็นอย่างไรและจะตีความได้อย่างไร

— ttnphns
แหล่งที่มา

ฉันสามารถทำสิ่งนี้ได้ทั้งหมด จุดสองจุดที่ฉันต้องการเพิ่ม: A) สิ่งที่คุณดูเหมือนจะทำคือการทำมากเกินไป ด้วยการประเมินมาตรการน้ำหนักและวิธีการอย่างเป็นระบบมีความเสี่ยงสูงที่พารามิเตอร์ที่คุณได้รับนั้นมีความเฉพาะเจาะจงสูงสำหรับข้อมูลปัจจุบันของคุณและอาจไร้ประโยชน์กับข้อมูลอื่นหรือแม้กระทั่งข้อมูลในภายหลัง B) สิ่งที่ดีคือการได้ทราบความคล้ายคลึงกันของเอนโดแกรม พิจารณาสิ่งที่คุณต้องการจะทำกับพวกเขาในภายหลังจากนั้นลองประเมินผลในตอนท้าย การประเมินผลลัพธ์ระหว่างกาลอาจทำให้เข้าใจผิด

— Anony-Mousse

หากคุณสนใจที่ยังคงอยู่ในหัวข้อที่ผมคิดว่าคุณอาจพบคำตอบที่ผ่านมาของฉันบน DS SEเป็นประโยชน์โดยเฉพาะอย่างยิ่งในขณะที่มันให้ความคุ้มครองแม้ว่า จำกัด ของทั้งสองfrequentistและคชกรรมวิธีการรูปแบบเฉพาะตามลำดับชั้น (มีข้อมูลระดับฝังตัว) และเลือกมาตรการที่คล้ายคลึงกัน

— Aleksandr Blekh

@ttnphns คุณช่วยอธิบายรายละเอียดเพิ่มเติมเกี่ยวกับวิธีการใช้ "สัมประสิทธิ์การยุบตัว" เพื่อเปรียบเทียบการจำแนกประเภทแบบลำดับชั้นสองได้อย่างไร

— bassir