เพื่อเปรียบเทียบความคล้ายคลึงกันของโครงสร้างสองชั้น (เหมือนต้นไม้) มีการใช้มาตรการตามแนวคิดความสัมพันธ์แบบ cophenetic แต่มันถูกต้องหรือไม่ที่จะทำการเปรียบเทียบ dendrograms เพื่อเลือกวิธี "ขวา" หรือการวัดระยะทางในการจัดกลุ่มแบบลำดับชั้น?
มีบางประเด็น - อุปสรรค์ที่ซ่อนอยู่ - เกี่ยวกับการวิเคราะห์คลัสเตอร์แบบลำดับชั้นที่ฉันจะถือค่อนข้างสำคัญ :
- อย่าเปรียบเทียบ (เพื่อเลือกวิธีที่ให้พาร์ติชันที่แข็งแรงกว่า) การตรวจสอบ dendrograms ที่ได้จากวิธีการรวมตัวกันที่แตกต่างกันด้วยสายตา มันจะไม่บอกวิธีการที่ "ดีกว่า" ที่ แต่ละวิธีมีรูปลักษณ์ของต้นไม้ "ต้นแบบ": ต้นไม้จะแตกต่างกันอย่างต่อเนื่องแม้ว่าข้อมูลจะไม่มีโครงสร้างคลัสเตอร์หรือมีโครงสร้างของกลุ่มแบบสุ่ม (และฉันไม่คิดว่าจะมีมาตรฐานหรือมาตรการที่จะขจัดความแตกต่างที่แท้จริงเหล่านี้) อย่างไรก็ตามคุณอาจเปรียบเทียบรูปลักษณ์ของ dendrogram ของผลลัพธ์ที่ผลิตโดยวิธีการเดียวกันกับข้อมูลที่แตกต่างกัน Maxim: โดยตรงลักษณะการเปรียบเทียบของ dendrograms หลังจากที่วิธีการที่แตกต่างกันเป็นที่ยอมรับ
- อย่าตัดสินใจเกี่ยวกับจำนวนของกลุ่ม (เช่นที่ที่จะตัดต้นไม้) โดยดูที่ dendrogram ของวิธีการของWard ในวอร์ดต้นไม้แสดงให้เห็นถึงการเติบโตของยอดรวมไม่ใช่ค่าเฉลี่ย และผลที่ตามมาก็คือหลังจากที่กลุ่มใหญ่กว่าจำนวนคะแนนกลุ่มต่อมาดู "ดี" บนต้นไม้ทำให้เข้าใจผิด เพื่อสร้างมาตรฐาน dendrogramm ของวอร์ดอย่างเหมาะสมแบ่งการเติบโตของสัมประสิทธิ์ในแต่ละขั้นตอนด้วยจำนวนคะแนนรวมในสองกลุ่มที่รวมกัน (เช่นมาตรฐาน dendrogram ของวอร์ดแม้ว่าอาจยากที่จะใช้งานกราฟิก) 1 แม็กซิม: เลือกระดับการตัดโดยใคร่ครวญลักษณะ dendrogram ในขณะที่เป็นไปได้ไม่ได้เป็นวิธีที่ดีที่สุดที่จะเลือกพาร์ทิชันและสำหรับวิธีการบางอย่างอาจจะทำให้เข้าใจผิด ขอแนะนำให้ใช้เกณฑ์การจัดกลุ่มภายในที่เป็นทางการแทน
- แม้ว่าจะไม่มีใครสามารถห้ามคุณ "ทดลอง" ด้วยการวัดระยะทางหรือวิธีการจับกลุ่มมันจะเป็นการดีกว่าที่จะเลือกระยะทางและวิธีการอย่างมีสติไม่ใช่การพยายามตาบอด ระยะทางควรสะท้อนให้เห็นถึงแง่มุมของความแตกต่างที่คุณสนใจและวิธีการหนึ่งที่ต้องระวัง - หมายถึงต้นแบบเฉพาะของคลัสเตอร์ (เช่นคำอุปมาของคลัสเตอร์วอร์ดคือฉันจะบอกว่าพิมพ์คลัสเตอร์หลังจากการเชื่อมโยงที่สมบูรณ์ เป็นวงกลม [โดยงานอดิเรกหรือพล็อต]; คลัสเตอร์หลังจากลิงก์เดียวจะเป็นสเปกตรัม [โซ่]; คลัสเตอร์หลังจากวิธี centroid จะอยู่ใกล้กับแพลตฟอร์ม [การเมือง]; คลัสเตอร์เชื่อมโยงเฉลี่ยเป็นแนวความคิดที่แตกต่างที่สุดและจะเป็นชั้นสหรัฐโดยทั่วไป )
- วิธีการบางอย่างเรียกใช้การวัดระยะทางที่ถูกต้องและ / หรือประเภทของข้อมูลที่ถูกต้อง ยกตัวอย่างเช่นวอร์ดและเซนทรอยด์ต้องการเหตุผล (กำลังสอง) ยูคลิดระยะทาง - เพราะวิธีการเหล่านี้มีส่วนร่วมในการคำนวณเซนทรอยด์ในปริภูมิแบบยุคลิด และการคำนวณของ centroids ทางเรขาคณิตนั้นไม่สอดคล้องกันตัวอย่างเช่นข้อมูลไบนารี ข้อมูลควรเป็นสเกล / ต่อเนื่อง Maxim: สมมติฐาน / data / distance / method และการโต้ตอบเป็นสิ่งสำคัญมากและไม่ใช่คำถามที่ง่ายนัก
- การประมวลผลล่วงหน้า (เช่นการจัดกึ่งกลางการปรับขนาดและการแปลงรูปแบบของตัวแปร / คุณสมบัติ) การคำนวณระยะทางก่อนหน้าและการทำคลัสเตอร์เป็นคำถามที่สำคัญมากเช่นกัน มันสามารถมีอิทธิพลต่อผลลัพธ์อย่างมาก ลองคิดดูว่าการประมวลผลล่วงหน้าอาจช่วยคุณได้และจะช่วยให้เข้าใจได้จากมุมมองการตีความ นอกจากนี้อย่าอายที่จะตรวจสอบข้อมูลของคุณอย่างระมัดระวังก่อนที่จะทำการวิเคราะห์กลุ่ม
- ไม่สามารถมองเห็นวิธีการทั้งหมดของการจัดกลุ่มแบบ agglomerative เท่า ๆ กันเพื่อให้คุณมีการจัดกลุ่มแบบลำดับชั้น ... ในพื้นที่ทางปรัชญา ตัวอย่างเช่นวิธีการ centroid จะให้ลำดับชั้นในความรู้สึกเพราะศูนย์คลัสเตอร์เป็นคุณสมบัติที่เกิดขึ้นใหม่และการกำหนดของกลุ่มโดยรวมและการรวมกลุ่มจะถูกขับเคลื่อนโดยคุณสมบัติที่ การเชื่อมโยงที่สมบูรณ์ในทางกลับกัน "ห้าม" กลุ่มย่อยทั้งสองเมื่อรวมเข้าด้วยกัน - โดยอาศัยอำนาจของการบิดเบือนในวัตถุแต่ละชิ้นของทั้งสอง ดังนั้น dendrogram การเชื่อมโยงที่สมบูรณ์เป็นเพียงประวัติศาสตร์ของการเก็บและไม่ได้เรียงลำดับผู้ปกครองเด็กของอนุกรมวิธานMaxim: โดยทั่วไปการวิเคราะห์คลัสเตอร์แบบหลายชั้นโดยทั่วไปคาดว่าคุณจะสร้างพาร์ติชันตามผลลัพธ์แทนที่จะเห็นผลลัพธ์เป็นอนุกรมวิธานแบบลำดับชั้น
- การจัดกลุ่มตามลำดับชั้นเป็นอัลกอริทึมโลภทั่วไปที่ทำให้ทางเลือกที่ดีที่สุดในบรรดาทางเลือกที่ปรากฏในแต่ละขั้นตอนโดยหวังว่าจะได้ใกล้เคียงกับทางออกที่ดีที่สุดในที่สุด อย่างไรก็ตามตัวเลือก "ที่ดีที่สุด" ที่ปรากฏในขั้นตอนระดับสูงมีแนวโน้มที่จะด้อยกว่าระดับที่เหมาะสมที่สุดในระดับโลกที่เป็นไปได้ในทางทฤษฎีในขั้นตอนนั้น ยิ่งเป็นขั้นตอนมากขึ้นเป็น suboptimality ตามกฎ เนื่องจากโดยปกติแล้วเราต้องการให้กลุ่มขั้นตอนสุดท้ายมีความสำคัญ และดังที่ได้กล่าวไปแล้วพวกเขาคาดหวังว่าจะค่อนข้างแย่ถ้าจำนวนของขั้นตอนนั้นสูง (พูดขั้นตอนที่หนึ่งพัน) นั่นเป็นเหตุผลที่โดยทั่วไปไม่แนะนำให้ใช้การจัดกลุ่มแบบลำดับชั้นสำหรับวัตถุขนาดใหญ่ (นับพันวัตถุ) แม้ว่าโปรแกรมสามารถจัดการเมทริกซ์ระยะทางขนาดใหญ่เช่นนี้ได้
หากหลังจากข้อควรระวังข้างต้นคุณยังคงคิดว่าคุณต้องการการวัดความคล้ายคลึงกันระหว่างการจำแนกประเภทแบบลำดับชั้นคุณอาจ google ที่ 'การเปรียบเทียบ dendrograms' และ 'การเปรียบเทียบการจำแนกประเภทแบบลำดับชั้น' มากที่สุดคนหนึ่งบอกตัวเองคิดที่อาจจะอยู่บนพื้นฐานของความสัมพันธ์ cophenetic: มีสอง dendrograms สำหรับชุดเดียวกันของnวัตถุให้เป็นค่าสัมประสิทธิ์ของ colligation (หรืออาจยศสูงจำนวนขั้นตอน) ระหว่างคู่ของวัตถุทุกIJใน หนึ่ง dendrogram และเช่นเดียวกันใน dendrogram อื่น ๆ คำนวณสหสัมพันธ์หรือโคไซน์XijYij
1 ปรับปรุงในภายหลังเกี่ยวกับปัญหาของ dendrogram ของวิธีการของWards โปรแกรมการจัดกลุ่มที่แตกต่างกันอาจส่งออกสัมประสิทธิ์การแปลง aglomeration ที่แตกต่างกันสำหรับวิธีของ Ward ดังนั้น dendrograms ของพวกเขาจะมีลักษณะค่อนข้างแตกต่างแม้จะมีประวัติของการจัดกลุ่มและผลเป็นแบบเดียวกัน ตัวอย่างเช่น SPSS ไม่นำค่ารูตจากค่าสัมประสิทธิ์อุลตร้าเมทริก อีกประเพณี (พบในบางแพ็คเกจ R) เป็นการนำรูท (หรือที่เรียกว่า"Ward-2"การใช้งาน) และไม่สะสม หากต้องการทำซ้ำอีกครั้งความแตกต่างดังกล่าวจะมีผลเฉพาะกับรูปร่าง / ลักษณะทั่วไปของ dendrogram ไม่ใช่ผลการจัดกลุ่ม แต่รูปลักษณ์ของ dendrogram อาจมีอิทธิพลต่อการตัดสินใจของคุณเกี่ยวกับจำนวนของกลุ่ม คุณธรรมคือความปลอดภัยที่จะไม่พึ่งพา dendrogram ในวิธีการของ Ward ทุกคนเว้นแต่คุณจะรู้ว่าสัมประสิทธิ์เหล่านี้ออกจากโปรแกรมของคุณเป็นอย่างไรและจะตีความได้อย่างไร