การเลือกวิธีการเชื่อมโยงที่ถูกต้องสำหรับการทำคลัสเตอร์แบบลำดับชั้น


33

ฉันกำลังทำการจัดกลุ่มตามลำดับชั้นกับข้อมูลที่ฉันรวบรวมและประมวลผลจากการถ่ายโอนข้อมูล reddit ใน Google BigQuery

กระบวนการของฉันมีดังต่อไปนี้:

  • รับโพสต์ล่าสุด 1,000 รายการใน / r / การเมือง
  • รวบรวมความคิดเห็นทั้งหมด
  • ประมวลผลข้อมูลและคำนวณn x mเมทริกซ์ข้อมูล (n: ผู้ใช้ / ตัวอย่าง, m: โพสต์ / คุณสมบัติ)
  • คำนวณเมทริกซ์ระยะทางสำหรับการจัดกลุ่มลำดับชั้น
  • เลือกวิธีการลิงก์และดำเนินการจัดกลุ่มตามลำดับชั้น
  • ลงจุดข้อมูลเป็น dendrogram

คำถามของฉันคือฉันจะกำหนดวิธีการเชื่อมโยงที่ดีที่สุดได้อย่างไร ฉันกำลังใช้Wardแต่ฉันจะรู้ว่าฉันควรจะใช้single, complete, averageetc?

ฉันยังใหม่กับสิ่งนี้ แต่ฉันไม่สามารถหาคำตอบที่ชัดเจนออนไลน์ได้เพราะฉันไม่แน่ใจว่ามี ดังนั้นอาจเป็นความคิดที่ดีสำหรับใบสมัครของฉัน? โปรดทราบว่าข้อมูลค่อนข้างเบาบางในแง่ที่ว่าn x mเมทริกซ์มีศูนย์เป็นจำนวนมาก (คนส่วนใหญ่ไม่แสดงความคิดเห็นในโพสต์มากกว่าสองสามโพสต์)


นอกเหนือจากปัญหาการเชื่อมโยงเฉพาะ "สิ่งที่ดีที่สุด" หมายถึงอะไรในบริบทของคุณ?
gung - Reinstate Monica

ดีที่สุดสำหรับฉันคือการหาวิธีที่มีเหตุผลที่สุดในการเชื่อมโยงข้อมูลของฉัน เช่น: วิธีการใดที่กำหนดสิ่งที่ถูกต้องโดย "ระยะทาง" ภายในคุณลักษณะของฉัน
Kevin Eger

2
Kevin, ได้โปรดดูสิ่งนี้คำตอบและเมื่อเร็ว ๆ นี้มากคำถาม คุณจะได้เรียนรู้ว่าคำถาม ("วิธีการใช้งานอะไร") คุณกำลังเพิ่มขึ้นไม่ใช่เรื่องง่าย คุณควรอ่านวรรณกรรมเกี่ยวกับการรวมกลุ่ม (อย่างน้อยลำดับชั้น) ก่อนที่คุณจะเห็นความแตกต่างระหว่างวิธีการและสามารถเลือกได้ การวิเคราะห์ข้อมูลจะไม่ได้รับการปฏิบัติอย่างมือเปล่า
ttnphns

1
@ttnphns ขอบคุณสำหรับลิงค์ - เป็นการอ่านที่ดีและฉันจะนำประเด็นเหล่านั้นมาพิจารณา
Kevin Eger

คำตอบ:


58

ภาพรวมวิธีการ

การอ้างอิงสั้น ๆ เกี่ยวกับวิธีการเชื่อมโยงบางอย่างของการวิเคราะห์คลัสเตอร์แบบลำดับชั้น agglomerative (HAC)

เวอร์ชันพื้นฐานของอัลกอริทึม HAC เป็นหนึ่งทั่วไป มันเป็นจำนวนเงินที่จะอัปเดตในแต่ละขั้นตอนโดยสูตรที่รู้จักกันในชื่อแลนซ์ - วิลเลียมส์สูตรความใกล้ชิดระหว่างการเกิดขึ้นของการรวมกลุ่มของสองกลุ่มและกลุ่มอื่น ๆ (รวมถึงวัตถุเดี่ยว) ที่มีอยู่จนถึงปัจจุบัน มีการใช้งานที่ไม่ได้ใช้สูตรแลนซ์ - วิลเลียมส์ แต่การใช้งานนั้นสะดวก: มันช่วยให้วิธีการเชื่อมโยงรหัสต่างๆโดยใช้แม่แบบเดียวกัน

สูตรการเกิดซ้ำประกอบด้วยพารามิเตอร์หลายอย่าง (อัลฟ่าเบต้าแกมม่า) ขึ้นอยู่กับวิธีการเชื่อมโยงพารามิเตอร์จะถูกตั้งค่าแตกต่างกันดังนั้นสูตรที่ไม่ได้รับจะได้รับมุมมองที่เฉพาะเจาะจง ข้อความจำนวนมากใน HAC แสดงสูตรมุมมองเฉพาะวิธีการและอธิบายวิธีการ ฉันจะแนะนำบทความโดย Janos Podani อย่างละเอียด

ห้องและความต้องการวิธีการต่าง ๆ เกิดขึ้นจากความจริงที่ว่าความใกล้ชิด (ระยะทางหรือความคล้ายคลึงกัน) ระหว่างสองกลุ่มหรือระหว่างกลุ่มและวัตถุเดี่ยวอาจเป็นสูตรได้หลายวิธี HAC ผสานในแต่ละขั้นตอนที่ใกล้ที่สุดเป็นสองกลุ่มหรือจุด แต่วิธีการคำนวณความใกล้ชิดดังกล่าวในใบหน้าที่เมทริกซ์ความใกล้ชิดอินพุตถูกกำหนดระหว่างวัตถุเดี่ยวเท่านั้นเป็นปัญหาในการกำหนด

ดังนั้นวิธีการจะแตกต่างกันไปตามวิธีที่พวกเขากำหนดความใกล้ชิดระหว่างสองกลุ่มในทุกขั้นตอน "สัมประสิทธิ์การยุบตัว" (เอาต์พุตในตารางการรวมตัวกัน / ประวัติและสร้างแกน "Y" บน dendrogram) เป็นเพียงความใกล้ชิดระหว่างสองกลุ่มที่รวมกันในขั้นตอนที่กำหนด

  • วิธีการเดียวที่เชื่อมโยงหรือเพื่อนบ้านที่ใกล้ที่สุด ความใกล้ชิดระหว่างสองกลุ่มคือระยะทางระหว่างวัตถุที่อยู่ใกล้ที่สุดสองแห่ง ค่านี้เป็นหนึ่งในค่าของอินพุตเมทริกซ์ อุปมาแนวคิดนี้สร้างขึ้นจากกลุ่มแม่ของมันคือคลื่นความถี่หรือห่วงโซ่ โซ่อาจเป็นทางตรงหรือโค้งหรืออาจเป็นมุมมอง "เกล็ดหิมะ" หรือ "อะมีบา" สมาชิกคลัสเตอร์ที่แตกต่างกันมากที่สุดสองคนสามารถเกิดขึ้นได้แตกต่างกันมากเมื่อเทียบกับสมาชิกที่คล้ายกันมากที่สุดสองคน วิธีการเชื่อมโยงเดียวควบคุมความคล้ายคลึงกันของเพื่อนบ้านที่ใกล้เคียงที่สุดเท่านั้น

  • วิธีการที่สมบูรณ์แบบการเชื่อมโยงหรือเพื่อนบ้านที่ไกลที่สุด ความใกล้ชิดระหว่างสองกลุ่มคือระยะทางระหว่างวัตถุที่อยู่ไกลที่สุดสองแห่ง ค่านี้เป็นหนึ่งในค่าของอินพุตเมทริกซ์ อุปมาของคลัสเตอร์ที่สร้างขึ้นนี้คือวงกลม (ในความหมายโดยงานอดิเรกหรือพล็อต) ที่สองที่ไกลที่สุดจากสมาชิกคนอื่น ๆ ไม่สามารถแตกต่างกันมากไปกว่าคู่อื่น ๆ ที่ค่อนข้างแตกต่างกัน (ในวง) กลุ่มดังกล่าวเป็นรูปทรง "กะทัดรัด" ตามชายแดน แต่ไม่จำเป็นต้องกระชับภายใน

  • วิธีการเชื่อมโยงเฉลี่ยระหว่างกลุ่ม (UPGMA) ความใกล้ชิดระหว่างสองกลุ่มคือค่าเฉลี่ยเลขคณิตของความใกล้เคียงทั้งหมดระหว่างวัตถุหนึ่งด้านหนึ่งและอีกด้านหนึ่งของวัตถุในอีกด้านหนึ่ง คำอุปมาของคลัสเตอร์ที่สร้างขึ้นนี้ค่อนข้างทั่วไปเพียงชั้นเดียวหรือเป็นกลุ่มที่ใกล้ชิดกัน และวิธีการมักจะตั้งค่าเริ่มต้นหนึ่งในแพ็คเกจการทำคลัสเตอร์ กลุ่มของรูปร่างและโครงร่างเบ็ดเตล็ดสามารถผลิตได้

  • ค่าเฉลี่ยอย่างง่ายหรือวิธีการเฉลี่ยที่สมดุลระหว่างกลุ่มเชื่อมโยงเท่าเทียมกัน (WPGMA) เป็นการแก้ไขก่อนหน้านี้ ความใกล้ชิดระหว่างสองกลุ่มคือค่าเฉลี่ยเลขคณิตของความใกล้เคียงทั้งหมดระหว่างวัตถุหนึ่งด้านหนึ่งและอีกด้านหนึ่งของวัตถุอีกด้านหนึ่ง ในขณะที่กลุ่มย่อยที่รวมกันเป็นสองกลุ่มนี้เมื่อเร็ว ๆ นี้มีอิทธิพลเท่าเทียมกันในบริเวณใกล้เคียง - แม้ว่ากลุ่มย่อยจะแตกต่างกันในจำนวนวัตถุ

  • วิธีการเชื่อมโยงเฉลี่ยภายในกลุ่ม (MNDIS) ความใกล้ชิดระหว่างสองกลุ่มคือค่าเฉลี่ยเลขคณิตของพร็อกซิมิตี้ทั้งหมดในคลัสเตอร์ร่วม วิธีนี้เป็นทางเลือกแทน UPGMA โดยปกติแล้วจะหายไปในแง่ของความหนาแน่นของคลัสเตอร์ แต่บางครั้งจะเปิดเผยรูปร่างของคลัสเตอร์ที่ UPGMA จะไม่

  • วิธีเซ็นทรอยด์ (UPGMC) ความใกล้ชิดระหว่างสองกลุ่มคือระยะทางระหว่างเซนทรอยด์ทางเรขาคณิต: [กำลังสอง] ระยะทางแบบยุคลิดระหว่างสองกลุ่ม คำอุปมาของคลัสเตอร์ที่สร้างขึ้นนี้อยู่ใกล้กับแพลตฟอร์ม (การเมือง) เช่นเดียวกับในพรรคการเมืองกลุ่มดังกล่าวอาจมีเศษส่วนหรือ "กลุ่ม" แต่ถ้าหากบุคคลศูนย์กลางของพวกเขาแยกจากกัน กลุ่มสามารถมีได้หลากหลายตามเค้าร่าง

  • ค่ามัธยฐานหรือวิธีสมดุล centroid (WPGMC) เป็นการแก้ไขก่อนหน้านี้ ความใกล้ชิดระหว่างสองกลุ่มคือระยะห่างระหว่าง centroids เรขาคณิตของพวกเขา ([กำลังสอง] ระยะทางแบบยุคลิดระหว่างพวกมัน); ในขณะที่เซนทรอยด์ถูกกำหนดไว้เพื่อให้กลุ่มย่อยที่แต่ละกลุ่มสองกลุ่มถูกรวมเข้าด้วยกันเมื่อเร็ว ๆ นี้มีอิทธิพลที่เท่ากันกับเซนทรอยด์ - แม้ว่ากลุ่มย่อยจะแตกต่างกันในจำนวนของวัตถุ

  • SS12-(SS1+SS2)2 ) คำอุปมาของคลัสเตอร์ที่สร้างขึ้นนี้คือชนิด

บางวิธีที่ไม่ค่อยเป็นที่รู้จัก (ดู Podany J. วิธีการจัดกลุ่ม combinatorial ใหม่ // Vegetatio, 1989, 81: 61-77) [ฉันยังนำมาใช้ในฐานะ SPSS มาโครที่พบในหน้าเว็บของฉัน]:

  • SS122

  • MS12-(n1MS1+n2MS2)/(n1+n2)=[SS12-(SS1+SS2)]/(n1+n2)4

  • MS12=SS12/(n1+n2)4

5 วิธีแรกอนุญาตให้ใช้มาตรการความใกล้ชิด (ความคล้ายคลึงกันหรือระยะทางใด ๆ ) และผลลัพธ์จะขึ้นอยู่กับมาตรการที่เลือก

6 วิธีการสุดท้ายต้องใช้ระยะทาง และถูกต้องอย่างเต็มที่คือการใช้ระยะทางแบบยุคลิดแบบสแควร์กับพวกมันเท่านั้นเพราะวิธีการเหล่านี้คำนวณ centroids ในพื้นที่แบบยุคลิด ดังนั้นระยะทางควรเป็นแบบยุคลิดเพื่อความถูกต้องทางเรขาคณิต (ทั้ง 6 วิธีนี้เรียกว่าวิธีการเชื่อมโยงทางเรขาคณิตด้วยกัน) ในกรณีที่เลวร้ายที่สุดคุณอาจใส่คนอื่นวัดระยะทางที่ยอมรับฮิวริสติกมากขึ้นการวิเคราะห์ที่แม่นยำน้อยกว่า ตอนนี้เกี่ยวกับ "กำลังสอง" การคำนวณเซนทรอยด์และการเบี่ยงเบนจากพวกมันนั้นสะดวกที่สุดทางคณิตศาสตร์ / ทางโปรแกรมเพื่อดำเนินการกับระยะทางกำลังสองนั่นคือเหตุผลที่แพคเกจ HAC มักจะต้องป้อนข้อมูลและปรับเพื่อประมวลผลกำลังสอง อย่างไรก็ตามมีการใช้งาน - เทียบเท่าอย่างเต็มที่ แต่ช้าลงเล็กน้อย - ขึ้นอยู่กับอินพุตระยะทางที่ไม่ต้องการและต้องการสิ่งเหล่านั้น ดูตัวอย่างการใช้งาน"Ward-2"สำหรับวิธีการของ Ward คุณควรศึกษาเอกสารของโปรแกรมการทำคลัสเตอร์ของคุณเพื่อให้ทราบว่า - กำลังสองหรือไม่ - ระยะทางที่คาดว่าจะถูกป้อนเข้ากับ "วิธีทางเรขาคณิต" เพื่อให้ถูกต้อง

วิธีการ MNDIS, MNSSQ และ MNVAR ต้องการขั้นตอนนอกเหนือจากการอัพเดตสูตร Lance-Williams เพื่อเก็บสถิติภายในคลัสเตอร์ (ซึ่งขึ้นอยู่กับวิธีการ)

วิธีการที่ใช้บ่อยที่สุดในการศึกษาที่คาดว่าจะเป็นกลุ่มก้อนเมฆทรงกลมแข็งมากขึ้นหรือน้อยลง - เป็นวิธีการเชื่อมโยงเฉลี่ยวิธีการเชื่อมโยงแบบสมบูรณ์และวิธีการของวอร์ด

วิธีของวอร์ดนั้นใกล้เคียงที่สุดโดยมีคุณสมบัติและประสิทธิภาพสำหรับการจัดกลุ่ม K-mean; พวกเขาแบ่งปันฟังก์ชั่นวัตถุประสงค์เดียวกัน - ลดขนาดของ pooled ภายใน SS-cluster "ท้ายที่สุด" แน่นอน K- หมายถึง (เป็นซ้ำและหากให้กับ centroid เริ่มต้นที่ดี) มักจะเป็น minimizer ที่ดีกว่าของวอร์ด อย่างไรก็ตามวอร์ดดูเหมือนจะมีความแม่นยำมากกว่าฉันเล็กน้อยในการเปิดเผยกลุ่มที่มีขนาดไม่เท่ากัน (ความแปรปรวน) หรือกลุ่มที่ถูกโยนทิ้งไปในอวกาศอย่างผิดปกติ วิธีการของ MIVAR นั้นแปลกสำหรับฉันฉันไม่สามารถจินตนาการได้ว่ามันจะแนะนำเมื่อใดมันไม่ได้ทำให้เกิดกลุ่มที่หนาแน่นพอ

วิธีการ centroid, มัธยฐาน, การเพิ่มขึ้นน้อยที่สุดของความแปรปรวน - บางครั้งอาจทำให้สิ่งที่เรียกว่าการพลิกกลับ : ปรากฏการณ์เมื่อทั้งสองกลุ่มถูกรวมเข้าด้วยกันในบางขั้นตอนจะปรากฏขึ้นใกล้กัน นั่นเป็นเพราะวิธีการเหล่านี้ไม่ได้เป็นของ ultrametric ที่เรียกว่า สถานการณ์นี้ไม่สะดวก แต่ในทางทฤษฎีก็โอเค

วิธีการเชื่อมโยงเดียวและเซนทรอยด์เป็นของที่เรียกว่าการทำสัญญาพื้นที่หรือ "ผูกมัด" นั่นหมายถึง - พูดอย่างคร่าว ๆ - ว่าพวกเขามักจะติดวัตถุทีละกลุ่มกับกลุ่มดังนั้นพวกเขาจึงแสดงให้เห็นถึงการเติบโตของเส้นโค้งที่ค่อนข้างราบรื่น“% ของวัตถุกลุ่ม” ในทางตรงกันข้ามวิธีการเชื่อมโยงที่สมบูรณ์ของวอร์ดผลรวมของความแปรปรวนเพิ่มความแปรปรวนและความแปรปรวนมักจะได้รับส่วนแบ่งจำนวนมากของกลุ่มวัตถุแม้ในขั้นตอนแรกและจากนั้นดำเนินการรวมเหล่านั้น - โค้งของพวกเขา ” สูงชันจากขั้นตอนแรก วิธีการเหล่านี้จะเรียกว่าพื้นที่การพอง วิธีการอื่น ๆ อยู่ระหว่าง

รุ่นที่มีความยืดหยุ่น โดยการเพิ่มพารามิเตอร์เพิ่มเติมลงในสูตร Lance-Willians เป็นไปได้ที่จะทำให้วิธีการปรับด้วยตนเองโดยเฉพาะในขั้นตอนของมัน พารามิเตอร์นำมาซึ่งการแก้ไขสำหรับการคำนวณระหว่างความใกล้ชิดของคลัสเตอร์ซึ่งขึ้นอยู่กับขนาด (จำนวนของความกะทัดรัด) ของคลัสเตอร์ ความหมายของพารามิเตอร์คือมันทำให้วิธีการรวมตัวกันการขยายพื้นที่มากขึ้นหรือการทำสัญญาพื้นที่กว่าวิธีมาตรฐานที่จะเป็นอีกต่อไป การใช้งานที่รู้จักกันดีที่สุดของความยืดหยุ่นจนถึงวิธีการเชื่อมโยงเฉลี่ย UPGMA และ WPGMA (Belbin, L. , et al. การเปรียบเทียบวิธีการสองแบบกับการจัดกลุ่มแบบยืดหยุ่นเบต้า // การวิจัยเชิงพฤติกรรมหลายตัวแปร, 1992, 27, 417–433 )

dendrogram บนแกน dendrogram "Y" โดยทั่วไปแล้วจะแสดงเป็นระยะทางระหว่างกลุ่มการผสาน - ตามที่กำหนดโดยวิธีการด้านบน ยกตัวอย่างเช่นในวิธีเซ็นทรอยด์ระยะทางกำลังสองจะถูกประเมินโดยทั่วไป (ท้ายที่สุดมันขึ้นอยู่กับแพ็คเกจและตัวเลือก) - งานวิจัยบางอย่างไม่ทราบว่า ยิ่งไปกว่านั้นตามธรรมเนียมด้วยวิธีการที่เพิ่มขึ้นจากความไม่มีความหนาแน่นเช่นวอร์ดมักแสดงใน dendrogram เป็นมูลค่าสะสม - มันเร็วกว่าด้วยเหตุผลด้านความสะดวกสบายมากกว่าทฤษฎี ดังนั้น (ในหลายแพ็คเกจ) สัมประสิทธิ์พล็อตในวิธีการของ Ward แสดงถึงภาพรวมในทุกกลุ่มภายในผลรวมของกลุ่มของสี่เหลี่ยมจัตุรัสที่สังเกตได้ในช่วงเวลาของขั้นตอนที่กำหนด

เราควรละเว้นจากการตัดสินว่าวิธีการเชื่อมโยงใดที่ "ดีกว่า" สำหรับข้อมูลของเขาโดยการเปรียบเทียบลักษณะของ dendrograms: ไม่เพียงเพราะรูปลักษณ์ที่เปลี่ยนแปลงเมื่อคุณเปลี่ยนการเปลี่ยนแปลงของสัมประสิทธิ์ที่คุณพล็อต - ตามที่อธิบายไว้ - แต่เพราะ รูปลักษณ์จะแตกต่างกันแม้ในข้อมูลที่ไม่มีกลุ่ม

เพื่อเลือกวิธี "ถูกต้อง"

ไม่มีเกณฑ์เดียว แนวทางบางอย่างเกี่ยวกับการเลือกวิธีการวิเคราะห์คลัสเตอร์ (รวมถึงวิธีการเชื่อมโยงใน HAC เป็นกรณีเฉพาะ) ได้อธิบายไว้ในคำตอบนี้และเธรดทั้งหมดในนั้น


1

ความสัมพันธ์ระหว่างเมทริกซ์ระยะทางและระยะทาง copheneticเป็นตัวชี้วัดหนึ่งที่จะช่วยในการประเมินการเชื่อมโยงการจัดกลุ่มที่จะเลือก จาก?cophenetic:

เป็นที่ถกเถียงกันอยู่ว่า dendrogram นั้นเป็นบทสรุปที่เหมาะสมของข้อมูลบางอย่างหากความสัมพันธ์ระหว่างระยะทางเดิมกับระยะทาง cophenetic นั้นสูง

การใช้cor(dist,cophenetic(hclust(dist)))เป็นตัวเลือกการเชื่อมโยงตัวชี้วัดนี้มีการอ้างอิงในหน้า 38 ของvegan บทความนี้

ดูรหัสตัวอย่างด้านล่าง:

# Data
d0=dist(USArrests)

# Hierarchical Agglomerative Clustering
h1=hclust(d0,method='average')
h2=hclust(d0,method='complete')
h3=hclust(d0,method='ward.D')
h4=hclust(d0,method='single')

# Cophenetic Distances, for each linkage
c1=cophenetic(h1)
c2=cophenetic(h2)
c3=cophenetic(h3)
c4=cophenetic(h4)

# Correlations
cor(d0,c1) # 0.7658983
cor(d0,c2) # 0.7636926
cor(d0,c3) # 0.7553367
cor(d0,c4) # 0.5702505

# Dendograms
par(mfrow=c(2,2))
plot(h1,main='Average Linkage')
plot(h2,main='Complete Linkage')
plot(h3,main='Ward Linkage')
plot(h4,main='Single Linkage')
par(mfrow=c(1,1))

เราเห็นว่าความสัมพันธ์สำหรับaverageและcompleteคล้ายกันมากและ dendograms ของพวกเขาปรากฏคล้ายกันมาก ความสัมพันธ์สำหรับwardนั้นคล้ายกับaverageและcompleteแต่ dendogram มีลักษณะที่แตกต่างกันพอสมควร singleการเชื่อมโยงกำลังทำสิ่งของตัวเอง cor()ตัดสินมืออาชีพที่ดีที่สุดจากผู้เชี่ยวชาญเรื่องเรื่องหรือมีความสำคัญต่อการเชื่อมโยงบางอย่างในด้านของดอกเบี้ยที่อาจจะแทนที่การส่งออกที่เป็นตัวเลขจาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.