ภาพรวมวิธีการ
การอ้างอิงสั้น ๆ เกี่ยวกับวิธีการเชื่อมโยงบางอย่างของการวิเคราะห์คลัสเตอร์แบบลำดับชั้น agglomerative (HAC)
เวอร์ชันพื้นฐานของอัลกอริทึม HAC เป็นหนึ่งทั่วไป มันเป็นจำนวนเงินที่จะอัปเดตในแต่ละขั้นตอนโดยสูตรที่รู้จักกันในชื่อแลนซ์ - วิลเลียมส์สูตรความใกล้ชิดระหว่างการเกิดขึ้นของการรวมกลุ่มของสองกลุ่มและกลุ่มอื่น ๆ (รวมถึงวัตถุเดี่ยว) ที่มีอยู่จนถึงปัจจุบัน มีการใช้งานที่ไม่ได้ใช้สูตรแลนซ์ - วิลเลียมส์ แต่การใช้งานนั้นสะดวก: มันช่วยให้วิธีการเชื่อมโยงรหัสต่างๆโดยใช้แม่แบบเดียวกัน
สูตรการเกิดซ้ำประกอบด้วยพารามิเตอร์หลายอย่าง (อัลฟ่าเบต้าแกมม่า) ขึ้นอยู่กับวิธีการเชื่อมโยงพารามิเตอร์จะถูกตั้งค่าแตกต่างกันดังนั้นสูตรที่ไม่ได้รับจะได้รับมุมมองที่เฉพาะเจาะจง ข้อความจำนวนมากใน HAC แสดงสูตรมุมมองเฉพาะวิธีการและอธิบายวิธีการ ฉันจะแนะนำบทความโดย Janos Podani อย่างละเอียด
ห้องและความต้องการวิธีการต่าง ๆ เกิดขึ้นจากความจริงที่ว่าความใกล้ชิด (ระยะทางหรือความคล้ายคลึงกัน) ระหว่างสองกลุ่มหรือระหว่างกลุ่มและวัตถุเดี่ยวอาจเป็นสูตรได้หลายวิธี HAC ผสานในแต่ละขั้นตอนที่ใกล้ที่สุดเป็นสองกลุ่มหรือจุด แต่วิธีการคำนวณความใกล้ชิดดังกล่าวในใบหน้าที่เมทริกซ์ความใกล้ชิดอินพุตถูกกำหนดระหว่างวัตถุเดี่ยวเท่านั้นเป็นปัญหาในการกำหนด
ดังนั้นวิธีการจะแตกต่างกันไปตามวิธีที่พวกเขากำหนดความใกล้ชิดระหว่างสองกลุ่มในทุกขั้นตอน "สัมประสิทธิ์การยุบตัว" (เอาต์พุตในตารางการรวมตัวกัน / ประวัติและสร้างแกน "Y" บน dendrogram) เป็นเพียงความใกล้ชิดระหว่างสองกลุ่มที่รวมกันในขั้นตอนที่กำหนด
วิธีการเดียวที่เชื่อมโยงหรือเพื่อนบ้านที่ใกล้ที่สุด ความใกล้ชิดระหว่างสองกลุ่มคือระยะทางระหว่างวัตถุที่อยู่ใกล้ที่สุดสองแห่ง ค่านี้เป็นหนึ่งในค่าของอินพุตเมทริกซ์ อุปมาแนวคิดนี้สร้างขึ้นจากกลุ่มแม่ของมันคือคลื่นความถี่หรือห่วงโซ่ โซ่อาจเป็นทางตรงหรือโค้งหรืออาจเป็นมุมมอง "เกล็ดหิมะ" หรือ "อะมีบา" สมาชิกคลัสเตอร์ที่แตกต่างกันมากที่สุดสองคนสามารถเกิดขึ้นได้แตกต่างกันมากเมื่อเทียบกับสมาชิกที่คล้ายกันมากที่สุดสองคน วิธีการเชื่อมโยงเดียวควบคุมความคล้ายคลึงกันของเพื่อนบ้านที่ใกล้เคียงที่สุดเท่านั้น
วิธีการที่สมบูรณ์แบบการเชื่อมโยงหรือเพื่อนบ้านที่ไกลที่สุด ความใกล้ชิดระหว่างสองกลุ่มคือระยะทางระหว่างวัตถุที่อยู่ไกลที่สุดสองแห่ง ค่านี้เป็นหนึ่งในค่าของอินพุตเมทริกซ์ อุปมาของคลัสเตอร์ที่สร้างขึ้นนี้คือวงกลม (ในความหมายโดยงานอดิเรกหรือพล็อต) ที่สองที่ไกลที่สุดจากสมาชิกคนอื่น ๆ ไม่สามารถแตกต่างกันมากไปกว่าคู่อื่น ๆ ที่ค่อนข้างแตกต่างกัน (ในวง) กลุ่มดังกล่าวเป็นรูปทรง "กะทัดรัด" ตามชายแดน แต่ไม่จำเป็นต้องกระชับภายใน
วิธีการเชื่อมโยงเฉลี่ยระหว่างกลุ่ม (UPGMA) ความใกล้ชิดระหว่างสองกลุ่มคือค่าเฉลี่ยเลขคณิตของความใกล้เคียงทั้งหมดระหว่างวัตถุหนึ่งด้านหนึ่งและอีกด้านหนึ่งของวัตถุในอีกด้านหนึ่ง คำอุปมาของคลัสเตอร์ที่สร้างขึ้นนี้ค่อนข้างทั่วไปเพียงชั้นเดียวหรือเป็นกลุ่มที่ใกล้ชิดกัน และวิธีการมักจะตั้งค่าเริ่มต้นหนึ่งในแพ็คเกจการทำคลัสเตอร์ กลุ่มของรูปร่างและโครงร่างเบ็ดเตล็ดสามารถผลิตได้
ค่าเฉลี่ยอย่างง่ายหรือวิธีการเฉลี่ยที่สมดุลระหว่างกลุ่มเชื่อมโยงเท่าเทียมกัน (WPGMA) เป็นการแก้ไขก่อนหน้านี้ ความใกล้ชิดระหว่างสองกลุ่มคือค่าเฉลี่ยเลขคณิตของความใกล้เคียงทั้งหมดระหว่างวัตถุหนึ่งด้านหนึ่งและอีกด้านหนึ่งของวัตถุอีกด้านหนึ่ง ในขณะที่กลุ่มย่อยที่รวมกันเป็นสองกลุ่มนี้เมื่อเร็ว ๆ นี้มีอิทธิพลเท่าเทียมกันในบริเวณใกล้เคียง - แม้ว่ากลุ่มย่อยจะแตกต่างกันในจำนวนวัตถุ
วิธีการเชื่อมโยงเฉลี่ยภายในกลุ่ม (MNDIS) ความใกล้ชิดระหว่างสองกลุ่มคือค่าเฉลี่ยเลขคณิตของพร็อกซิมิตี้ทั้งหมดในคลัสเตอร์ร่วม วิธีนี้เป็นทางเลือกแทน UPGMA โดยปกติแล้วจะหายไปในแง่ของความหนาแน่นของคลัสเตอร์ แต่บางครั้งจะเปิดเผยรูปร่างของคลัสเตอร์ที่ UPGMA จะไม่
วิธีเซ็นทรอยด์ (UPGMC) ความใกล้ชิดระหว่างสองกลุ่มคือระยะทางระหว่างเซนทรอยด์ทางเรขาคณิต: [กำลังสอง] ระยะทางแบบยุคลิดระหว่างสองกลุ่ม คำอุปมาของคลัสเตอร์ที่สร้างขึ้นนี้อยู่ใกล้กับแพลตฟอร์ม (การเมือง) เช่นเดียวกับในพรรคการเมืองกลุ่มดังกล่าวอาจมีเศษส่วนหรือ "กลุ่ม" แต่ถ้าหากบุคคลศูนย์กลางของพวกเขาแยกจากกัน กลุ่มสามารถมีได้หลากหลายตามเค้าร่าง
ค่ามัธยฐานหรือวิธีสมดุล centroid (WPGMC) เป็นการแก้ไขก่อนหน้านี้ ความใกล้ชิดระหว่างสองกลุ่มคือระยะห่างระหว่าง centroids เรขาคณิตของพวกเขา ([กำลังสอง] ระยะทางแบบยุคลิดระหว่างพวกมัน); ในขณะที่เซนทรอยด์ถูกกำหนดไว้เพื่อให้กลุ่มย่อยที่แต่ละกลุ่มสองกลุ่มถูกรวมเข้าด้วยกันเมื่อเร็ว ๆ นี้มีอิทธิพลที่เท่ากันกับเซนทรอยด์ - แม้ว่ากลุ่มย่อยจะแตกต่างกันในจำนวนของวัตถุ
SS12- ( SS1+ SS2)2 ) คำอุปมาของคลัสเตอร์ที่สร้างขึ้นนี้คือชนิด
บางวิธีที่ไม่ค่อยเป็นที่รู้จัก (ดู Podany J. วิธีการจัดกลุ่ม combinatorial ใหม่ // Vegetatio, 1989, 81: 61-77) [ฉันยังนำมาใช้ในฐานะ SPSS มาโครที่พบในหน้าเว็บของฉัน]:
5 วิธีแรกอนุญาตให้ใช้มาตรการความใกล้ชิด (ความคล้ายคลึงกันหรือระยะทางใด ๆ ) และผลลัพธ์จะขึ้นอยู่กับมาตรการที่เลือก
6 วิธีการสุดท้ายต้องใช้ระยะทาง และถูกต้องอย่างเต็มที่คือการใช้ระยะทางแบบยุคลิดแบบสแควร์กับพวกมันเท่านั้นเพราะวิธีการเหล่านี้คำนวณ centroids ในพื้นที่แบบยุคลิด ดังนั้นระยะทางควรเป็นแบบยุคลิดเพื่อความถูกต้องทางเรขาคณิต (ทั้ง 6 วิธีนี้เรียกว่าวิธีการเชื่อมโยงทางเรขาคณิตด้วยกัน) ในกรณีที่เลวร้ายที่สุดคุณอาจใส่คนอื่นวัดระยะทางที่ยอมรับฮิวริสติกมากขึ้นการวิเคราะห์ที่แม่นยำน้อยกว่า ตอนนี้เกี่ยวกับ "กำลังสอง" การคำนวณเซนทรอยด์และการเบี่ยงเบนจากพวกมันนั้นสะดวกที่สุดทางคณิตศาสตร์ / ทางโปรแกรมเพื่อดำเนินการกับระยะทางกำลังสองนั่นคือเหตุผลที่แพคเกจ HAC มักจะต้องป้อนข้อมูลและปรับเพื่อประมวลผลกำลังสอง อย่างไรก็ตามมีการใช้งาน - เทียบเท่าอย่างเต็มที่ แต่ช้าลงเล็กน้อย - ขึ้นอยู่กับอินพุตระยะทางที่ไม่ต้องการและต้องการสิ่งเหล่านั้น ดูตัวอย่างการใช้งาน"Ward-2"สำหรับวิธีการของ Ward คุณควรศึกษาเอกสารของโปรแกรมการทำคลัสเตอร์ของคุณเพื่อให้ทราบว่า - กำลังสองหรือไม่ - ระยะทางที่คาดว่าจะถูกป้อนเข้ากับ "วิธีทางเรขาคณิต" เพื่อให้ถูกต้อง
วิธีการ MNDIS, MNSSQ และ MNVAR ต้องการขั้นตอนนอกเหนือจากการอัพเดตสูตร Lance-Williams เพื่อเก็บสถิติภายในคลัสเตอร์ (ซึ่งขึ้นอยู่กับวิธีการ)
วิธีการที่ใช้บ่อยที่สุดในการศึกษาที่คาดว่าจะเป็นกลุ่มก้อนเมฆทรงกลมแข็งมากขึ้นหรือน้อยลง - เป็นวิธีการเชื่อมโยงเฉลี่ยวิธีการเชื่อมโยงแบบสมบูรณ์และวิธีการของวอร์ด
วิธีของวอร์ดนั้นใกล้เคียงที่สุดโดยมีคุณสมบัติและประสิทธิภาพสำหรับการจัดกลุ่ม K-mean; พวกเขาแบ่งปันฟังก์ชั่นวัตถุประสงค์เดียวกัน - ลดขนาดของ pooled ภายใน SS-cluster "ท้ายที่สุด" แน่นอน K- หมายถึง (เป็นซ้ำและหากให้กับ centroid เริ่มต้นที่ดี) มักจะเป็น minimizer ที่ดีกว่าของวอร์ด อย่างไรก็ตามวอร์ดดูเหมือนจะมีความแม่นยำมากกว่าฉันเล็กน้อยในการเปิดเผยกลุ่มที่มีขนาดไม่เท่ากัน (ความแปรปรวน) หรือกลุ่มที่ถูกโยนทิ้งไปในอวกาศอย่างผิดปกติ วิธีการของ MIVAR นั้นแปลกสำหรับฉันฉันไม่สามารถจินตนาการได้ว่ามันจะแนะนำเมื่อใดมันไม่ได้ทำให้เกิดกลุ่มที่หนาแน่นพอ
วิธีการ centroid, มัธยฐาน, การเพิ่มขึ้นน้อยที่สุดของความแปรปรวน - บางครั้งอาจทำให้สิ่งที่เรียกว่าการพลิกกลับ : ปรากฏการณ์เมื่อทั้งสองกลุ่มถูกรวมเข้าด้วยกันในบางขั้นตอนจะปรากฏขึ้นใกล้กัน นั่นเป็นเพราะวิธีการเหล่านี้ไม่ได้เป็นของ ultrametric ที่เรียกว่า สถานการณ์นี้ไม่สะดวก แต่ในทางทฤษฎีก็โอเค
วิธีการเชื่อมโยงเดียวและเซนทรอยด์เป็นของที่เรียกว่าการทำสัญญาพื้นที่หรือ "ผูกมัด" นั่นหมายถึง - พูดอย่างคร่าว ๆ - ว่าพวกเขามักจะติดวัตถุทีละกลุ่มกับกลุ่มดังนั้นพวกเขาจึงแสดงให้เห็นถึงการเติบโตของเส้นโค้งที่ค่อนข้างราบรื่น“% ของวัตถุกลุ่ม” ในทางตรงกันข้ามวิธีการเชื่อมโยงที่สมบูรณ์ของวอร์ดผลรวมของความแปรปรวนเพิ่มความแปรปรวนและความแปรปรวนมักจะได้รับส่วนแบ่งจำนวนมากของกลุ่มวัตถุแม้ในขั้นตอนแรกและจากนั้นดำเนินการรวมเหล่านั้น - โค้งของพวกเขา ” สูงชันจากขั้นตอนแรก วิธีการเหล่านี้จะเรียกว่าพื้นที่การพอง วิธีการอื่น ๆ อยู่ระหว่าง
รุ่นที่มีความยืดหยุ่น โดยการเพิ่มพารามิเตอร์เพิ่มเติมลงในสูตร Lance-Willians เป็นไปได้ที่จะทำให้วิธีการปรับด้วยตนเองโดยเฉพาะในขั้นตอนของมัน พารามิเตอร์นำมาซึ่งการแก้ไขสำหรับการคำนวณระหว่างความใกล้ชิดของคลัสเตอร์ซึ่งขึ้นอยู่กับขนาด (จำนวนของความกะทัดรัด) ของคลัสเตอร์ ความหมายของพารามิเตอร์คือมันทำให้วิธีการรวมตัวกันการขยายพื้นที่มากขึ้นหรือการทำสัญญาพื้นที่กว่าวิธีมาตรฐานที่จะเป็นอีกต่อไป การใช้งานที่รู้จักกันดีที่สุดของความยืดหยุ่นจนถึงวิธีการเชื่อมโยงเฉลี่ย UPGMA และ WPGMA (Belbin, L. , et al. การเปรียบเทียบวิธีการสองแบบกับการจัดกลุ่มแบบยืดหยุ่นเบต้า // การวิจัยเชิงพฤติกรรมหลายตัวแปร, 1992, 27, 417–433 )
dendrogram บนแกน dendrogram "Y" โดยทั่วไปแล้วจะแสดงเป็นระยะทางระหว่างกลุ่มการผสาน - ตามที่กำหนดโดยวิธีการด้านบน ยกตัวอย่างเช่นในวิธีเซ็นทรอยด์ระยะทางกำลังสองจะถูกประเมินโดยทั่วไป (ท้ายที่สุดมันขึ้นอยู่กับแพ็คเกจและตัวเลือก) - งานวิจัยบางอย่างไม่ทราบว่า ยิ่งไปกว่านั้นตามธรรมเนียมด้วยวิธีการที่เพิ่มขึ้นจากความไม่มีความหนาแน่นเช่นวอร์ดมักแสดงใน dendrogram เป็นมูลค่าสะสม - มันเร็วกว่าด้วยเหตุผลด้านความสะดวกสบายมากกว่าทฤษฎี ดังนั้น (ในหลายแพ็คเกจ) สัมประสิทธิ์พล็อตในวิธีการของ Ward แสดงถึงภาพรวมในทุกกลุ่มภายในผลรวมของกลุ่มของสี่เหลี่ยมจัตุรัสที่สังเกตได้ในช่วงเวลาของขั้นตอนที่กำหนด
เราควรละเว้นจากการตัดสินว่าวิธีการเชื่อมโยงใดที่ "ดีกว่า" สำหรับข้อมูลของเขาโดยการเปรียบเทียบลักษณะของ dendrograms: ไม่เพียงเพราะรูปลักษณ์ที่เปลี่ยนแปลงเมื่อคุณเปลี่ยนการเปลี่ยนแปลงของสัมประสิทธิ์ที่คุณพล็อต - ตามที่อธิบายไว้ - แต่เพราะ รูปลักษณ์จะแตกต่างกันแม้ในข้อมูลที่ไม่มีกลุ่ม
เพื่อเลือกวิธี "ถูกต้อง"
ไม่มีเกณฑ์เดียว แนวทางบางอย่างเกี่ยวกับการเลือกวิธีการวิเคราะห์คลัสเตอร์ (รวมถึงวิธีการเชื่อมโยงใน HAC เป็นกรณีเฉพาะ) ได้อธิบายไว้ในคำตอบนี้และเธรดทั้งหมดในนั้น