ความกว้างของเงาต่ำหมายความว่าข้อมูลมีโครงสร้างพื้นฐานน้อยหรือไม่


10

ฉันยังใหม่กับการวิเคราะห์ลำดับและฉันสงสัยว่าคุณจะตอบสนองอย่างไรถ้าความกว้างของเงาเฉลี่ย (ASW) จากการวิเคราะห์กลุ่มของเมทริกซ์ความแตกต่างของ Optimal Matching-based มีค่าต่ำ (ประมาณ 25) ดูเหมือนจะเหมาะสมหรือไม่ที่จะสรุปว่ามีโครงสร้างพื้นฐานเล็กน้อยที่จะอนุญาตให้มีการเรียงลำดับของคลัสเตอร์หรือไม่ คุณอาจเพิกเฉยต่อ ASW ต่ำตามการวัดคุณภาพคลัสเตอร์อื่น ๆ (ฉันได้วางไว้ด้านล่าง) หรือเป็นไปได้ว่าตัวเลือกที่ทำในระหว่างการวิเคราะห์ลำดับหรือการวิเคราะห์กลุ่มที่ตามมาอาจเป็นสาเหตุของตัวเลข ASW ที่ต่ำ

ข้อเสนอแนะใด ๆ ที่จะได้รับการชื่นชม ขอบคุณ

ในกรณีที่ต้องการบริบทเพิ่มเติม:

ฉันกำลังตรวจสอบลำดับของชั่วโมงทำงานที่ไม่ตรงกัน 624 ลำดับ (กล่าวคือไม่ตรงกันระหว่างจำนวนชั่วโมงที่คนต้องการทำงานในหนึ่งสัปดาห์และจำนวนชั่วโมงที่พวกเขาทำงานจริง) ในคนอายุ 20 ปี ลำดับทั้งหมดที่ฉันกำลังตรวจสอบมีความยาว 10 วัตถุลำดับของฉันมีห้าสถานะ (M = ต้องการเวลามากขึ้น S = ต้องการชั่วโมงเดียวกัน, F = ต้องการชั่วโมงที่น้อยกว่า, O = กำลังแรงงานและ U = ผู้ว่างงาน )

ฉันไม่ได้ทำบัญชีอย่างเป็นระบบว่าผลลัพธ์ของ ASW นั้นแตกต่างกันไปตามวิธีการที่หลากหลาย แต่ถึงกระนั้นฉันได้ลองใช้ค่าใช้จ่ายการลดค่าใช้จ่ายต่ำและปานกลาง (.1 และ. 6 ของค่าทดแทนสูงสุด - ฉันสนใจคำสั่งของเหตุการณ์มากกว่าเวลาของพวกเขา) และขั้นตอนการจัดกลุ่มที่แตกต่างกัน (วอร์ด, ค่าเฉลี่ยและ pam) ความประทับใจโดยรวมของฉันคือตัวเลข ASW ยังคงต่ำ

บางทีผลลัพธ์ของ ASW ที่ต่ำนั้นสมเหตุสมผล ฉันคาดว่ารัฐเหล่านี้จะมีคำสั่งที่แตกต่างหลากหลายและรัฐสามารถทำซ้ำได้ การลบข้อสังเกตที่ซ้ำกันเพียงลด N จาก 624 เป็น 536 การศึกษาข้อมูลพบว่ามีความหลากหลายและลำดับที่ดีที่ฉันจะพิจารณาแตกต่างกันมากเช่นคนที่ต้องการเวลาเดียวกันตลอดเวลาพัฒนาไม่ตรงกันแก้ไข ไม่ตรงกันและสั่นไปมาระหว่างการมีและไม่มีความไม่ตรงกัน บางทีการขาดกลุ่มที่แตกต่างอย่างชัดเจนอาจไม่ใช่สิ่งเดียวกับการขาดความน่าสนใจ ถึงกระนั้นผลลัพธ์ของกลุ่มที่อ่อนแอก็ทำให้ฉันไม่มีวิธีที่ดีในการสรุปลำดับ

ผลลัพธ์จากวิธีของ Ward ด้วยการตั้งค่า indel ที่. 1 ของค่าทดแทน 2 สถิติเหล่านี้ดูเหมือนจะแนะนำวิธีการแก้ปัญหา 6 คลัสเตอร์อาจจะดี อย่างไรก็ตาม ASW มีค่าน้อย - อย่างน้อยสำหรับโซลูชันที่มีจำนวนกลุ่มที่สมเหตุสมผล (2 หรือ 3 น้อยเกินไป)

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08

คำตอบ:


11

ASW เป็นการวัดความต่อเนื่องของวิธีการจัดกลุ่ม ค่า ASW ที่สูงหมายความว่ากลุ่มนั้นเป็นเนื้อเดียวกัน (การสังเกตทั้งหมดอยู่ใกล้กับศูนย์กลางคลัสเตอร์) และแยกออกจากกัน จากข้อมูลของ Kaufmann และ Rousseuw (1990) ค่าต่ำกว่า 0.25 หมายความว่าข้อมูลไม่มีโครงสร้าง ระหว่าง 0.25 ถึง 0.5 ข้อมูลอาจถูกจัดโครงสร้าง แต่อาจเป็นเล่ห์เหลี่ยม โปรดทราบว่าค่าเหล่านี้เป็นสิ่งบ่งชี้และไม่ควรใช้เป็นเกณฑ์ในการตัดสินใจ ค่าเหล่านี้ไม่ได้กำหนดตามหลักวิชา (ไม่มีในบางค่า p-value) แต่ขึ้นอยู่กับประสบการณ์ของผู้เขียน ดังนั้นตามค่า ASW ต่ำเหล่านี้ดูเหมือนว่าข้อมูลของคุณจะไม่มีโครงสร้าง หากวัตถุประสงค์ของการวิเคราะห์คลัสเตอร์เป็นเพียงการอธิบายคุณสามารถโต้แย้งได้ว่ามันแสดงรูปแบบที่เด่นชัดที่สุดบางส่วน (แต่เพียงบางส่วนเท่านั้น) อย่างไรก็ตาม

คุณสามารถลองดูที่ค่า ASW "ต่อคลัสเตอร์" (ฟังก์ชั่นนี้มอบให้โดยwcClusterQuality) บางทีกลุ่มของคุณบางกลุ่มอาจถูกกำหนดไว้อย่างดีและบางกลุ่มอาจเป็น "ปลอมแปลง" (ASW <0) ทำให้มีค่า ASW โดยรวมต่ำ

คุณสามารถลองใช้กลยุทธ์บู๊ตสแตรปซึ่งควรให้คำแนะนำที่ดีกว่า ใน R ฟังก์ชั่นclusterbootในแพ็คเกจfpcสามารถใช้เพื่อจุดประสงค์นี้ได้ (ดูที่หน้าช่วยเหลือ) อย่างไรก็ตามมันไม่ทำงานกับข้อมูลที่มีน้ำหนัก หากข้อมูลของคุณไม่มีน้ำหนักฉันคิดว่ามันคุ้มค่าที่จะลองดู

ในที่สุดคุณอาจต้องการดูข้อมูลและการจัดหมวดหมู่ของคุณให้ละเอียดยิ่งขึ้น บางทีหมวดหมู่ของคุณอาจไม่เสถียรหรือไม่ชัดเจน อย่างไรก็ตามดูเหมือนว่าจะไม่เป็นเช่นนั้น

ดังที่คุณได้กล่าวไว้ว่า "การขาดกลุ่มที่มีความแตกต่างอย่างชัดเจนนั้นไม่ใช่สิ่งเดียวกับการขาดความหลากหลายที่น่าสนใจ" มีวิธีอื่นในการวิเคราะห์ความแปรปรวนของลำดับของคุณเช่นการวิเคราะห์ความแตกต่าง วิธีการเหล่านี้ช่วยให้คุณสามารถศึกษาการเชื่อมโยงระหว่างลำดับและปัจจัยที่อธิบายได้ ตัวอย่างเช่นคุณอาจลองสร้างแผนผังการถดถอยลำดับ (ฟังก์ชั่น "seqtree" ในแพ็คเกจ TraMineR)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.