ข้อสมมติฐานของการวิเคราะห์กลุ่ม

16

ขอโทษสำหรับคำถามพื้นฐานฉันยังใหม่กับการวิเคราะห์รูปแบบนี้และมีความเข้าใจที่ จำกัด มากในหลักการ

ฉันแค่สงสัยว่าหลายสมมติฐานสำหรับการทดสอบหลายตัวแปร / univariate ใช้สำหรับการวิเคราะห์กลุ่ม? แหล่งข้อมูลจำนวนมากที่ฉันได้อ่านเกี่ยวกับการวิเคราะห์กลุ่มไม่สามารถระบุสมมติฐานได้

ฉันสนใจเป็นพิเศษในการตั้งสมมติฐานของความเป็นอิสระของการสังเกต ความเข้าใจของฉันคือการละเมิดสมมติฐานนี้ (ในตัวอย่าง ANOVA และ MAVOVA) นั้นร้ายแรงเพราะมันมีผลต่อการประมาณการข้อผิดพลาด จากการอ่านของฉันจนถึงขณะนี้ดูเหมือนว่าการวิเคราะห์กลุ่มส่วนใหญ่เป็นเทคนิคที่อธิบาย (ที่เกี่ยวข้องกับการอนุมานทางสถิติในบางกรณีที่ระบุเท่านั้น) ดังนั้นสมมติฐานเช่นความเป็นอิสระและการกระจายข้อมูลตามปกติจำเป็นต้องมี?

คำแนะนำใด ๆ ของข้อความที่กล่าวถึงปัญหานี้จะได้รับการชื่นชมอย่างมาก ขอบคุณมาก.

clustering assumptions

— ไคล์บราวน์
แหล่งที่มา

7

เทคนิคการจัดกลุ่มนั้นไม่ได้ จำกัด เพียงวิธีการทางไกลที่เราค้นหากลุ่มของหน่วยทางสถิติที่อยู่ใกล้กันอย่างผิดปกติในแง่เรขาคณิต นอกจากนี้ยังมีเทคนิคหลายอย่างที่ใช้ความหนาแน่น (กลุ่มจะถูกมองว่าเป็น "ภูมิภาค" ในพื้นที่ของคุณลักษณะ) หรือการแจกแจงความน่าจะเป็นเป็น

กรณีหลังก็ยังเป็นที่รู้ว่าเป็นแบบที่ใช้การจัดกลุ่ม ; Psychometricians ใช้คำว่าLatent Profile Analysisเพื่อแสดงกรณีเฉพาะของFinite Mixture Modelซึ่งเราสันนิษฐานว่าประชากรประกอบด้วยกลุ่มที่ไม่ได้รับการตรวจสอบที่แตกต่างกันหรือคลาสแฝงและความหนาแน่นของตัวแปรร่วมทั้งหมดเป็นส่วนผสมของคลาสนี้ ความหนาแน่นเฉพาะ การดำเนินงานที่ดีที่มีอยู่ในMclustแพคเกจหรือMplusซอฟแวร์ สามารถใช้เมทริกซ์ความแปรปรวนร่วมแปรปรวนระดับที่แตกต่างกันได้ (ในความเป็นจริง Mclust ใช้เกณฑ์ BIC เพื่อเลือกหนึ่งค่าที่เหมาะสมที่สุดในขณะที่เปลี่ยนจำนวนของกลุ่ม)

โมเดลคลาส Latentมาตรฐานยังทำให้สมมติฐานที่ว่าข้อมูลที่สังเกตมาจากส่วนผสมของการแจกแจงหลายตัวแปรแบบหลายตัวแปร g ภาพรวมที่ดีมีอยู่ในการวิเคราะห์คลัสเตอร์แบบจำลอง: การป้องกันโดย Gilles Celeux

ด้วยวิธีการเหล่านี้ขึ้นอยู่กับสมมติฐานการกระจายสิ่งนี้ยังทำให้สามารถใช้การทดสอบอย่างเป็นทางการหรือดัชนีความดีของความพอดีในการตัดสินใจเกี่ยวกับจำนวนของกลุ่มหรือคลาสซึ่งยังคงเป็นปัญหาที่ยากในการวิเคราะห์กลุ่มตามระยะทาง ที่กล่าวถึงปัญหานี้:

Handl, J. , Knowles, J. และ Kell, DB (2005) การตรวจสอบความถูกต้องของคลัสเตอร์คอมพิวเตอร์ในการวิเคราะห์ข้อมูลหลังการทำจีโนม ชีวสารสนเทศศาสตร์ , 21 (15) , 3201-3212
Hennig, C. (2007) การประเมินความเสถียรของคลัสเตอร์แบบชาญฉลาด สถิติการคำนวณและการวิเคราะห์ข้อมูล , 52 , 258-271
Hennig, C. (2008) จุดหลอมเหลวและความทนทานของการแยก: เกณฑ์ความทนทานสำหรับวิธีการวิเคราะห์กลุ่มทั่วไป วารสารการวิเคราะห์หลายตัวแปร , 99 , 1154-1176

— CHL
แหล่งที่มา

3

มีวิธีการจัดกลุ่มที่หลากหลายมากซึ่งเป็นวิธีการสำรวจโดยธรรมชาติและฉันไม่คิดว่าจะมีวิธีการจัดกลุ่มแบบใด ๆ ไม่ว่าจะเป็นแบบลำดับชั้นหรือตามพาร์ติชันขึ้นอยู่กับประเภทของสมมติฐานที่เราต้องพบเพื่อวิเคราะห์ความแปรปรวน

เมื่อดูที่เอกสาร [MV] ใน Stata เพื่อตอบคำถามของคุณฉันพบข้อความอ้างอิงที่น่าขบขันที่หน้า 85:

แม้ว่าบางคนบอกว่ามีวิธีการวิเคราะห์คลัสเตอร์หลายวิธีเช่นเดียวกับที่ผู้คนทำการวิเคราะห์กลุ่ม นี่คือการพูดขั้นต้น! มีวิธีการวิเคราะห์กลุ่มมากกว่าผู้ที่ดำเนินการอยู่

ในบริบทนั้นฉันสงสัยว่ามีข้อสันนิษฐานใด ๆ ที่ใช้ในวิธีการจัดกลุ่ม ส่วนที่เหลือของข้อความเพิ่งกำหนดเป็นกฎทั่วไปที่คุณต้องการรูปแบบของ "การวัดที่แตกต่างกัน" ซึ่งไม่จำเป็นต้องเป็นระยะทางเมตริกเพื่อสร้างกลุ่ม

มีข้อยกเว้นหนึ่งข้อซึ่งเมื่อคุณทำการจัดกลุ่มการสังเกตเป็นส่วนหนึ่งของการวิเคราะห์หลังการประมาณ ใน Stata vceคำสั่งมาพร้อมกับคำเตือนต่อไปนี้ที่หน้า 86 ของแหล่งข้อมูลเดียวกัน:

หากคุณคุ้นเคยกับคำสั่งการประมาณค่าขนาดใหญ่ของ Stata ให้ระมัดระวังในการแยกแยะระหว่างการวิเคราะห์คลัสเตอร์ (คำสั่งคลัสเตอร์) และตัวเลือก vce (คลัสเตอร์ clustvar) ที่ได้รับอนุญาตพร้อมกับคำสั่งการประเมินจำนวนมาก การวิเคราะห์กลุ่มค้นหากลุ่มในข้อมูล ตัวเลือก vce (คลัสเตอร์ clustvar) ที่อนุญาตให้ใช้กับคำสั่งการประมาณค่าต่าง ๆ บ่งชี้ว่าการสังเกตเป็นอิสระข้ามกลุ่มที่กำหนดโดยตัวเลือก แต่ไม่จำเป็นต้องเป็นอิสระภายในกลุ่มเหล่านั้น ตัวแปรการจัดกลุ่มที่สร้างโดยคำสั่งคลัสเตอร์จะไม่ค่อยตรงตามสมมติฐานที่ใช้ตัวเลือก vce (คลัสเตอร์ clustvar)

จากนั้นฉันจะสมมติว่าไม่จำเป็นต้องมีการสังเกตอิสระนอกกรณีนั้น โดยสังหรณ์ใจฉันจะเพิ่มการวิเคราะห์กลุ่มที่อาจใช้เพื่อวัตถุประสงค์ที่แม่นยำในการสำรวจขอบเขตที่การสังเกตเป็นอิสระหรือไม่

ฉันจะพูดให้จบที่หน้า 356ของสถิติด้วย Stataลอว์เรนซ์แฮมิลตันกล่าวถึงตัวแปรมาตรฐานว่าเป็นแง่มุมที่ "จำเป็น" ของการวิเคราะห์กลุ่มแม้ว่าเขาจะไม่ได้เจาะลึกเรื่องนี้มากขึ้น

— Fr.
แหล่งที่มา

2

การวิเคราะห์กลุ่มเชิงพื้นที่ใช้การสังเกตทางภูมิศาสตร์อ้างอิงและเป็นส่วนย่อยของการวิเคราะห์กลุ่มที่ไม่ จำกัด เฉพาะการวิเคราะห์เชิงสำรวจ

ตัวอย่างที่ 1

สามารถใช้เพื่อสร้างเขตการเลือกตั้งที่ยุติธรรม

ตัวอย่างที่ 2

มาตรการวัดความสัมพันธ์เชิงพื้นที่อัตโนมัติท้องถิ่นใช้วิธีการ AMOEBA ในการทำคลัสเตอร์ Aldstadt และ Getis ใช้กลุ่มผลลัพธ์เพื่อสร้างเมทริกซ์น้ำหนักเชิงพื้นที่ที่สามารถระบุได้ในการถดถอยเชิงพื้นที่เพื่อทดสอบสมมติฐาน

ดู Aldstadt, Jared และ Arthur Getis (2006)“ การใช้ AMOEBA เพื่อสร้างเมทริกซ์น้ำหนักเชิงพื้นที่และระบุกลุ่มอวกาศ” การวิเคราะห์ทางภูมิศาสตร์ 38 (4) 327-343

ตัวอย่างที่ 3

การวิเคราะห์กลุ่มบนพื้นฐานของภูมิภาคที่มีการเติบโตแบบสุ่มที่กำหนดเกณฑ์สามารถใช้เป็นวิธีที่น่าจะเป็นเพื่อแสดงถึงความไม่ยุติธรรมในการออกแบบโซนสถาบันเช่นเขตเข้าเรียนในโรงเรียนหรือเขตการเลือกตั้ง

— b_dev
แหล่งที่มา

1

การวิเคราะห์กลุ่มไม่เกี่ยวข้องกับการทดสอบสมมติฐานต่อ แต่เป็นเพียงชุดของอัลกอริทึมความคล้ายคลึงกันที่แตกต่างกันสำหรับการวิเคราะห์เชิงสำรวจ คุณสามารถบังคับการทดสอบสมมติฐานได้บ้าง แต่ผลลัพธ์มักจะไม่สอดคล้องกันเนื่องจากการเปลี่ยนแปลงของกลุ่มมีความอ่อนไหวต่อการเปลี่ยนแปลงของพารามิเตอร์มาก

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introclus_sect010.htm

— Ralph Winters
แหล่งที่มา