การวิเคราะห์ระดับแฝงกับการวิเคราะห์กลุ่ม - ความแตกต่างในการอนุมาน?


30

การอนุมานที่แตกต่างกันสามารถทำอะไรได้จากการวิเคราะห์ระดับแฝง (LCA) กับการวิเคราะห์คลัสเตอร์ มันถูกต้องหรือไม่ที่ LCA ถือว่าตัวแปรแฝงแฝงที่ก่อให้เกิดคลาสในขณะที่การวิเคราะห์กลุ่มเป็นคำอธิบายเชิงประจักษ์ของคุณลักษณะที่สัมพันธ์กันจากอัลกอริทึมการจัดกลุ่ม? ดูเหมือนว่าในสังคมศาสตร์ LCA ได้รับความนิยมและได้รับการพิจารณาว่าเป็นระบบที่เหนือกว่าเนื่องจากมีการทดสอบความสำคัญแบบไคสแควร์อย่างเป็นทางการซึ่งการวิเคราะห์กลุ่มไม่ได้

มันจะเป็นการดีถ้าตัวอย่างสามารถเสนอในรูปแบบของ "LCA จะเหมาะสมกับสิ่งนี้ (แต่ไม่ใช่การวิเคราะห์คลัสเตอร์) และการวิเคราะห์กลุ่มจะเหมาะสมสำหรับสิ่งนี้ (แต่ไม่ใช่การวิเคราะห์ระดับที่ซ่อนเร้น)

ขอบคุณ! ไบรอัน


1
สิ่งที่คุณโทรinferencesในบริบทนี้และทำไมความแตกต่างในการอนุมานที่คุณสนใจ?
ttnphns

1
@ttnphns โดยการอนุมานฉันหมายถึงการตีความที่สำคัญของผลลัพธ์ ฉันไม่แน่ใจเกี่ยวกับคำถามสุดท้ายของคุณเกี่ยวกับความสนใจของฉันใน "ข้อแตกต่างในการอนุมานเท่านั้น" ฉันไม่สนใจที่จะใช้อัลกอริธึมตามลำดับหรือคณิตศาสตร์พื้นฐาน ฉันสนใจว่าผลลัพธ์จะถูกตีความอย่างไร
Brian P

คำตอบ:


27

การวิเคราะห์ระดับแฝงเป็นจริงรูปแบบไฟไนต์มิกซ์ (ดูที่นี่ ) ข้อแตกต่างที่สำคัญระหว่าง FMM และอัลกอริธึมการจัดกลุ่มอื่น ๆ คือ FMM เสนอวิธีการ "การจัดกลุ่มตามโมเดล" ที่ให้กลุ่มโดยใช้แบบจำลองความน่าจะเป็นซึ่งอธิบายการกระจายข้อมูลของคุณ ดังนั้นแทนที่จะค้นหากลุ่มที่มีการวัดระยะทางแบบสุ่มคุณใช้แบบจำลองที่อธิบายการกระจายข้อมูลของคุณและใช้แบบจำลองนี้เพื่อประเมินความน่าจะเป็นที่บางกรณีเป็นสมาชิกของคลาสแฝง ดังนั้นคุณสามารถพูดได้ว่ามันเป็นวิธีการจากบนลงล่าง (คุณเริ่มต้นด้วยการอธิบายการกระจายข้อมูลของคุณ) ในขณะที่อัลกอริทึมการจัดกลุ่มอื่น ๆ นั้นเป็นวิธีการจากล่างขึ้นบน (คุณพบความคล้ายคลึงกันระหว่างเคส)

เนื่องจากคุณใช้แบบจำลองทางสถิติสำหรับการเลือกแบบจำลองข้อมูลของคุณและการประเมินความดีที่เหมาะสมเป็นไปได้ - ตรงกันข้ามกับการจัดกลุ่ม นอกจากนี้หากคุณคิดว่ามีกระบวนการบางอย่างหรือ "โครงสร้างแฝง" ที่รองรับโครงสร้างข้อมูลของคุณดูเหมือนว่า FMM จะเป็นตัวเลือกที่เหมาะสมเนื่องจากช่วยให้คุณสามารถสร้างแบบจำลองโครงสร้างแฝงที่อยู่ด้านหลังข้อมูลของคุณ (แทนที่จะมองหาสิ่งที่คล้ายคลึงกัน)

ความแตกต่างอื่น ๆ คือ FMM นั้นมีความยืดหยุ่นมากกว่าการรวมกลุ่ม อัลกอริธึมการทำคลัสเตอร์เพียงทำคลัสเตอร์ในขณะที่มีโมเดล FMM และ LCA อยู่

  • ช่วยให้คุณทำการยืนยันระหว่างการวิเคราะห์กลุ่ม
  • รวมทฤษฎีการตอบสนองรายการ (และอื่น ๆ ) โมเดลเข้ากับ LCA
  • รวม covariates เพื่อทำนายการเป็นสมาชิกระดับแฝงของแต่ละบุคคล
  • และ / หรือแม้แต่ภายในคลัสเตอร์แบบจำลองการถดถอยในการถดถอยแฝงชั้น ,
  • ช่วยให้คุณสามารถสร้างแบบจำลองการเปลี่ยนแปลงในช่วงเวลาในโครงสร้างของข้อมูลของคุณ ฯลฯ

ดูตัวอย่างเพิ่มเติมได้ที่:

Hagenaars JA & McCutcheon, AL (2009) การวิเคราะห์ชั้นแฝงประยุกต์ สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์

และเอกสารประกอบของflexmixและแพคเกจpoLCAใน R รวมถึงเอกสารต่อไปนี้:

Linzer, DA, & Lewis, JB (2011) poLCA: แพ็คเกจ R สำหรับการวิเคราะห์คลาสตัวแปรแฝง วารสารซอฟต์แวร์เชิงสถิติ, 42 (10), 1-29

Leisch, F. (2004) Flexmix: กรอบทั่วไปสำหรับตัวแบบ จำกัด และการถดถอยกระจกแฝงใน R. Journal of Statistics Software, 11 (8), 1-18

Grün, B. , & Leisch, F. (2008) รุ่น FlexMix 2: ผสม จำกัด ด้วยตัวแปรด้วยกันและแตกต่างกันและพารามิเตอร์คงที่ วารสารซอฟต์แวร์เชิงสถิติ, 28 (4), 1-35


3

โมเดลคลาสแฝง (หรือโปรไฟล์แฝงหรือมากกว่าโดยทั่วไปคือโมเดลผสม จำกัด ) สามารถถูกพิจารณาว่าเป็นโมเดล probablistic สำหรับการจัดกลุ่ม (หรือการจัดหมวดหมู่ที่ไม่ได้รับการดูแล) โดยทั่วไปเป้าหมายเดียวกัน - เพื่อระบุกลุ่มที่เป็นเนื้อเดียวกันภายในประชากรที่มีขนาดใหญ่กว่า ฉันคิดว่าความแตกต่างที่สำคัญระหว่างตัวแบบคลาสแฝงและวิธีแบบอัลกอริธึมในการจัดกลุ่มคือก่อนหน้านี้เห็นได้ชัดว่ายืมตัวเองเพื่อการเก็งกำไรทางทฤษฎีเกี่ยวกับธรรมชาติของการจัดกลุ่ม; และเนื่องจากโมเดลคลาสแฝงมีความเป็นไปได้มันจึงมีทางเลือกเพิ่มเติมสำหรับการประเมินโมเดลที่เหมาะสมผ่านสถิติความน่าจะเป็นและการจับ / รักษาความไม่แน่นอนที่ดีขึ้นในการจำแนกประเภท

คุณอาจพบเกร็ดเล็กเกร็ดน้อยที่มีประโยชน์ในหัวข้อนี้รวมทั้งคำตอบนี้ในโพสต์ที่เกี่ยวข้องโดย chl

นอกจากนี้ยังมีความคล้ายคลึงกัน (ในระดับความคิด) กับเรื่องนี้คำถามเกี่ยวกับ PCA VS วิเคราะห์ปัจจัยและหนึ่งมากเกินไป


2

ความแตกต่างคือการวิเคราะห์ระดับแฝงจะใช้ข้อมูลที่ซ่อนอยู่ (ซึ่งมักจะเป็นรูปแบบของการเชื่อมโยงในคุณลักษณะ) เพื่อกำหนดความน่าจะเป็นสำหรับคุณสมบัติในชั้นเรียน จากนั้นการอนุมานสามารถทำได้โดยใช้โอกาสสูงสุดในการแยกรายการออกเป็นคลาสตามคุณลักษณะของพวกเขา

การวิเคราะห์กลุ่มจะแสดงคุณสมบัติและใช้อัลกอริธึมเช่นเพื่อนบ้านที่ใกล้ที่สุดความหนาแน่นหรือลำดับชั้นเพื่อกำหนดว่าคลาสใดเป็นของรายการ

โดยทั่วไปการอนุมาน LCA สามารถคิดได้ว่า "สิ่งที่เป็นรูปแบบที่คล้ายกันมากที่สุดโดยใช้ความน่าจะเป็น" และการวิเคราะห์กลุ่มจะเป็น


คุณสามารถอธิบายให้ชัดเจนว่า "สิ่ง" หมายถึงอะไรในคำชี้แจงเกี่ยวกับการวิเคราะห์กลุ่ม มัน 'คุณสมบัติ' ที่ใกล้เคียงที่สุดขึ้นอยู่กับการวัดระยะทางหรือไม่
Brian P

สิ่งนั้นจะเป็นวัตถุวัตถุหรือข้อมูลใด ๆ ที่คุณป้อนด้วยพารามิเตอร์คุณสมบัติ
ccsv
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.