ความแตกต่างระหว่างโมเดลเชิงเส้นทั่วไปกับโมเดลผสมเชิงเส้นทั่วไป


34

ฉันสงสัยว่าอะไรคือความแตกต่างระหว่าง GLM แบบผสมและแบบผสม ตัวอย่างเช่นใน SPSS เมนูแบบเลื่อนลงอนุญาตให้ผู้ใช้พอดี:

  • analyze-> generalized linear models-> generalized linear models &
  • analyze-> mixed models-> generalized linear

พวกเขาจัดการกับค่าที่หายไปแตกต่างกันอย่างไร

ตัวแปรตามของฉันคือไบนารีและฉันมีตัวแปรอิสระหลายหมวดหมู่และต่อเนื่อง


คำตอบ:


62

การถือกำเนิดของตัวแบบเชิงเส้นทั่วไปทำให้เราสามารถสร้างแบบจำลองการถดถอยของข้อมูลเมื่อการแจกแจงของตัวแปรตอบสนองนั้นไม่ปกติตัวอย่างเช่นเมื่อ DV ของคุณเป็นแบบไบนารี่ (ถ้าคุณต้องการที่จะรู้เล็ก ๆ น้อย ๆ เพิ่มเติมเกี่ยวกับ GLiMs ผมเขียนคำตอบที่ค่อนข้างกว้างขวางที่นี่ซึ่งอาจจะเป็นประโยชน์แม้จะแตกต่างบริบท.) อย่างไรก็ตาม GLiM เช่นรูปแบบการถดถอยโลจิสติกอนุมานว่าข้อมูลของคุณมีความเป็นอิสระ ตัวอย่างเช่นลองนึกภาพการศึกษาที่ดูว่าเด็กเป็นโรคหอบหืดหรือไม่ เด็กแต่ละคนมีส่วนร่วมอย่างใดอย่างหนึ่งข้อมูลชี้ไปที่การศึกษาพวกเขาอาจมีโรคหอบหืดหรือพวกเขาไม่ได้ บางครั้งข้อมูลอาจไม่เป็นอิสระ พิจารณาการศึกษาอื่นที่ดูว่าเด็กมีอาการหวัดหลาย ๆ จุดในระหว่างปีการศึกษาหรือไม่ ในกรณีนี้เด็กแต่ละคนมีส่วนช่วยในหลายจุดข้อมูล ครั้งหนึ่งเด็กอาจเป็นหวัดภายหลังพวกเขาอาจไม่ได้และภายหลังก็อาจเป็นหวัดอีกครั้ง ข้อมูลเหล่านี้ไม่เป็นอิสระเพราะมาจากเด็กคนเดียวกัน ในการวิเคราะห์ข้อมูลเหล่านี้อย่างเหมาะสมเราจำเป็นต้องคำนึงถึงความไม่อิสระนี้ด้วย มีสองวิธี: วิธีหนึ่งคือใช้สมการการประเมินทั่วไป (ซึ่งคุณไม่ได้พูดถึงดังนั้นเราจะข้าม) อีกวิธีคือใช้โมเดลเชิงเส้นผสมทั่วไป. GLiMMs สามารถอธิบายถึงความไม่เป็นอิสระได้โดยการเพิ่มเอฟเฟกต์แบบสุ่ม (เป็นบันทึก @MichaelChernick) ดังนั้นคำตอบคือตัวเลือกที่สองของคุณใช้สำหรับข้อมูลการวัดซ้ำที่ไม่ปกติ (หรือมิฉะนั้นไม่เป็นอิสระ) (ผมควรจะพูดถึงในการรักษาด้วยกับความคิดเห็นของ @ มาโครที่งานทั่วไปซึ่งizedเชิงเส้นหลากหลายรูปแบบรวมถึงรูปแบบเชิงเส้นเป็นกรณีพิเศษและทำให้สามารถใช้กับข้อมูลที่กระจายตามปกติ. อย่างไรก็ตามในการใช้งานทั่วไป connotes ระยะข้อมูลที่ไม่ปกติ.)

อัปเดต: (OP ได้ถามเกี่ยวกับ GEE เช่นกันดังนั้นฉันจะเขียนนิดหน่อยว่าทั้งสามเกี่ยวข้องกันอย่างไร)

นี่คือภาพรวมพื้นฐาน:

  • GLiM ทั่วไป (ฉันจะใช้การถดถอยโลจิสติกเป็นกรณีต้นแบบ) ช่วยให้คุณสร้างแบบจำลองการตอบสนองไบนารีอิสระเป็นหน้าที่ของ covariates
  • GLMM ช่วยให้คุณสามารถสร้างแบบจำลองเงื่อนไขการตอบสนองแบบไบนารี่แบบไม่อิสระ (หรือแบบคลัสเตอร์) บนคุณสมบัติของแต่ละคลัสเตอร์เป็นฟังก์ชันของ covariates
  • GEE ช่วยให้คุณสร้างแบบจำลองการตอบสนองของค่าเฉลี่ยประชากรของข้อมูลไบนารีที่ไม่เป็นอิสระในฐานะฟังก์ชันของ covariates

เนื่องจากคุณมีการทดลองหลายครั้งต่อผู้เข้าร่วมข้อมูลของคุณจึงไม่เป็นอิสระ ตามที่คุณทราบอย่างถูกต้อง "[t] rials ภายในหนึ่งผู้เข้าร่วมมีแนวโน้มที่จะคล้ายกันมากกว่าเมื่อเทียบกับทั้งกลุ่ม" ดังนั้นคุณควรใช้ GLMM หรือ GEE

จากนั้นปัญหาคือวิธีการเลือกว่า GLMM หรือ GEE จะเหมาะสมกว่าสำหรับสถานการณ์ของคุณหรือไม่ คำตอบสำหรับคำถามนี้ขึ้นอยู่กับหัวข้อของการวิจัยของคุณ - โดยเฉพาะเป้าหมายของการอนุมานที่คุณต้องการทำ ดังที่ฉันได้กล่าวไว้ข้างต้นด้วย GLMM, betas จะบอกคุณเกี่ยวกับผลกระทบของการเปลี่ยนแปลงหนึ่งหน่วยใน covariates ของคุณกับผู้เข้าร่วมโดยเฉพาะตามลักษณะของแต่ละบุคคล ในอีกทางหนึ่งกับ GEE, betas จะบอกคุณเกี่ยวกับผลกระทบของการเปลี่ยนแปลงหนึ่งหน่วยใน covariates ของคุณโดยเฉลี่ยของการตอบสนองของประชากรทั้งหมดในคำถาม นี่เป็นความแตกต่างที่ยากต่อการเข้าใจโดยเฉพาะอย่างยิ่งเนื่องจากไม่มีความแตกต่างดังกล่าวกับตัวแบบเชิงเส้น (ในกรณีที่ทั้งสองมีสิ่งเดียวกัน)

logit(pi)=β0+β1X1+bi
logit(p)=ln(p1p),     &      bN(0,σb2)
p β0(β0+bi)biβ0β1pilogitป้อนคำอธิบายรูปภาพที่นี่
β1- เหมือนกันสำหรับนักเรียนแต่ละคน (นั่นคือไม่มีความชันแบบสุ่ม) แต่โปรดทราบว่าความสามารถพื้นฐานของนักเรียนแตกต่างกันในหมู่พวกเขา - อาจเป็นเพราะความแตกต่างในสิ่งต่าง ๆ เช่น IQ (นั่นคือมีการสกัดกั้นแบบสุ่ม) อย่างไรก็ตามความน่าจะเป็นโดยเฉลี่ยของห้องเรียนโดยรวมมีความแตกต่างจากนักเรียน ผลเปี๊เคาน์เตอร์คือ: ชั่วโมงเพิ่มเติมการเรียนการสอนจะมีผลขนาดใหญ่ที่น่าจะของแต่ละนักเรียนผ่านการทดสอบ แต่มีผลกระทบค่อนข้างน้อยบนน่าจะรวมสัดส่วนของนักเรียนที่ผ่านการ นี่เป็นเพราะนักเรียนบางคนอาจมีโอกาสผ่านไปได้มากในขณะที่คนอื่นอาจยังมีโอกาสเล็กน้อย

คำถามที่ว่าคุณควรใช้ GLMM หรือ GEE เป็นคำถามเกี่ยวกับฟังก์ชันเหล่านี้ที่คุณต้องการประเมิน หากคุณต้องการทราบเกี่ยวกับความน่าจะเป็นของการผ่านนักเรียนที่ได้รับ (ถ้าพูดว่าคุณเป็นนักเรียนหรือผู้ปกครองของนักเรียน) คุณต้องการใช้ GLMM ในทางกลับกันถ้าคุณต้องการทราบเกี่ยวกับผลกระทบที่มีต่อประชากร (เช่นคุณเป็นครูหรืออาจารย์ใหญ่) คุณจะต้องการใช้ GEE

สำหรับรายละเอียดเพิ่มเติมทางคณิตศาสตร์การสนทนาของวัสดุนี้ดูคำตอบนี้โดย @Macro


2
นี่เป็นคำตอบที่ดี แต่ฉันคิดว่าโดยเฉพาะประโยคสุดท้ายดูเหมือนว่าคุณจะใช้ GLM หรือ GLMM สำหรับข้อมูลที่ไม่ปกติซึ่งอาจไม่ได้ตั้งใจเนื่องจากรุ่น Gaussian linear (แบบผสม) สามัญก็ตกอยู่ภายใต้ หมวดหมู่ GL (M) M
มาโคร

@Macro คุณพูดถูกฉันลืมไปตลอดเลย ฉันแก้ไขคำตอบเพื่อชี้แจงนี้ แจ้งให้เราทราบหากคุณคิดว่ามันต้องการมากกว่านี้
gung - Reinstate Monica

ฉันยังตรวจสอบสมการประมาณทั่วไป ถูกต้องเช่นเดียวกับ GLiM, GEE ถือว่าข้อมูลของฉันเป็นอิสระหรือไม่? ฉันมีการทดลองหลายครั้งต่อผู้เข้าร่วม การทดลองภายในผู้เข้าร่วมหนึ่งคนมีแนวโน้มที่จะคล้ายคลึงกันมากกว่าเมื่อเปรียบเทียบกับกลุ่มทั้งหมด
user9203

@ gung ถึงแม้ว่า GEE สามารถสร้างค่าสัมประสิทธิ์ประชากร "เฉลี่ย" ถ้าฉันต้องการประเมินค่าเฉลี่ยการรักษาผล (ATE) ในระดับความน่าจะเป็นทั่วประชากรที่เกิดขึ้นจริงสำหรับ regressor ไบนารีที่น่าสนใจฉันไม่จำเป็นต้องใช้ วิธีการเฉพาะเรื่อง? วิธีการคำนวณ ATE ให้กับความรู้ของฉันคือการประเมินความน่าจะเป็นที่คาดการณ์ไว้สำหรับแต่ละคนที่มีและไม่มีการรักษาแล้วเฉลี่ยความแตกต่างเหล่านั้น สิ่งนี้ไม่จำเป็นต้องใช้วิธีการถดถอยที่สามารถสร้างความน่าจะเป็นที่คาดการณ์ไว้สำหรับแต่ละคน (แม้ว่าจะเป็นค่าเฉลี่ยแล้วก็ตาม)
Yakkanomica

1
@ Yakkanomica ถ้านั่นคือสิ่งที่คุณต้องการแน่นอน
gung - Reinstate Monica

6

กุญแจสำคัญคือการแนะนำของผลกระทบแบบสุ่ม ลิงก์ของ Gung กล่าวถึงมัน แต่ฉันคิดว่ามันควรได้รับการกล่าวถึงโดยตรง นั่นคือความแตกต่างหลัก


+1 คุณพูดถูก ฉันควรชัดเจนเกี่ยวกับเรื่องนี้ ฉันแก้ไขคำตอบเพื่อรวมประเด็นนี้
gung - Reinstate Monica

เมื่อใดก็ตามที่ฉันเพิ่มเอฟเฟกต์แบบสุ่มเช่นการสกัดกั้นแบบสุ่มไปยังโมเดลฉันได้รับข้อความแสดงข้อผิดพลาด ฉันคิดว่าฉันมีจุดข้อมูลไม่เพียงพอที่จะเพิ่มเอฟเฟกต์แบบสุ่ม เป็นไปได้ไหม? ข้อความแสดงข้อผิดพลาด: glmm: Hessian matrix สุดท้ายไม่ได้เป็นค่าบวกแน่นอนแม้ว่าเกณฑ์การบรรจบทั้งหมดจะเป็นที่พอใจ ขั้นตอนต่อไปแม้จะมีคำเตือนนี้ ผลลัพธ์ที่ตามมาจะขึ้นอยู่กับการวนซ้ำครั้งล่าสุด ความเที่ยงตรงของแบบจำลองนั้นไม่แน่นอน
user9203

3

ฉันขอแนะนำให้คุณตรวจสอบคำตอบของคำถามที่ฉันถามเมื่อไม่นานมานี้:

โมเดลเชิงเส้นทั่วไปเทียบกับโมเดลเชิงเส้นทั่วไป (พร้อมฟังก์ชันลิงก์ตัวตน?)


5
ฉันไม่คิดว่าจะตอบคำถามซึ่งเป็นเรื่องเกี่ยวกับความสามารถของ SPSS ในการใช้งาน GLM และโมเดลผสมผลกระทบและวิธีจัดการกับค่าที่ขาดหายไป นี่เป็นการแสดงความคิดเห็นแทนหรือไม่? มิฉะนั้นโปรดอธิบาย
chl

ขออภัยโพสต์ที่เปิดดูเหมือนจะมี "คำถาม" สองข้อ 1. ฉันสงสัยว่า .... และ 2. พวกเขาจัดการกับค่าที่หายไปแตกต่างกันหรือไม่? ฉันพยายามช่วยด้วยคำถามแรก
Behacad

1
ยุติธรรมพอสมควร หากไม่มีคำอธิบายเพิ่มเติมฉันยังคงคิดว่านี่น่าจะเหมาะกับความคิดเห็นของผู้ปฏิบัติการ
chl
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.