การถือกำเนิดของตัวแบบเชิงเส้นทั่วไปทำให้เราสามารถสร้างแบบจำลองการถดถอยของข้อมูลเมื่อการแจกแจงของตัวแปรตอบสนองนั้นไม่ปกติตัวอย่างเช่นเมื่อ DV ของคุณเป็นแบบไบนารี่ (ถ้าคุณต้องการที่จะรู้เล็ก ๆ น้อย ๆ เพิ่มเติมเกี่ยวกับ GLiMs ผมเขียนคำตอบที่ค่อนข้างกว้างขวางที่นี่ซึ่งอาจจะเป็นประโยชน์แม้จะแตกต่างบริบท.) อย่างไรก็ตาม GLiM เช่นรูปแบบการถดถอยโลจิสติกอนุมานว่าข้อมูลของคุณมีความเป็นอิสระ ตัวอย่างเช่นลองนึกภาพการศึกษาที่ดูว่าเด็กเป็นโรคหอบหืดหรือไม่ เด็กแต่ละคนมีส่วนร่วมอย่างใดอย่างหนึ่งข้อมูลชี้ไปที่การศึกษาพวกเขาอาจมีโรคหอบหืดหรือพวกเขาไม่ได้ บางครั้งข้อมูลอาจไม่เป็นอิสระ พิจารณาการศึกษาอื่นที่ดูว่าเด็กมีอาการหวัดหลาย ๆ จุดในระหว่างปีการศึกษาหรือไม่ ในกรณีนี้เด็กแต่ละคนมีส่วนช่วยในหลายจุดข้อมูล ครั้งหนึ่งเด็กอาจเป็นหวัดภายหลังพวกเขาอาจไม่ได้และภายหลังก็อาจเป็นหวัดอีกครั้ง ข้อมูลเหล่านี้ไม่เป็นอิสระเพราะมาจากเด็กคนเดียวกัน ในการวิเคราะห์ข้อมูลเหล่านี้อย่างเหมาะสมเราจำเป็นต้องคำนึงถึงความไม่อิสระนี้ด้วย มีสองวิธี: วิธีหนึ่งคือใช้สมการการประเมินทั่วไป (ซึ่งคุณไม่ได้พูดถึงดังนั้นเราจะข้าม) อีกวิธีคือใช้โมเดลเชิงเส้นผสมทั่วไป. GLiMMs สามารถอธิบายถึงความไม่เป็นอิสระได้โดยการเพิ่มเอฟเฟกต์แบบสุ่ม (เป็นบันทึก @MichaelChernick) ดังนั้นคำตอบคือตัวเลือกที่สองของคุณใช้สำหรับข้อมูลการวัดซ้ำที่ไม่ปกติ (หรือมิฉะนั้นไม่เป็นอิสระ) (ผมควรจะพูดถึงในการรักษาด้วยกับความคิดเห็นของ @ มาโครที่งานทั่วไปซึ่งizedเชิงเส้นหลากหลายรูปแบบรวมถึงรูปแบบเชิงเส้นเป็นกรณีพิเศษและทำให้สามารถใช้กับข้อมูลที่กระจายตามปกติ. อย่างไรก็ตามในการใช้งานทั่วไป connotes ระยะข้อมูลที่ไม่ปกติ.)
อัปเดต: (OP ได้ถามเกี่ยวกับ GEE เช่นกันดังนั้นฉันจะเขียนนิดหน่อยว่าทั้งสามเกี่ยวข้องกันอย่างไร)
นี่คือภาพรวมพื้นฐาน:
- GLiM ทั่วไป (ฉันจะใช้การถดถอยโลจิสติกเป็นกรณีต้นแบบ) ช่วยให้คุณสร้างแบบจำลองการตอบสนองไบนารีอิสระเป็นหน้าที่ของ covariates
- GLMM ช่วยให้คุณสามารถสร้างแบบจำลองเงื่อนไขการตอบสนองแบบไบนารี่แบบไม่อิสระ (หรือแบบคลัสเตอร์) บนคุณสมบัติของแต่ละคลัสเตอร์เป็นฟังก์ชันของ covariates
- GEE ช่วยให้คุณสร้างแบบจำลองการตอบสนองของค่าเฉลี่ยประชากรของข้อมูลไบนารีที่ไม่เป็นอิสระในฐานะฟังก์ชันของ covariates
เนื่องจากคุณมีการทดลองหลายครั้งต่อผู้เข้าร่วมข้อมูลของคุณจึงไม่เป็นอิสระ ตามที่คุณทราบอย่างถูกต้อง "[t] rials ภายในหนึ่งผู้เข้าร่วมมีแนวโน้มที่จะคล้ายกันมากกว่าเมื่อเทียบกับทั้งกลุ่ม" ดังนั้นคุณควรใช้ GLMM หรือ GEE
จากนั้นปัญหาคือวิธีการเลือกว่า GLMM หรือ GEE จะเหมาะสมกว่าสำหรับสถานการณ์ของคุณหรือไม่ คำตอบสำหรับคำถามนี้ขึ้นอยู่กับหัวข้อของการวิจัยของคุณ - โดยเฉพาะเป้าหมายของการอนุมานที่คุณต้องการทำ ดังที่ฉันได้กล่าวไว้ข้างต้นด้วย GLMM, betas จะบอกคุณเกี่ยวกับผลกระทบของการเปลี่ยนแปลงหนึ่งหน่วยใน covariates ของคุณกับผู้เข้าร่วมโดยเฉพาะตามลักษณะของแต่ละบุคคล ในอีกทางหนึ่งกับ GEE, betas จะบอกคุณเกี่ยวกับผลกระทบของการเปลี่ยนแปลงหนึ่งหน่วยใน covariates ของคุณโดยเฉลี่ยของการตอบสนองของประชากรทั้งหมดในคำถาม นี่เป็นความแตกต่างที่ยากต่อการเข้าใจโดยเฉพาะอย่างยิ่งเนื่องจากไม่มีความแตกต่างดังกล่าวกับตัวแบบเชิงเส้น (ในกรณีที่ทั้งสองมีสิ่งเดียวกัน)
logit ( หน้าผม) = β0+ β1X1+ bผม
logit ( p ) = ln( หน้า1 - หน้า) ,&b∼ N ( 0 , σ2ข)
พี β0( β0+ bผม)ขผมβ0β1พีผมlogitβ1- เหมือนกันสำหรับนักเรียนแต่ละคน (นั่นคือไม่มีความชันแบบสุ่ม) แต่โปรดทราบว่าความสามารถพื้นฐานของนักเรียนแตกต่างกันในหมู่พวกเขา - อาจเป็นเพราะความแตกต่างในสิ่งต่าง ๆ เช่น IQ (นั่นคือมีการสกัดกั้นแบบสุ่ม) อย่างไรก็ตามความน่าจะเป็นโดยเฉลี่ยของห้องเรียนโดยรวมมีความแตกต่างจากนักเรียน ผลเปี๊เคาน์เตอร์คือ:
ชั่วโมงเพิ่มเติมการเรียนการสอนจะมีผลขนาดใหญ่ที่น่าจะของแต่ละนักเรียนผ่านการทดสอบ แต่มีผลกระทบค่อนข้างน้อยบนน่าจะรวมสัดส่วนของนักเรียนที่ผ่านการ
นี่เป็นเพราะนักเรียนบางคนอาจมีโอกาสผ่านไปได้มากในขณะที่คนอื่นอาจยังมีโอกาสเล็กน้อย
คำถามที่ว่าคุณควรใช้ GLMM หรือ GEE เป็นคำถามเกี่ยวกับฟังก์ชันเหล่านี้ที่คุณต้องการประเมิน หากคุณต้องการทราบเกี่ยวกับความน่าจะเป็นของการผ่านนักเรียนที่ได้รับ (ถ้าพูดว่าคุณเป็นนักเรียนหรือผู้ปกครองของนักเรียน) คุณต้องการใช้ GLMM ในทางกลับกันถ้าคุณต้องการทราบเกี่ยวกับผลกระทบที่มีต่อประชากร (เช่นคุณเป็นครูหรืออาจารย์ใหญ่) คุณจะต้องการใช้ GEE
สำหรับรายละเอียดเพิ่มเติมทางคณิตศาสตร์การสนทนาของวัสดุนี้ดูคำตอบนี้โดย @Macro