ความแตกต่างระหว่าง GLM และ GEE คืออะไร?


9

อะไรคือความแตกต่างระหว่างโมเดล GLM (การถดถอยโลจิสติก) กับตัวแปรการตอบสนองแบบไบนารีซึ่งรวมถึงเรื่องและเวลาเป็น covariates และโมเดล GEE แบบอะนาล็อกซึ่งคำนึงถึงความสัมพันธ์ระหว่างการวัดที่จุดเวลาหลายจุด?

GLM ของฉันดูเหมือนว่า:

Y(binary) ~ A + B1X1(subject id) + B2X2(time) 
              + B3X3(interesting continuous covariate)

ด้วยฟังก์ชั่นการเชื่อมโยง logit

ฉันกำลังมองหาคำอธิบายง่ายๆ (มุ่งเป้าไปที่นักวิทยาศาสตร์สังคม) ว่าทำไมเวลาจึงได้รับการปฏิบัติแตกต่างกันในสองโมเดลและสิ่งที่เกี่ยวข้องกับการตีความ


6
ผมพบว่าการตอบสนองเหล่านั้นไปยังคำถามที่เกี่ยวข้อง ( อะไรคือความแตกต่างระหว่างการประเมินสมการทั่วไปและ GLMM หรือไม่ , เมื่อจะใช้ทั่วไปการประเมินสมกับแบบจำลองผลกระทบผสม? ) ที่ครอบคลุมมากแม้ว่าพวกเขาจะเกี่ยวกับ GLM ที่มีผลกระทบสุ่มเทียบกับ GEE
chl

1
คุณต้องการใส่รหัสหัวเรื่องเป็น covariate อย่างต่อเนื่องหรือไม่? ดูเหมือนว่าแปลกที่จะมีตัวแปรตอบสนองเป็นการเพิ่มหรือลดฟังก์ชั่นของ id
แขกรับเชิญ

ผลกระทบของประชากรโดยเฉลี่ยกับผลกระทบเฉพาะเรื่อง
Will

นี่คือลิงก์ไปยังบทความที่พูดถึงความแตกต่างระหว่างทั้งสอง aje.oxfordjournals.org/content/147/7/694.full.pdf+html
Will

1
นอกจากนี้ในการเชื่อมโยงคำถาม @chl ไปข้างต้นคำถามนี้ยังกล่าวถึงความคิดเหล่านี้: ความแตกต่างระหว่างรุ่นทั่วไปเชิงเส้นและทั่วไปเชิงเส้นหลากหลายรูปแบบในโปรแกรม SPSS
gung - Reinstate Monica

คำตอบ:


12

อาจมีคำตอบที่ดีกว่าและละเอียดกว่านี้ แต่ฉันสามารถให้ความคิดที่ง่ายและรวดเร็วแก่คุณได้ ดูเหมือนว่าคุณกำลังพูดถึงการใช้แบบจำลองเชิงเส้นทั่วไป (เช่นการถดถอยโลจิสติกทั่วไป) เพื่อให้พอดีกับข้อมูลที่รวบรวมจากบางวิชาที่จุดเวลาหลายจุด ที่หน้าแดงฉันเห็นปัญหาที่เห็นได้ชัดสองด้วยวิธีนี้

อันดับแรกแบบจำลองนี้อนุมานว่าข้อมูลของคุณเป็นอิสระจากการให้โควาเรียต์ (นั่นคือหลังจากที่มีสัดส่วนรหัสจำลองสำหรับแต่ละเรื่องคล้ายกับคำศัพท์เฉพาะของแต่ละบุคคลและแนวโน้มเวลาเชิงเส้นที่เท่ากันสำหรับทุกคน) สิ่งนี้ไม่น่าจะเป็นจริงได้ แต่มีเกือบจะแน่นอนจะ autocorrelations ตัวอย่างเช่นสองข้อสังเกตของบุคคลคนเดียวกันใกล้ชิดในเวลาที่จะคล้ายกันมากขึ้นกว่าสองข้อสังเกตเพิ่มเติมจากกันในเวลาแม้กระทั่งหลังจากที่มีการคิดเวลา (แม้ว่าพวกเขาอาจจะมีความเป็นอิสระถ้าคุณรวมการsubject ID x timeโต้ตอบเช่นแนวโน้มเวลาที่ไม่ซ้ำกันสำหรับทุกคน - แต่สิ่งนี้จะทำให้ปัญหาต่อไปแย่ลง)

ประการที่สองคุณจะเผาผลาญอิสรภาพจำนวนมหาศาลที่ประเมินพารามิเตอร์สำหรับผู้เข้าร่วมแต่ละคน คุณมีแนวโน้มที่จะมีอิสระในระดับที่ค่อนข้างน้อยซึ่งคุณสามารถลองประมาณค่าพารามิเตอร์ที่คุณสนใจได้อย่างแน่นอน (ขึ้นอยู่กับจำนวนการวัดที่คุณมีต่อคน)

กระแทกแดกดันปัญหาแรกหมายความว่าช่วงความมั่นใจของคุณแคบเกินไปในขณะที่สองหมายถึง CIs ของคุณจะกว้างกว่าที่พวกเขาจะได้รับมากถ้าคุณไม่ได้สูญเสียอิสรภาพส่วนใหญ่ อย่างไรก็ตามฉันจะไม่นับความสมดุลทั้งสองนี้ สำหรับสิ่งที่มีค่าฉันเชื่อว่าการประมาณพารามิเตอร์ของคุณจะไม่เอนเอียง (แม้ว่าฉันอาจผิดที่นี่)

การใช้สมการการประมาณทั่วไปมีความเหมาะสมในกรณีนี้ เมื่อคุณพอดีกับโมเดลโดยใช้ GEE คุณจะต้องระบุโครงสร้างที่สัมพันธ์กัน (เช่น AR (1)) และมันค่อนข้างสมเหตุสมผลที่ข้อมูลของคุณจะมีเงื่อนไขแบบอิสระทั้งโควารีและเมทริกซ์สหสัมพันธ์ที่คุณระบุ นอกจากนี้ GEE ยังประมาณค่าความสัมพันธ์ของค่าเฉลี่ยประชากรดังนั้นคุณไม่จำเป็นต้องเขียนความคิดเห็นในระดับที่เป็นอิสระสำหรับผู้เข้าร่วมแต่ละคน

สำหรับการตีความเท่าที่ฉันทราบมันจะเหมือนกันในทั้งสองกรณี: เนื่องจากปัจจัยอื่น ๆ ยังคงที่การเปลี่ยนแปลงหนึ่งหน่วยใน X3 เกี่ยวข้องกับการเปลี่ยนแปลง B3 ในอัตราต่อรองของ 'ความสำเร็จ' .

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.