GEE: เลือกโครงสร้างความสัมพันธ์ในการทำงานที่เหมาะสม


19

ฉันเป็นนักระบาดวิทยาที่พยายามเข้าใจ GEEs เพื่อวิเคราะห์การศึกษาแบบกลุ่ม (ใช้การถดถอยปัวซองกับลิงค์บันทึกเพื่อประเมินความเสี่ยงสัมพัทธ์) ฉันมีคำถามสองสามข้อเกี่ยวกับ "ความสัมพันธ์ในการทำงาน" ที่ฉันต้องการให้ใครบางคนมีความรู้มากขึ้นในการชี้แจง:

(1) หากฉันทำการวัดซ้ำในบุคคลเดียวกันเป็นปกติแล้วจะสมเหตุสมผลหรือไม่ที่จะถือว่าโครงสร้างที่แลกเปลี่ยนได้ (หรือการวัดอัตชีวประวัติหากการวัดแสดงแนวโน้ม)? สิ่งที่เกี่ยวกับความเป็นอิสระ - มีกรณีใดบ้างที่เราสามารถยอมรับความเป็นอิสระสำหรับการวัดในบุคคลเดียวกันได้หรือไม่?

(2) มีวิธีที่เรียบง่ายพอสมควรในการประเมินโครงสร้างที่เหมาะสมโดยการตรวจสอบข้อมูลหรือไม่?

(3) ฉันสังเกตเห็นว่าเมื่อเลือกโครงสร้างความเป็นอิสระฉันได้รับการประเมินจุดเดียวกัน (แต่มีข้อผิดพลาดมาตรฐานต่ำกว่า) เช่นเดียวกับเมื่อเรียกใช้การถดถอยแบบปัวซองอย่างง่าย (โดยใช้ R ฟังก์ชั่นglm()และgeeglm()จากแพ็คเกจgeepack) ทำไมสิ่งนี้จึงเกิดขึ้น ฉันเข้าใจว่าด้วย GEEs คุณประเมินโมเดลเฉลี่ยประชากร (ตรงกันข้ามกับเรื่องเฉพาะ) ดังนั้นคุณควรได้รับการประมาณจุดเดียวกันในกรณีการถดถอยเชิงเส้นเท่านั้น

(4) ถ้ากลุ่มของฉันอยู่ในหลาย ๆ ที่ตั้ง (แต่วัดหนึ่งต่อคน) ฉันควรเลือกความเป็นอิสระหรือความสัมพันธ์ในการทำงานที่แลกเปลี่ยนได้และทำไม? ฉันหมายความว่าคนในแต่ละไซต์ยังคงเป็นอิสระจากกันใช่มั้ย? ดังนั้นสำหรับรูปแบบเฉพาะเรื่องเช่นฉันจะระบุไซต์เป็นเอฟเฟกต์แบบสุ่ม อย่างไรก็ตามด้วย GEE ความเป็นอิสระและแลกเปลี่ยนได้ให้การประมาณการที่แตกต่างกันและฉันไม่แน่ใจว่าข้อใดที่ดีกว่าในแง่ของสมมติฐานพื้นฐาน

(5) GEE สามารถจัดการกับการจัดกลุ่มแบบลำดับชั้นได้สองระดับหรือไม่นั่นคือการศึกษาแบบหลายไซต์พร้อมการวัดซ้ำ ๆ ต่อบุคคลหรือไม่? ถ้าใช่ฉันควรระบุว่าอะไรเป็นตัวแปรการทำคลัสเตอร์ในgeeglm()และสิ่งที่ควรมีความสัมพันธ์ในการทำงานหากมีใครสมมติเช่น "ความเป็นอิสระ" สำหรับระดับแรก (ไซต์) และ "แลกเปลี่ยน" หรือ "อัตชีวประวัติ" สำหรับระดับที่สอง

ฉันเข้าใจว่าคำถามเหล่านี้เป็นคำถามสองสามข้อและบางคำถามอาจเป็นพื้นฐาน แต่ยังยากสำหรับฉัน (และอาจเป็นสามเณรอื่น ๆ ?) ที่จะเข้าใจ ดังนั้นความช่วยเหลือใด ๆ เป็นอย่างมากและชื่นชมอย่างจริงใจและเพื่อแสดงสิ่งนี้ฉันได้เริ่มต้นเงินรางวัล

คำตอบ:


12
  1. ไม่จำเป็น. ด้วยคลัสเตอร์ขนาดเล็กการออกแบบที่ไม่สมดุลและการปรับตัวที่สับสนภายในกลุ่มที่ไม่สมบูรณ์ความสัมพันธ์ที่แลกเปลี่ยนได้อาจจะไม่มีประสิทธิภาพและมีอคติมากกว่าญาติ GEE สมมติฐานเหล่านั้นก็ค่อนข้างแข็งแกร่งเช่นกัน อย่างไรก็ตามเมื่อตรงตามสมมติฐานเหล่านี้คุณจะได้รับการอนุมานที่มีประสิทธิภาพมากขึ้นเมื่อแลกเปลี่ยนได้ ฉันไม่เคยพบตัวอย่างเมื่อโครงสร้างความสัมพันธ์ AR-1 เข้าท่าเนื่องจากเป็นเรื่องผิดปกติที่จะมีการวัดที่มีความสมดุลในเวลา (ฉันทำงานกับข้อมูลวิชามนุษย์)

  2. การสำรวจความสัมพันธ์นั้นดีและควรทำในการวิเคราะห์ข้อมูล อย่างไรก็ตามมันไม่ควรเป็นแนวทางในการตัดสินใจ คุณสามารถใช้ variograms และ lorellograms เพื่อให้เห็นภาพความสัมพันธ์ในการศึกษาระยะยาวและแผง Intracluster correlation เป็นการวัดความสัมพันธ์ภายในกลุ่มที่ดี

  3. โครงสร้างความสัมพันธ์ใน GEE ซึ่งแตกต่างจากรุ่นที่ผสมกันจะไม่ส่งผลต่อการประมาณค่าพารามิเตอร์ส่วนเพิ่ม (ซึ่งคุณกำลังประเมินด้วย GEE) มันจะมีผลต่อการประมาณการข้อผิดพลาดมาตรฐานว่า นี่เป็นอิสระจากฟังก์ชั่นลิงค์ใด ๆ ฟังก์ชั่นลิงค์ใน GEE นั้นใช้สำหรับรุ่นขอบ

  4. ไซต์อาจเป็นแหล่งที่มาของรูปแบบที่ไม่เปลี่ยนแปลงเช่นฟันในปากหรือนักเรียนในเขตโรงเรียน มีความเป็นไปได้สำหรับกลุ่มระดับ Confounders ในข้อมูลเหล่านี้เช่นความโน้มเอียงทางพันธุกรรมต่อฟันผุหรือเงินทุนการศึกษาชุมชนดังนั้นด้วยเหตุนี้คุณจะได้รับการประมาณการข้อผิดพลาดมาตรฐานที่ดีขึ้นโดยใช้โครงสร้างความสัมพันธ์แบบแลกเปลี่ยนได้

  5. การคำนวณผลกระทบเล็กน้อยใน GEE มีความซับซ้อนเมื่อพวกเขาจะไม่ซ้อนกันแต่ก็สามารถทำได้ การทำรังเป็นเรื่องง่ายและคุณทำตามที่คุณพูด


(เกี่ยวกับ # 5) ดังนั้นในกรณีของการทำคลัสเตอร์ที่ซ้อนกันเพียงแค่เลือกตัวแปรคลัสเตอร์ระดับบนสุดเท่านั้น
Theodore Lytras

ไม่คุณสามารถสร้างโครงสร้างความสัมพันธ์แบบแลกเปลี่ยนได้สองระดับและสามารถประมาณค่าพารามิเตอร์ความสัมพันธ์ที่แยกกันสองค่าสำหรับความสัมพันธ์โดยใช้อัลกอริทึม EM 3 ขั้นตอน ด้วยวิธีนี้คุณจะได้รู้ว่าเด็ก ๆ ในชุมชนนั้นมีความสัมพันธ์กัน แต่ไม่สัมพันธ์กันเท่ากับเด็กในครอบครัว
AdamO

ขออภัยฉันไม่เข้าใจสิ่งนี้ คุณช่วยชี้ฉันไปที่โค้ดบางอันควรเป็น R หรือ Stata ได้ไหม ฉันเดาว่าน่าจะช่วยได้
Theodore Lytras

1
@TheodoreLytras ขอโทษฉันเข้าใจผิด การยืนยันก่อนหน้าของคุณถูกต้อง จากกระดาษที่ฉันเชื่อมโยง "นอกจากนี้หากหลาย ๆ กลุ่มซ้อนกันอย่างสมบูรณ์แบบการจัดกลุ่ม GEE ในบัญชีกลุ่มระดับบนสุดสำหรับโครงสร้างความสัมพันธ์หลายระดับผ่านตัวประมาณความแปรปรวนแบบแซนวิช"
AdamO

1
บางทีคุณอาจหมายถึงอย่างอื่น แต่เมื่อคุณระบุ "โครงสร้างความสัมพันธ์ใน GEE ซึ่งแตกต่างจากแบบจำลองแบบผสมไม่มีผลต่อการประมาณค่าพารามิเตอร์ส่วนเพิ่ม" ฉันคิดว่านี่ไม่เป็นความจริง อย่างน้อยถ้าคุณหมายถึงว่าสัมประสิทธิ์ไม่มีการเปลี่ยนแปลงโดยการเลือกเมทริกซ์สหสัมพันธ์การทำงานที่แตกต่างกันนี่ไม่ใช่สิ่งที่เกิดขึ้น: เมทริกซ์สหสัมพันธ์ทำงานผ่านเมทริกซ์การถ่วงน้ำหนักและมีผลต่อเมทริกซ์ความแปรปรวนร่วม
Nick

6

(1) คุณอาจจะต้องมีโครงสร้างอัตชีวประวัติบางอย่างเพียงเพราะเราคาดว่าการวัดที่ห่างกันจะมีความสัมพันธ์น้อยกว่าการวัดที่สัมพันธ์กัน แลกเปลี่ยนจะถือว่าพวกเขามีความสัมพันธ์กันอย่างเท่าเทียมกัน แต่ก็เหมือนกับทุกอย่างอื่นมันขึ้นอยู่กับ

(2) ฉันคิดว่าการตัดสินใจแบบนี้เกิดขึ้นกับการคิดว่าข้อมูลถูกสร้างขึ้นมาอย่างไรแทนที่จะมองว่ามันเป็นอย่างไร

(4) มันขึ้นอยู่กับ ตัวอย่างเช่นเด็กที่อยู่ในโรงเรียนไม่ควรถือว่าเป็นอิสระ เนื่องจากรูปแบบทางสังคม ฯลฯ ถ้าฉันรู้อะไรเกี่ยวกับเด็กในโรงเรียนที่กำหนดแล้วฉันอาจจะรู้น้อยเกี่ยวกับเด็กคนอื่น ๆ ในโรงเรียน ฉันเคยใช้ GEE เพื่อดูความสัมพันธ์ระหว่างตัวชี้วัดทางสังคมและเศรษฐกิจที่แตกต่างกันและความชุกของโรคอ้วนในกลุ่มคนแรกเกิดที่ผู้เข้าร่วมซ้อนกันในละแวกใกล้เคียง ฉันใช้โครงสร้างที่แลกเปลี่ยนได้ คุณสามารถค้นหาบทความได้ที่นี่และตรวจสอบเอกสารอ้างอิงบางส่วนรวมถึงวารสาร 2 ฉบับจาก epi

(5) เห็นได้ชัดเช่นนั้น (เช่นดู ตัวอย่างนี้ ) แต่ฉันไม่สามารถช่วย spec spec ของ R ในการทำสิ่งนี้ได้

Zeger SL, เหลียง KY, Albert PS แบบจำลองสำหรับข้อมูลระยะยาว: แนวทางการประมาณสมการทั่วไป Biometrics 1988; 44: 1049-1060

ฮับบาร์ด AE, เฮิร์นเจ, ฟลิสเชอร์ N, แวนเดอร์ลันเอ็ม, ลิพพาน S, บรัคเนอร์ที, ซาทาเรียโนดับบลิวเพื่อ GEE หรือไม่กับ GEE: เปรียบเทียบฟังก์ชันการประมาณค่า ระบาดวิทยา 2009

Hanley JA, Negassa A, Edwardes MDB, Forrester JE การวิเคราะห์ทางสถิติของข้อมูลที่มีความสัมพันธ์กันโดยใช้สมการการประมาณทั่วไป: การวางแนว Am J Epidemiol 2003; 157: 364


สิ่งนี้มีประโยชน์จริง ๆ แต่มันทำให้ฉันสงสัยว่าทำไมทุกคนจะใช้โครงสร้างความเป็นอิสระเพราะการจัดกลุ่มตามความหมายของระดับความคล้ายคลึงกันระหว่างการสังเกต อย่างไรก็ตามฉันรู้สึกว่าในกรณีของโรงเรียนความคล้ายคลึงกันมีความสัมพันธ์กับโรงเรียนอื่น ๆและภายในนักเรียนแต่ละโรงเรียนจะเป็นอิสระ ดังนั้นฉันยังไม่ชัดเจนในเรื่องนั้น
Theodore Lytras

ใช่ถ้าคุณ จำกัด ตัวอย่างและแบบจำลองย่อยในโรงเรียนเดียวไม่ต้องกังวล ในกรณีนี้มันจะเป็นไปได้มากขึ้นที่จะคิดว่าข้อผิดพลาดคือ id แต่เมื่อคุณเริ่มรวมเด็ก ๆ จากโรงเรียนต่าง ๆ ไว้ในตัวอย่าง / โมเดลเดียวกันสมมติฐานนั้นจะกลายเป็นสิ่งมีชีวิตนอกเสียจากว่าคุณจะอธิบายถึงโรงเรียนในแบบจำลองนั่นคือข้อผิดพลาดที่มีเงื่อนไขในโรงเรียนนั้นจะถือว่าเป็นจริง
DL Dahly

นอกจากนี้ยังเป็นที่น่าสังเกตว่าผู้คนอาจเป็นประโยชน์กับคุณมากขึ้นถ้าคุณสามารถให้รายละเอียดเกี่ยวกับขนาดตัวอย่างจำนวนและเวลาในการวัดซ้ำจำนวนกลุ่ม ฯลฯ
DL Dahly

2
@DLDahly จุดของคุณใน (1) ไม่ใช่สิ่งที่ฉันมักจะพบในการวิเคราะห์แผงชีวสถิติ หนึ่งในสมมติฐานที่อยู่เบื้องหลังโครงสร้างความสัมพันธ์ AR-N คือให้เวลาที่เพียงพอระหว่างพวกเขาทั้งสองการวัดในบุคคลเดียวกันจะไม่มีความสัมพันธ์เท่ากับการวัดสองแบบระหว่างบุคคลที่แตกต่างกัน อย่างไรก็ตามปัจจัยพื้นฐานที่สำคัญระหว่างกลุ่มคลัสเตอร์มักจะไม่ได้แปรผันตามเวลาของโควาเรียต (เช่นเครื่องหมายทางพันธุกรรม) และการคาดคะเนเป็นอย่างอื่นนั้นยากมาก แม้ว่า lorrelogram เป็นจุดเริ่มต้นที่ดีมาก
AdamO

1

(0) ความคิดเห็นทั่วไป: โมเดลส่วนใหญ่ที่ฉันเห็นเกี่ยวกับการข้ามค่าใช้จ่ายนั้นซับซ้อนเกินไป ลดความซับซ้อนถ้าเป็นไปได้ทั้งหมด มันมักจะคุ้มค่ากับการสร้างแบบจำลองด้วย GEE และแบบผสมเพื่อเปรียบเทียบผลลัพธ์
(1) ใช่ เลือกแลกเปลี่ยน คำตอบที่ชัดเจนของฉันขึ้นอยู่กับผลประโยชน์ที่แพร่หลายที่สุดของ GEE: ความยืดหยุ่นในการประมาณการกับข้อสมมติฐาน
ถ้าคุณดูการศึกษาในสาขาของคุณคุณจะเห็นว่าการแลกเปลี่ยนนั้นเป็นตัวเลือกเริ่มต้น ไม่ได้หมายความว่าดีที่สุด แต่ควรพิจารณาก่อน การแลกเปลี่ยนการให้คำปรึกษาจะเป็นคำแนะนำที่ดีที่สุดโดยไม่ต้องมีความรู้รายละเอียดข้อมูลของคุณ
(2) ใช่มีวิธีการขับเคลื่อนข้อมูลเช่น "QIC" นี่คือตัวอย่าง Stata แต่ได้รับการยอมรับอย่างกว้างขวางว่าเป็นตัวเลือกที่สมเหตุสมผลแม้ว่าจะไม่ค่อยได้ใช้ในทางปฏิบัติ:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) การประมาณคะแนนจะไม่เหมือนเดิมทุกประการ (เว้นแต่คุณจะใช้โครงสร้างความสัมพันธ์แบบอิสระ) แต่โดยปกติแล้วจะค่อนข้างใกล้เคียง คุณสามารถค้นหาบทความจำนวนมากที่เปรียบเทียบการประมาณแบบจำลองเอฟเฟกต์แบบง่าย / gee / แบบผสมเพื่อให้ได้ความรู้สึกนี้ ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf) หนังสือเรียนส่วนใหญ่มีตารางหนึ่งหรือสองเล่มสำหรับสิ่งนี้ สำหรับโครงสร้างความสัมพันธ์อิสระคุณกำลังใช้โมเดลปัวซองด้วย SEs ที่แข็งแกร่ง ดังนั้นการประมาณจะเหมือนกันทุกประการ SE มักจะมีขนาดใหญ่ แต่บางครั้ง SE ที่แข็งแกร่งนั้นมีขนาดเล็กกว่า (นั่นคือชีวิต: google พร้อมคำอธิบายที่ไม่เจ็บปวดหากสนใจ)
(4) ดู (1) และ (2) ด้านบน
(5) ไม่หรือดีกว่าคุณสามารถทำอะไรก็ได้ถ้าคุณทุ่มเทความพยายามมากพอ แต่ก็ไม่ค่อยคุ้มค่ากับความพยายาม


0

คุณกำลังใช้วิธีการที่ไม่ถูกต้องกับ gee ในการทำสิ่งที่คุณกำลังทำอยู่เพราะคุณไม่รู้โครงสร้างและผลลัพธ์ของคุณจะสับสน อ้างถึงเจมี่โรบินสันนี้ คุณต้องใช้เวลานาน TMLE (mark van der laan) หรืออาจเป็น gee ที่มีน้ำหนักของ iptw ไม่ใช่การบัญชีสำหรับความสัมพันธ์ไม่แปรปรวนประมาท แค่คิดว่าถ้าการวัดซ้ำทั้งหมดนั้นมีความสัมพันธ์กัน 100% คุณก็จะมีการสังเกตน้อยลง (โดยเฉพาะ n สำหรับวิชา n ของคุณ) และ n ที่เล็กกว่าหมายถึงความแปรปรวนที่สูงขึ้น


หากคุณมีผลลัพธ์ที่ไม่มีการเอาชีวิตรอดคุณสามารถใช้วิธี gee กับโครงสร้าง corr ที่เป็นอิสระและน้ำหนัก iptw ตามที่แนะนำสำหรับการประมาณการแบบไม่เอนเอียงโดยสมมติว่าคุณได้รับคะแนนความชอบ TMLE นั้นดีที่สุดในทุกกรณีความอยู่รอดหรือไม่เพราะคุณสามารถใช้การเรียนรู้ทั้งมวลเพื่อทำนายคะแนนความชอบและการถดถอยตามลำดับและยังคงได้รับการอนุมานที่มีประสิทธิภาพ วิธีการของคุณจะถูกลำเอียงและให้การอนุมานที่ไม่ถูกต้องและยิ่งขนาดตัวอย่างใหญ่ขึ้นหากไม่มีผลกระทบคุณอาจจะระบุถึงผลกระทบที่สำคัญอย่างผิดปกติ !!
Jonathan Levy

สิ่งนี้สามารถใช้รายละเอียดเพิ่มเติม Janie Robinson คืออะไร กระดาษใบไหนของ van der Laan
mdewey

@ mdewey ขอโทษผิดพิมพ์หมายถึง Jamie Robins ลองใช้ Robins, hernan, Babette 2000 โมเดลโครงสร้างชายขอบและการอนุมานเชิงสาเหตุ - วิธีการที่ยอดเยี่ยมสำหรับผลลัพธ์ที่ไม่ใช่การเอาชีวิตรอดรวมถึงวิธีการทำ msm ด้วยโมดิฟายเออร์เอฟเฟกต์ สำหรับ laan อ้างอิงหนังสือการเรียนรู้ที่กำหนดเป้าหมาย อย่างที่ฉันพูดว่า laan น่าจะดีที่สุด แต่ต้องเข้าใจให้มากขึ้น แพคเกจ R Ltmle ทำวิธีการนี้ แต่ใช้เวลาในการเรียนรู้
Jonathan Levy
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.