แพ็กเกจ R / Stata สำหรับ GEE ลบทวินามลบศูนย์ที่ถูกตัดทอน?


13

นี่คือโพสต์แรกของฉัน ฉันขอบคุณสำหรับชุมชนนี้อย่างแท้จริง

ฉันพยายามวิเคราะห์ข้อมูลการนับตามยาวที่ไม่มีการตัดทอน (ความน่าจะเป็นที่ตัวแปรตอบสนอง = 0 คือ 0) และค่าเฉลี่ย! = ความแปรปรวนดังนั้นการกระจายแบบทวินามลบจึงถูกเลือกผ่านปัวซอง

ฟังก์ชั่น / คำสั่งที่ฉันได้ตัดออก:

R

  • ฟังก์ชั่น gee () ใน R ไม่ได้เป็นศูนย์สำหรับการตัดทอนหรือการแจกแจงแบบทวินามเชิงลบ (แม้จะไม่ได้โหลดแพ็คเกจ MASS)
  • glm.nb () ใน R ไม่อนุญาตสำหรับโครงสร้างความสัมพันธ์ที่แตกต่างกัน
  • vglm () จากแพ็คเกจ VGAM สามารถใช้ประโยชน์จากตระกูล posnegbinomial แต่มีปัญหาเช่นเดียวกับคำสั่ง ztnb ของ Stata (ดูด้านล่าง) ซึ่งฉันไม่สามารถปรับรูปแบบใหม่โดยใช้โครงสร้างความสัมพันธ์ที่ไม่ขึ้นกับอิสระ

Stata

  • หากข้อมูลไม่ยาวฉันสามารถใช้แพ็คเกจ Stata ztnb เพื่อทำการวิเคราะห์ของฉันได้ แต่คำสั่งนั้นจะถือว่าการสังเกตของฉันเป็นอิสระ

ฉันได้จัดการ GLMM ด้วยเหตุผลด้านระเบียบวิธี / ปรัชญาต่างๆ

สำหรับตอนนี้ฉันได้ตัดสินคำสั่ง xtgee ของ Stata (ใช่ฉันรู้ว่า xtnbreg ยังทำสิ่งเดียวกันด้วย) ซึ่งคำนึงถึงโครงสร้างความสัมพันธ์ที่ไม่พึ่งพากันและครอบครัวทวินาม แต่ไม่ใช่ศูนย์ที่ถูกตัดทอน ประโยชน์เพิ่มเติมของการใช้ xtgee คือฉันยังสามารถคำนวณค่า qic (โดยใช้คำสั่ง qic) เพื่อกำหนดโครงสร้างความสัมพันธ์ที่เหมาะสมที่สุดสำหรับตัวแปรตอบสนองของฉัน

หากมีแพ็กเกจ / คำสั่งใน R หรือ Stata ที่สามารถใช้ 1) ครอบครัว nbinomial, 2) GEE และ 3) การตัดทอนศูนย์โดยไม่คำนึงถึงฉันจะตายเพื่อทราบ

ฉันขอขอบคุณความคิดที่คุณมี ขอขอบคุณ.

-Casey

คำตอบ:


12

สำหรับตัวเลือกสองตัวที่อยู่ในใจของฤดูใบไม้ผลิซึ่งทั้งสองอย่างนี้ฉันคุ้นเคยกับสิ่งที่ดีที่สุดเท่านั้น

สิ่งแรกคือpsclแพ็คเกจซึ่งสามารถบรรจุโมเดลที่ถูกตัดทอนและอุปสรรค์ให้เป็นศูนย์ได้อย่างดีและมีความยืดหยุ่น psclแพคเกจแสดงให้เห็นการใช้งานของsandwichแพคเกจซึ่งมี "ข้อผิดพลาดประมาณรุ่นแข็งแกร่งมาตรฐานสำหรับการตัดชุดเวลาและข้อมูลระยะยาว" ดังนั้นคุณสามารถใส่แบบจำลองการนับของคุณแล้วใช้sandwichแพคเกจเพื่อประเมินเมทริกซ์ความแปรปรวนร่วมที่เหมาะสมสำหรับส่วนที่เหลือโดยคำนึงถึงลักษณะตามยาวของข้อมูล

ตัวเลือกที่สองอาจจะดูgeepackแพคเกจที่ดูเหมือนว่าจะสามารถทำสิ่งที่คุณต้องการ แต่สำหรับรุ่นทวินามลบกับทีต้าที่รู้จักเพราะมันจะพอดีกับประเภทใด ๆ ของ GLM ที่glm()ฟังก์ชั่นของ R สามารถ (เพื่อใช้ฟังก์ชันครอบครัวจาก MASS) .

ตัวเลือกที่สามเพิ่มระดับความเป็นหัว: gamlssและเป็นแพ็คเกจgamlss.trเสริม หลังมีฟังก์ชั่นgen.trun()ที่สามารถเปลี่ยนการกระจายใด ๆ ที่สนับสนุนโดยgamlss()เป็นการกระจายที่ถูกตัดทอนด้วยวิธีที่ยืดหยุ่น - คุณสามารถระบุการตัดปลายซ้ายที่การแจกแจงแบบทวินามลบ 0 เช่น gamlss()ตัวเองรวมถึงการสนับสนุนสำหรับผลกระทบแบบสุ่มซึ่งควรดูแลธรรมชาติระยะยาวของข้อมูล ไม่ชัดเจนในทันที แต่ถ้าคุณต้องใช้ฟังก์ชัน covariate อย่างน้อยหนึ่งฟังก์ชันในแบบจำลองหรือสามารถสร้างแบบจำลองทุกอย่างในรูปแบบฟังก์ชันเชิงเส้นเช่นใน GLM


ฉันเชื่อว่าแพ็คเกจ pscl นั้นเหมาะกับรุ่นที่สูงเกินจริงและกีดขวางเท่านั้น รุ่น Hurdle รวมทั้งส่วนประกอบด้านซ้ายที่ถูกตัดทอนและส่วนประกอบของรั้วกระโดดข้ามที่ถูกเซ็นเซอร์ ฉันทำไม่ได้หรือแม้ว่าฉันจะสามารถเรียกใช้แบบจำลองอุปสรรค์ที่ไม่มีส่วนประกอบของสิ่งกีดขวาง แต่ฉันจะดูเป็นแพ็คเกจ sandwick สำหรับแพ็คเกจ geepack ดูเหมือนว่าจะมีปัญหาเช่นเดียวกันกับแพ็คเกจ gee; เมื่อฉันระบุตระกูล "negative.binomial" (จาก MASS) โดยไม่ระบุ theta มันจะถามทีต้า อย่างไรก็ตามเมื่อฉันระบุค่า theta มันจะคายข้อผิดพลาดออกมาว่าเป็นตระกูลที่ไม่รู้จัก
Iris Tsui

@Casey - ขออภัยฉันอ่านผิดความต้องการของคุณอีกครั้งโดยไม่มีการตัดทอน ความอัปยศที่ geepack ใช้ไม่ได้กับฟังก์ชันตระกูลนั้น ถ้าฉันคิดอย่างอื่นฉันจะอัปเดตที่นี่
Reinstate Monica - G. Simpson

@Casey ฉันได้เพิ่มบันทึกเกี่ยวกับgamlssแพคเกจซึ่งอาจเหมาะสมกับค่าใน R ด้วย
Reinstate Monica - G. Simpson

ยอมรับคำตอบของคุณเนื่องจากคำแนะนำหลายข้อสำหรับทรัพยากรและฟังก์ชั่นที่ปรับปรุงความเข้าใจของฉัน ดูเหมือนว่า 'gamlss' จะเป็นวิธีที่เป็นไปได้ในการแก้ปัญหาของฉัน แต่เนื่องจากจริง ๆ แล้วฉันไม่ใช่นักสถิติฉันจึงไม่มีภูมิหลังในวิชาคณิตศาสตร์หรือเวลาที่จะเปิดตัวหนอนในขณะนี้ (แต่ บางทีฉันอาจจะในที่สุด) ดังที่ได้กล่าวไว้ในความคิดเห็นอื่นสำหรับข้อมูลของฉันอย่างน้อยดูเหมือนว่าการเพิกเฉยต่อการไม่มีการตัดทอนจะไม่เปลี่ยนแปลงการประมาณการและข้อผิดพลาดมาตรฐานมากนัก สำหรับผู้ชมที่ตั้งใจไว้ฉันเชื่อว่า GEE nbinomial จะทำได้ดี ขอบคุณ!
Iris Tsui

9

อืมคำถามแรกดี! ฉันไม่รู้แพ็คเกจที่ตรงกับความต้องการของคุณ ฉันคิดว่าxtgeeของ Stata เป็นตัวเลือกที่ดีถ้าคุณระบุvce(robust)ตัวเลือกเพื่อให้ข้อผิดพลาดมาตรฐานของ Huber-White หรือvce(bootstrap)ถ้าเป็นจริง ตัวเลือกใดตัวเลือกหนึ่งเหล่านี้จะช่วยให้มั่นใจได้ว่าข้อผิดพลาดมาตรฐานจะได้รับการประเมินอย่างสม่ำเสมอแม้จะมีรูปแบบการสะกดผิดพลาดที่คุณจะต้องทำ

นั่นทำให้คำถามว่าเอฟเฟกต์ที่เพิกเฉยต่อการตัดศูนย์จะมีผลต่อการประเมินจุดที่คุณสนใจ มันคุ้มค่ากับการค้นหาอย่างรวดเร็วเพื่อดูว่ามีวรรณกรรมที่เกี่ยวข้องในเรื่องนี้โดยทั่วไปหรือไม่ไม่จำเป็นต้องอยู่ในบริบทของ GEE - ฉันคิดว่าคุณน่าจะปลอดภัยพอที่จะสรุปว่าผลลัพธ์ดังกล่าวจะมีความเกี่ยวข้องในกรณี GEE หากคุณไม่พบอะไรเลยคุณสามารถจำลองข้อมูลด้วยการตัดศูนย์และประเมินผลกระทบที่รู้จักและประเมินอคติโดยการจำลอง


1
ฉันแน่ใจว่าจะประเมินข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพ นอกจากนี้ในหนังสือ "ผสมเอฟเฟกต์และส่วนขยายในระบบนิเวศด้วย R" โดย Zuur, et al, 2009, ในหน้า 261, พวกเขากล่าวถึง, "ถ้าค่าเฉลี่ยของตัวแปรการตอบสนองนั้นค่อนข้างใหญ่โดยไม่สนใจปัญหาการตัดทอน แบบปัวซองหรือลบทวินามลบล้าง (NB) แบบจำลองเชิงเส้นตรง (GLM) ไม่น่าจะทำให้เกิดปัญหาได้ " โชคดีที่ค่าเฉลี่ยของตัวแปรตอบกลับของฉันมีขนาดใหญ่ดังนั้นฉันจึงรู้สึกสะดวกสบายที่จะลดความสำคัญในการลดค่าศูนย์เมื่อเปรียบเทียบกับ GEE และแง่ลบของการถดถอยของฉัน
Iris Tsui

ฟังดูเหมือนคุณรู้เรื่องนี้มากกว่าฉันแล้ว! หรือใครก็ตามในเว็บไซต์นี้ตัดสินโดยขาดการตอบสนองอื่น ๆ
onestop

มันไม่น่าเชื่อเลย ใครจะรู้ว่าข้อมูลการนับระยะยาวที่เกินขนาดจะเป็นเรื่องยากที่จะวิเคราะห์ (โดยไม่ต้องทำ GLMM ซึ่งฉันยังไม่ได้ดูด้วยซ้ำ)? หากข้อมูลของฉันมีค่าเป็นศูนย์ที่สูงเกินจริงนั่นจะเป็นอีกเรื่องหนึ่ง
Iris Tsui

5

ฉันมีปัญหาเดียวกันในวิทยานิพนธ์ของฉัน ใน Stata ฉันเพิ่งสร้างโปรแกรม. ado ที่กำหนดเองโดยใช้ xtgee สองสาย

สำหรับสิ่งนี้ฉันพบว่าสไลด์"โปรแกรมจำลองการดูแลสุขภาพและจำนวนค่าใช้จ่าย"โดย Partha Deb, Willard Manning และ Edward Norton มีประโยชน์ พวกเขาไม่ได้พูดถึงข้อมูลระยะยาว แต่เป็นจุดเริ่มต้นที่มีประโยชน์


1

ฉันกำลังมองหาคำตอบในการตีความ glmmADMB และฉันเห็นโพสต์ของคุณ ฉันรู้ว่ามันนานมาแล้ว แต่ฉันอาจมีคำตอบ

ดูในแพ็คเกจ glmmADMB เมื่อใช้รุ่นที่มีอุปสรรค์ คุณต้องแบ่งการวิเคราะห์ข้อมูลของคุณออกเป็นสองแบบ: หนึ่งในนั้นใช้ข้อมูลที่ไม่มีศูนย์ คุณสามารถเพิ่มเอ็ฟเฟ็กต์แบบผสมและเลือกการกระจาย เงื่อนไขคือข้อมูลจะต้องเป็นศูนย์พองตัวและฉันไม่ทราบว่าสิ่งนี้เหมาะกับความต้องการของคุณ! ยังไงก็ตามฉันหวังว่าคุณจะได้รู้มานานแล้ว!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.