เมื่อใดควรใช้ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพในการถดถอยปัวซอง?


10

ฉันใช้แบบจำลองการถดถอยปัวซงสำหรับการนับข้อมูลและสงสัยว่ามีเหตุผลที่จะไม่ใช้ข้อผิดพลาดมาตรฐานที่แข็งแกร่งสำหรับการประมาณค่าพารามิเตอร์หรือไม่ ฉันกังวลเป็นพิเศษเนื่องจากบางส่วนของประมาณการที่ไม่มีความแข็งแกร่งไม่สำคัญ (เช่น p = 0.13) แต่ด้วยความแข็งแกร่งนั้นมีนัยสำคัญ (p <0.01)

ใน SAS สามารถใช้คำสั่งซ้ำในproc genmod(เช่น, repeated subject=patid;) ฉันใช้http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htmเป็นตัวอย่างที่อ้างอิงบทความโดย Cameron และ Trivedi (2009) เพื่อสนับสนุนการใช้ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพ

คำตอบ:


6

โดยทั่วไปหากคุณมีข้อสงสัยว่าข้อผิดพลาดของคุณเป็นแบบ heteroskedastic คุณควรใช้ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพ ความจริงที่ว่าการประมาณการของคุณไม่สำคัญเมื่อคุณไม่ใช้ SE ที่มีประสิทธิภาพแนะนำ (แต่ไม่ได้พิสูจน์) ความต้องการ SE ที่แข็งแกร่ง! SEs เหล่านี้ "แข็งแกร่ง" ต่ออคติที่ heteroskedasticity สามารถทำให้เกิดในรูปแบบเชิงเส้นทั่วไป

สถานการณ์นี้จะแตกต่างออกไปเล็กน้อยในขณะที่คุณกำลังวางพวกเขาไว้ด้านบนของการถดถอยปัวซอง

ปัวซองมีคุณสมบัติที่รู้จักกันดีว่ามันบังคับให้การกระจายตัวมีค่าเท่ากับค่าเฉลี่ยไม่ว่าข้อมูลจะสนับสนุนหรือไม่ก็ตาม ก่อนที่จะพิจารณาข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพฉันจะลองใช้การถดถอยแบบลบซึ่งไม่ได้รับปัญหานี้ มีการทดสอบ (ดูความคิดเห็น) เพื่อช่วยพิจารณาว่าการเปลี่ยนแปลงผลลัพธ์ในข้อผิดพลาดมาตรฐานนั้นมีนัยสำคัญหรือไม่

ฉันไม่ทราบแน่ชัดว่าการเปลี่ยนแปลงที่คุณเห็นหรือไม่ (การย้ายไปยัง SEs ที่ จำกัด จะทำให้ CI แคบลง) หมายถึงการกระจายตัวต่ำกว่า แต่ดูเหมือนว่าจะเป็นไปได้หรือไม่ ลองดูโมเดลที่เหมาะสม (ฉันคิดว่าลบทวินาม แต่ googling อย่างรวดเร็วยังแนะนำ quasi-Poisson สำหรับการกระจายตัวต่ำกว่า?) และดูสิ่งที่คุณได้รับในการตั้งค่านั้น


คำตอบที่ดี! โดยทั่วไปแล้วใน heteroskedasticity OLS จะไม่ทำให้พารามิเตอร์นั้นไม่เอนเอียง (ไม่มีประสิทธิภาพ) สิ่งนี้ไม่เป็นความจริงสำหรับโมเดลเชิงเส้นทั่วไปให้ดูบทความนี้โดยDave Giles เกี่ยวกับมันสำหรับการอ้างอิง ฉันไม่คิดว่าฉันเคยเห็นคำแนะนำการทดสอบของ Vuong สำหรับเรื่องนี้ (สำหรับการเปรียบเทียบโมเดลที่ไม่พองศูนย์ที่ไม่ซ้อนกันที่ฉันได้เห็นมันแนะนำ) ปัวซองถูกซ้อนภายในเนก แบบจำลองทวินามดังนั้นเราสามารถใช้การทดสอบอัตราส่วนความน่าจะเป็นสำหรับพารามิเตอร์การกระจายตัว
Andy W

ขอบคุณสำหรับคำตอบของคุณ ฉันลองใช้ Negative Binomial regression แต่พบคำเตือน: "เกณฑ์การลู่เข้าของ Hessian 0.0046138565 นั้นสูงกว่าขีด จำกัด 0.0001 การบรรจบกันนั้นน่าสงสัย" โปรดทราบว่าตัวแปรตอบสนองของฉันคือการนับที่มีค่าตั้งแต่ 0 ถึง 4 มีการเปลี่ยนแปลงของตัวแปรที่ขึ้นกับหรืออิสระที่จะช่วยให้การบรรจบกันหรือไม่? หรือคนเราจะทำอะไรในกรณีนี้?
คาร่า

นอกจากนี้ที่เกี่ยวข้องกับ SE ที่ไม่คงทนมีขนาดเล็กลง - ในการวิเคราะห์ของฉันฉันเห็นว่ามันเป็น SE ที่แข็งแกร่งที่เล็กกว่าและนี่คือสิ่งที่สำคัญอยู่ (ไม่ใช่ในผลลัพธ์ที่ไม่แข็งแกร่ง) นี่คือเหตุผลที่ฉันต้องการระวังว่าจะรายงานผลลัพธ์ที่มีประสิทธิภาพหรือไม่ - ฉันไม่ต้องการเลือกวิธีนี้เพียงเพราะมีค่ามาก! ขอบคุณอีกครั้ง!
คาร่า

@AndyW ฉันตรวจสอบบันทึกย่อของฉันแล้ว Vuong นั้นสำหรับ ZI กับปัวซอง อัปเดตโพสต์แล้ว คาร่าฉันพลาดการกลับรายการ คุณอาจมีข้อมูลที่กระจัดกระจายอยู่ซึ่งในกรณีนี้ NBD ก็เป็นไปได้เช่นกัน :-)
Ari B. Friedman

@kara ยากที่จะวินิจฉัยปัญหาที่ไม่ได้มาบรรจบกันในความคิดเห็น ฉันลองคำถามใหม่ที่มีข้อมูลมากที่สุดเท่าที่คุณสามารถให้ได้
Ari B. Friedman

1

ฉันจะแยกความแตกต่างของการวิเคราะห์โดยใช้แบบจำลองกับข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพโดยอ้างถึงหลังเป็น "GEEs" ซึ่งอันที่จริงแล้วเป็นคำจำกัดความที่แลกเปลี่ยนได้ นอกจากคำอธิบายที่ยอดเยี่ยมของ Scortchi:

GEEs สามารถเป็น "ลำเอียง" ในกลุ่มตัวอย่างขนาดเล็กเช่น 10-50 เรื่อง: (Lipsitz, Laird และ Harrington, 1990; Emrich และ Piedmonte, 1992; Sharples and Breslow, 1992; Lipsitz et al., 1994; Qu, Piedmonte และ Williams, 1994; Gunsolley, Getchell, และ Chinchilli, 1995; Sherman and le Cessie, 1997. ) เมื่อฉันบอกว่า GEEs มีความลำเอียงสิ่งที่ฉันหมายถึงคือการประมาณการข้อผิดพลาดมาตรฐานอาจเป็นไปได้ว่าอนุรักษ์นิยมหรือ anticonservative ขึ้นอยู่กับว่าค่าติดตั้งใดที่แสดงพฤติกรรมนี้และความสอดคล้องกับแนวโน้มโดยรวมของตัวแบบการถดถอย

โดยทั่วไปเมื่อมีการระบุโมเดลพารามิเตอร์อย่างถูกต้องคุณยังคงได้รับการประมาณการข้อผิดพลาดมาตรฐานที่ถูกต้องจาก CIs ตามรูปแบบ แต่จุดรวมทั้งหมดของการใช้ GEE คือการรองรับขนาดใหญ่มาก "ถ้า" GEEs อนุญาตให้นักสถิติเพียงระบุรูปแบบความน่าจะเป็นที่ใช้งานได้สำหรับข้อมูลและพารามิเตอร์ (แทนที่จะถูกตีความในกรอบพารามิเตอร์ที่เคร่งครัด) ถือเป็นประเภทของ "ตะแกรง" ที่สามารถสร้างค่าที่ทำซ้ำได้โดยไม่คำนึงถึงการสร้างข้อมูล กลไก. นี่คือหัวใจและจิตวิญญาณของการวิเคราะห์กึ่งพารามิเตอร์ซึ่ง GEE เป็นตัวอย่างของ

GEEs ยังจัดการกับแหล่งกำเนิดความแปรปรวนร่วมที่ไม่ได้วัดในข้อมูลแม้จะมีสเปคของเมทริกซ์สหสัมพันธ์อิสระ นี่เป็นเพราะการใช้เชิงประจักษ์มากกว่าเมทริกซ์ความแปรปรวนร่วมแบบจำลอง ตัวอย่างเช่นในการสร้างแบบจำลองปัวซองคุณอาจสนใจในอัตราการเจริญพันธุ์ของปลาแซลมอนที่สุ่มตัวอย่างจากสตรีมต่างๆ โอวาที่เก็บเกี่ยวจากปลาเพศเมียอาจมีการกระจายแบบปัวซอง แต่ความแปรปรวนทางพันธุกรรมที่ประกอบด้วยการถ่ายทอดทางพันธุกรรมและทรัพยากรที่มีอยู่ในลำธารเฉพาะอาจทำให้ปลาในลำธารเหล่านั้นคล้ายกันมากกว่าในลำธารอื่น GEE จะให้ค่าประมาณความคลาดเคลื่อนมาตรฐานของประชากรที่ถูกต้องตราบใดที่อัตราการสุ่มตัวอย่างสอดคล้องกับสัดส่วนประชากรของพวกเขา


1

คุณทำการทดสอบโมฆะของ Equidispersion มันคือการถดถอย OLS เสริมอย่างง่าย มีคำอธิบายในหน้า 670ของ Cameron และ Trivedi ด้วยการกระจายเกินขนาดใหญ่ข้อผิดพลาดมาตรฐานจะลดน้อยลงมากดังนั้นฉันจึงต้องระวังผลลัพธ์ใด ๆ ที่บานพับ VCE ที่ไม่เสถียรเมื่อมีการกระจายเกินพิกัด ด้วยการกระจายน้อยกว่าสิ่งที่ตรงกันข้ามจะเป็นจริงซึ่งฟังดูเหมือนกับสถานการณ์ที่คุณกำลังทำอยู่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.