การใช้ยาเกินขนาดและความไม่แน่นอนในการถดถอยแบบทวินาม / ปัวซอง


11

ฉันทำการถดถอยแบบปัวซงใน SAS และพบว่าค่าเพียร์สันไค - สแควร์หารด้วยองศาอิสระมีค่าประมาณ 5 แสดงว่ามีการกระจายตัวมากเกินไป ดังนั้นฉันพอดีกับโมเดลทวินามลบกับ proc genmod และพบว่าค่าเพียร์สันไค - สแควร์หารด้วยองศาอิสระเท่ากับ 0.80 ตอนนี้มีการพิจารณาว่ามีการด้อยค่าหรือไม่ ถ้าเป็นเช่นนั้นเราจะจัดการกับเรื่องนี้อย่างไร? ฉันได้อ่านมากมายเกี่ยวกับการกระจายเกินปกติและเชื่อว่าฉันรู้วิธีจัดการเรื่องนี้ แต่ข้อมูลเกี่ยวกับวิธีจัดการหรือตัดสินว่ามีการด้อยโอกาสน้อยหรือไม่ ใครช่วยได้บ้าง

ขอบคุณ


คำตอบ:


17

สำหรับการกระจาย Poisson ที่มีค่าเฉลี่ยแปรปรวนยังเป็น\ภายในกรอบของตัวแบบเชิงเส้นทั่วไปนี่หมายความว่าฟังก์ชันความแปรปรวนคือ สำหรับแบบจำลองของปัวซอง สมมติฐานของโมเดลนี้อาจผิดด้วยเหตุผลหลายประการ ข้อมูลการนับจำนวนมากเกินไปที่มีความแปรปรวนใหญ่กว่าที่การแจกแจงปัวซงเป็นตัวกำหนดมักจะพบ μμ

V(μ)=μ

การเบี่ยงเบนจากสมมติฐานความแปรปรวนสามารถในบริบทการถดถอยมีหลายรูปแบบ หนึ่งที่ง่ายที่สุดก็คือฟังก์ชั่นความแปรปรวนเท่ากับ กับกระจายพารามิเตอร์ นี่คือรูปแบบกึ่งปัวซอง มันจะให้รูปแบบการถดถอยที่เหมาะสมเช่นเดียวกัน แต่การอนุมานทางสถิติ ( value และช่วงความเชื่อมั่น) จะถูกปรับสำหรับการกระจายเกินหรือต่ำกว่าโดยใช้พารามิเตอร์การกระจายตัวโดยประมาณ

V(μ)=ψμ
ψ>0พี

รูปแบบการทำงานของฟังก์ชันความแปรปรวนอาจผิด มันอาจเป็นพหุนามระดับที่สอง พูด ตัวอย่าง ได้แก่ ทวินาม, ทวินามลบและโมเดลแกมมา การเลือกแบบจำลองใด ๆ เหล่านี้เป็นทางเลือกแทนรุ่นปัวซองจะส่งผลกระทบต่อรูปแบบการถดถอยที่เหมาะสมรวมถึงการอนุมานทางสถิติที่ตามมา สำหรับการแจกแจงแบบทวินามลบด้วยพารามิเตอร์รูปร่างฟังก์ชันความแปรปรวนคือ เราสามารถเห็นได้จากสิ่งนี้ว่าถ้าเราจะได้รับฟังก์ชันความแปรปรวนสำหรับการแจกแจงปัวซง

V(μ)=aμ2+μ+,
λ>0
V(μ)=μ(1+μλ).
λ

ในการพิจารณาว่าฟังก์ชันความแปรปรวนสำหรับแบบจำลองปัวซองนั้นเหมาะสมกับข้อมูลหรือไม่เราสามารถประมาณพารามิเตอร์การกระจายตัวตามที่ OP แนะนำและตรวจสอบว่ามันประมาณ 1 (อาจใช้การทดสอบอย่างเป็นทางการ) การทดสอบดังกล่าวไม่ได้แนะนำทางเลือกเฉพาะ แต่เป็นที่เข้าใจกันอย่างชัดเจนที่สุดในแบบจำลองกึ่งปัวซอง เพื่อทดสอบว่ารูปแบบการทำงานของฟังก์ชันความแปรปรวนมีความเหมาะสมหรือไม่เราสามารถสร้างการทดสอบอัตราส่วนความน่าจะเป็นของแบบจำลองปัวซอง ( ) เทียบกับแบบจำลองทวินามลบ ( ) โปรดทราบว่ามันมีการแจกแจงที่ไม่เป็นมาตรฐานภายใต้สมมติฐานว่าง หรือเราสามารถใช้วิธีการแบบ AIC โดยทั่วไปเพื่อเปรียบเทียบแบบจำลองที่ไม่ซ้อนกัน การทดสอบตามการถดถอยสำหรับการกระจายตัวมากเกินไปในโมเดลปัวซองλ=λ< สำรวจคลาสการทดสอบสำหรับฟังก์ชันความแปรปรวนทั่วไป

อย่างไรก็ตามฉันขอแนะนำให้ทำการแปลงแรกที่เหลือจากการศึกษาทั้งหมดเช่นแปลงของเพียร์สันหรือค่าเบี่ยงเบนความเบี่ยงเบน (หรือค่ากำลังสองของพวกเขา) เทียบกับค่าติดตั้ง หากรูปแบบการทำงานของความแปรปรวนผิดคุณจะเห็นสิ่งนี้ว่าเป็นรูปร่างของช่องทาง (หรือแนวโน้มของส่วนที่เหลือกำลังสอง) ในพล็อตที่เหลือ หากรูปแบบการทำงานถูกต้องกล่าวคือไม่มีช่องทางหรือแนวโน้มอาจยังมีการกระจายเกินหรือต่ำกว่า แต่ก็สามารถนำมาคำนวณได้โดยการประมาณค่าพารามิเตอร์การกระจาย ประโยชน์ของพล็อตที่เหลือคือมันแสดงให้เห็นชัดเจนกว่าการทดสอบว่ามีอะไรผิดปกติกับฟังก์ชั่นการแปรปรวนหากมีอะไร

ในกรณีที่เป็นรูปธรรมของ OP มันเป็นไปไม่ได้ที่จะบอกว่า 0.8 หมายถึงการด้อยค่าจากข้อมูลที่ได้รับ แทนที่จะมุ่งเน้นไปที่การประมาณการ 5 และ 0.8 ฉันขอแนะนำให้ก่อนอื่นตรวจสอบความเหมาะสมของฟังก์ชันความแปรปรวนของแบบจำลอง Poisson และแบบจำลองแบบทวินามลบ เมื่อกำหนดรูปแบบการทำงานที่เหมาะสมที่สุดของฟังก์ชันความแปรปรวนแล้วสามารถรวมพารามิเตอร์การกระจายได้หากจำเป็นในทั้งสองโมเดลเพื่อปรับการอนุมานเชิงสถิติสำหรับการกระจายเกินหรือต่ำกว่า วิธีที่จะทำได้อย่างง่ายดายใน SAS คือไม่ใช่สิ่งที่ฉันสามารถช่วยได้


2
+1 นี่คือข้อมูลทั่วไปที่ดี อาจเป็นประโยชน์สำหรับ OP หากคุณระบุคำถามที่ชัดเจนของ OP: (1) คือ. 8 underdispersed & (2) ถ้าเป็นเช่นนั้นวิธีการจัดการ w / ที่
gung - Reinstate Monica

@ gung ฉันได้แก้ไขคำตอบเพื่อให้คำแนะนำที่เฉพาะเจาะจงมากขึ้น คุณไม่สามารถระบุได้ว่า 0.8 นั้นมีขนาดเล็กกว่า 1 อย่างมากจากข้อมูลที่มีอยู่หรือไม่และ IMHO มุ่งเน้นไปที่ว่าพารามิเตอร์การกระจายตัวเป็น 1 คือการเบี่ยงเบนหรือไม่ การแก้ไขของฉันอธิบายสิ่งที่ฉันคิดว่า OP ควรมุ่งเน้นไปที่แทน
NRH
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.