ค่าสัมประสิทธิ์ที่เหมือนกันประมาณในรูปแบบปัวซอง vs ควอซี - ปัวซอง


12

ในการสร้างแบบจำลองข้อมูลการนับการเรียกร้องในสภาพแวดล้อมการประกันภัยฉันเริ่มต้นด้วย Poisson แต่แล้วสังเกตเห็นการทับซ้อนกัน Quasi-Poisson เป็นแบบอย่างที่ดีกว่าความสัมพันธ์แปรปรวนที่ดีกว่า Poisson พื้นฐาน แต่ฉันสังเกตเห็นว่าสัมประสิทธิ์เป็นเหมือนกันทั้งใน Poisson และ Quasi-Poisson

หากนี่ไม่ใช่ข้อผิดพลาดเหตุใดจึงเป็นเช่นนี้ การใช้ Quasi-Poisson บน Poisson มีประโยชน์อย่างไร

สิ่งที่ควรทราบ:

  • การสูญเสียที่อยู่ภายใต้พื้นฐานส่วนเกินซึ่ง (ฉันเชื่อว่า) ป้องกัน Tweedie จากการทำงาน - แต่มันเป็นการกระจายครั้งแรกที่ฉันพยายาม ฉันยังตรวจสอบรุ่นของ NB, ZIP, ZINB และ Hurdle แต่ก็ยังพบว่า Quasi-Poisson นั้นเหมาะสมที่สุด
  • ฉันทดสอบการกระจายตัวเกินขนาดผ่านการทดสอบการกระจายในแพ็คเกจ AER พารามิเตอร์การกระจายของฉันอยู่ที่ประมาณ 8.4 โดยมีค่า p อยู่ที่ขนาด 10 ^ -16
  • ฉันกำลังใช้ glm () กับ family = poisson หรือ quasipoisson และลิงค์บันทึกสำหรับรหัส
  • เมื่อเรียกใช้รหัสปัวซองฉันออกมาพร้อมคำเตือนของ "ใน dpois (y, mu, log = TRUE): ไม่ใช่จำนวนเต็ม x = ... "

หัวข้อ SE ที่เป็นประโยชน์ต่อคำแนะนำของ Ben:

  1. คณิตศาสตร์พื้นฐานของออฟเซ็ตในการถดถอยปัวซอง
  2. ผลกระทบของ Offsets ต่อค่าสัมประสิทธิ์
  3. ความแตกต่างระหว่างการใช้ Exposure เป็น Covariate กับ Offset

การกระจาย Tweedie จะไม่เป็นความคิดที่ดีขึ้นหรือไม่
duffymo

Tweedie ที่พยายามจากการเดินทาง แต่ข้อมูลการสูญเสียของเราไม่ได้เป็นข้อมูลพื้นฐาน แต่เป็นข้อมูลส่วนเกิน ลองใช้รุ่นเนกาทีฟ Binomial, ZIP และ hurdle เพื่อระบุการกระจายการนับ
Frank H.

1
คุณสามารถอธิบายเพิ่มเติมเกี่ยวกับที่มาของค่าที่ไม่ใช่จำนวนเต็มในข้อมูลของคุณได้หรือไม่?
Ben Bolker

6
คุณไม่ควรความถี่รุ่น / counts/exposureอัตราโดยอัตราส่วนของการคำนวณ คุณควรเพิ่มคำ offset ( offset(log(exposure))) ลงในแบบจำลองของคุณ
Ben Bolker

1
มันใช้งานได้จริงแม้ว่าจะสำคัญที่สุดเมื่อทำการสร้างแบบจำลอง Poisson (ไม่ใช่ quasi-Poisson) ฉันไม่รู้การอ้างอิงที่ดีในทันที หากคุณไม่พบคำตอบที่เกี่ยวข้องที่นี่ใน CrossValidated มันจะทำให้คำถามติดตาม
Ben Bolker

คำตอบ:


25

นี้เกือบจะเป็นที่ซ้ำกัน ; คำถามที่เชื่อมโยงนั้นอธิบายว่าคุณไม่ควรคาดหวังว่าการประมาณค่าสัมประสิทธิ์การเบี่ยงเบนส่วนที่เหลือหรือระดับความอิสระที่จะเปลี่ยนแปลง สิ่งเดียวที่เปลี่ยนแปลงเมื่อย้ายจาก Poisson เป็น quasi-Poisson ก็คือพารามิเตอร์ scale ที่ก่อนหน้านี้กำหนดไว้ที่ 1 คำนวณจากการประมาณค่าความแปรปรวนที่เหลือ / ความไม่ดี - พอดี ( ) หารด้วย df ที่เหลือแม้ว่า asymptotically เมื่อใช้การเบี่ยงเบนที่เหลือจะให้ผลลัพธ์เหมือนกัน) ผลที่ได้คือข้อผิดพลาดที่มีการปรับขนาดมาตรฐานจากรากที่สองของพารามิเตอร์ขนาดนี้มีการเปลี่ยนแปลงเกิดขึ้นพร้อมกันในช่วงความเชื่อมั่นและ -valuesχ2p

ประโยชน์ของความเป็นไปได้เสมือนว่าจะแก้ไขการเข้าใจผิดขั้นพื้นฐานของการสมมติว่าข้อมูลเป็นปัวซอง (= เป็นเนื้อเดียวกันนับเป็นอิสระ); อย่างไรก็ตามการแก้ไขปัญหาด้วยวิธีนี้อาจปกปิดปัญหาอื่น ๆ กับข้อมูล (ดูด้านล่าง) ความเป็นไปได้เสมือนเป็นวิธีหนึ่งในการจัดการการกระจายเกินปกติ หากคุณไม่ได้ใช้งานเกินขนาดในทางใดทางหนึ่งค่าสัมประสิทธิ์ของคุณจะสมเหตุสมผล แต่การอนุมานของคุณ (CIs ค่า value ฯลฯ ) จะเป็นขยะp

  • ในขณะที่คุณแสดงความคิดเห็นข้างต้นมีหลายวิธีที่แตกต่างกันในการ overdispersion (Tweedie, การกำหนดพารามิเตอร์ทวินามลบต่างกัน, ความเป็นไปได้เสมือน, ศูนย์เงินเฟ้อ / การเปลี่ยนแปลง)
  • ด้วยปัจจัยการกระจายตัวเกิน> 5 (8.4) ฉันจะกังวลนิดหน่อยว่ามันจะถูกขับเคลื่อนโดยแบบจำลองบางประเภทที่ไม่ถูกต้องหรือไม่ (outliers, zero-เงินเฟ้อ มากกว่าการเป็นตัวแทนความหลากหลายข้ามกระดาน วิธีการทั่วไปของฉันคือการสำรวจข้อมูลดิบและการวินิจฉัยการถดถอยแบบกราฟิก

มีประโยชน์มาก ฉันเห็นแล้วว่าค่า p สำหรับตัวแปรและระดับของตัวแปรในปัวซองนั้นมีความสำคัญทางสถิติมากกว่า Quasi-Poisson เนื่องจากขนาดที่คุณกล่าวถึง ฉันทำการทดสอบสำหรับผู้ผิดปกติ แต่ไม่พบว่าเป็นปัญหา อาจมีปัญหาอื่นใดบ้างที่ถูกหลอกลวงโดยการใช้เกินขนาดหรือตัวอย่างของวิธีการดังกล่าวเพื่อค้นหาปัญหาเหล่านี้
แฟรงค์เอช

ส่วนใหญ่ไม่ใช่เชิงเส้นของการตอบสนองในระดับลิงค์ (บันทึก); ตรวจสอบพล็อตส่วนที่เหลือเทียบกับที่พอดีและส่วนที่เหลือเทียบกับตัวทำนายตัวแปรเพื่อดูว่ามีรูปแบบหรือไม่
Ben Bolker

1
+1 เค้าดีมาก! ฉันซาบซึ้งในความชัดเจนของย่อหน้าแรกของคุณ
อเล็กซิส
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.