สมมติฐานการถดถอยของปัวซองและวิธีทดสอบใน R


11

ฉันต้องการทดสอบว่าการถดถอยแบบใดที่เหมาะกับข้อมูลของฉันที่สุด ตัวแปรตามของฉันคือการนับและมีศูนย์จำนวนมาก

และฉันต้องการความช่วยเหลือในการกำหนดรูปแบบและครอบครัวที่จะใช้ (ปัวซองหรือ quasipoisson หรือการถดถอยปัวซองปัวซอง) และวิธีทดสอบสมมติฐาน

  1. การถดถอยปัวซอง: เท่าที่ฉันเข้าใจสมมติฐานที่แข็งแกร่งคือความแปรปรวนเฉลี่ย = ความแปรปรวน คุณทดสอบสิ่งนี้อย่างไร พวกเขาต้องอยู่ใกล้กันแค่ไหน? มีการใช้ค่าเฉลี่ยและความแปรปรวนแบบไม่มีเงื่อนไขหรือมีเงื่อนไขหรือไม่ ฉันจะทำอย่างไรถ้าข้อสันนิษฐานนี้ไม่ได้ถืออยู่?
  2. ฉันอ่านว่าหากความแปรปรวนมากกว่าค่าเฉลี่ยเรามีการกระจายเกินความเร็วและวิธีที่เป็นไปได้ในการจัดการกับสิ่งนี้คือการรวมตัวแปรอิสระมากขึ้นหรือ family = quasipoisson การแจกจ่ายนี้มีข้อกำหนดหรือข้อสมมติฐานอื่น ๆ หรือไม่? ฉันจะใช้การทดสอบแบบใดเพื่อดูว่า (1) หรือ (2) เหมาะสมกว่าดีกว่าanova(m1,m2)หรือไม่?
  3. ฉันยังอ่านด้วยว่าการแจกแจงลบ - ทวินามสามารถใช้เมื่อการกระจายเกินปกติปรากฏขึ้น ฉันจะทำสิ่งนี้ใน R ได้อย่างไร ความแตกต่างของ quasipoisson คืออะไร?
  4. การถดถอยปัวซองที่ไม่ทำให้เป็นศูนย์: ฉันอ่านว่าการใช้การทดสอบ vuong จะตรวจสอบว่าแบบจำลองใดที่เหมาะสมกว่า

    > vuong (model.poisson, model.zero.poisson)

    ถูกต้องหรือไม่ การถดถอยแบบไม่มี Zero-สมมติฐานมีอะไรบ้าง?

  5. บริการด้านวิชาการของ UCLA กลุ่มให้คำปรึกษาทางสถิติมีส่วนเกี่ยวกับการถดถอยแบบปัวซองที่ไม่ทำให้เป็นศูนย์และทดสอบแบบจำลองเซโรพเลต (a) เทียบกับแบบจำลองปัวซองมาตรฐาน

    > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
    > m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
    > vuong(m.a, m.b)

ฉันไม่เข้าใจว่า| personsส่วนใดของโมเดลแรกและทำไมคุณจึงสามารถเปรียบเทียบโมเดลเหล่านี้ได้ ฉันคาดว่าการถดถอยจะเหมือนกันและใช้ครอบครัวที่แตกต่างกัน

คำตอบ:


8

X¯S2F(1,n-1)nคือขนาดของตัวอย่างและกระบวนการเป็นปัวซองอย่างแท้จริง - เนื่องจากเป็นค่าโดยประมาณที่เป็นอิสระจากความแปรปรวนเดียวกัน

โปรดทราบว่าการทดสอบนี้จะละเว้น covariates - ดังนั้นอาจไม่ใช่วิธีที่ดีที่สุดในการตรวจสอบการกระจายตัวเกินในสถานการณ์นั้น

โปรดทราบว่าการทดสอบนี้อาจอ่อนแอต่อสมมุติฐานที่เป็นศูนย์

3) ลบทวินามใน R: ใช้glm.nbจากMASSแพ็คเกจหรือใช้zeroinflฟังก์ชันจากpsclแพ็คเกจโดยใช้ลิงค์ลบทวินาม

4) zip (ปัวซอง zero-inflated) เป็นรูปแบบผสม คุณมีผลลัพธ์ไบนารีตามที่หัวเรื่องอยู่ในกลุ่ม A (โดยที่ 0 แน่นอน) หรือกลุ่ม B (ที่นับเป็น Poisson หรือ Negomomomom กระจาย) ข้อสังเกต 0 นั้นเกิดจากวิชาจากกลุ่ม A + จากกลุ่ม B ที่เพิ่งโชคดี ทั้งสองด้านของแบบจำลองสามารถพึ่งพา covariates ได้: ความเป็นสมาชิกของกลุ่มนั้นเหมือนแบบโลจิสติก (log odds เป็นเส้นตรงใน covariates) และ Poisson ส่วนนั้นถูกสร้างแบบตามปกติ: log mean เป็นเส้นตรงใน covariates ดังนั้นคุณต้องใช้สมมติฐานปกติสำหรับโลจิสติก (สำหรับ 0 ส่วนที่แน่นอน) และสมมติฐานปกติสำหรับปัวซอง กล่าวอีกนัยหนึ่งรูปแบบซิปจะไม่แก้ปัญหาการกระจายเกินพิกัดของคุณ - เพียงรักษาศูนย์ใหญ่ของศูนย์

5) ไม่แน่ใจว่าชุดข้อมูลคืออะไรและไม่สามารถหาข้อมูลอ้างอิงได้ zeroinfl ต้องการโมเดลสำหรับทั้งส่วนปัวซองและไบนารี (แน่นอน 0 หรือไม่) ส่วน 0 ส่วนหนึ่งไปที่สอง ดังนั้น ma จึงบอกว่าไม่ว่าบุคคลนั้นจะเป็น 0 หรือไม่นั้นขึ้นอยู่กับ "บุคคล" - และถ้าสมมุติว่าหัวเรื่องนั้นไม่ใช่ 0 แน่นอนการนับเป็นหน้าที่ของผู้ไปพักแรมและลูก ในคำอื่น ๆ เข้าสู่ระบบ (หมายถึง) เป็นฟังก์ชั่นเชิงเส้นของค่ายและเด็กสำหรับวิชาเหล่านั้นไม่ต้องมีการนับ 0

mb เป็นเพียงโมเดลเชิงเส้นทั่วไปของการนับในแง่ของผู้ไปพักแรมและเด็กซึ่งทั้งคู่ถือว่าเป็นเอฟเฟกต์คงที่ ฟังก์ชั่นลิงค์คือ Poisson


ขอบคุณ! คำถามด่วน: มีวิธีสร้าง r ^ 2 หรือ pseudo-r ^ 2 เหมือน Nagelkerke ใน glm โดยใช้ family = poisson ใน R หรือไม่? ขอบคุณ!
Torvon

0
  1. ห้องสมุด (pastecs)

stat.desc (dep_var) - แล้วดูว่าค่าเฉลี่ยและความแปรปรวนเท่ากัน จากที่นี่คุณสามารถคำนวณ% ของศูนย์ในเวกเตอร์ของคุณ


3
ยินดีต้อนรับสู่เว็บไซต์ นี่เป็นเหมือนความคิดเห็นมากกว่าคำตอบ นอกจากนี้จะเป็นการดีกว่าถ้าใช้การสะกดคำที่เหมาะสมเป็นต้น - นี่ไม่ใช่การส่งข้อความและคนจำนวนมากที่อ่านเว็บไซต์นี้มีภาษาอังกฤษเป็นภาษาที่ 2 หรือ 3 หรือ ....
Peter Flom

3
โปรดดำเนินการปรับปรุงการตอบกลับอย่างรวดเร็วนี้
chl
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.