จะจัดการกับ overdispersion ในการถดถอยของปัวซองได้อย่างไร: ความเป็นไปได้เสมือน, GLM ทวินามลบ, หรือเอฟเฟกต์แบบสุ่มระดับหัวเรื่อง?

ฉันได้พบกับข้อเสนอสามข้อเพื่อจัดการกับการกระจายเกินพิกัดในตัวแปรตอบกลับของปัวซองและโมเดลเริ่มต้นที่มีเอฟเฟกต์ถาวรทั้งหมด:

ใช้แบบจำลองเสมือน;
ใช้ GLM ลบแบบทวินาม
ใช้โมเดลผสมกับเอฟเฟกต์แบบสุ่มระดับหัวเรื่อง

แต่สิ่งที่จะเลือกจริงและทำไม? มีเกณฑ์ใดบ้างในกลุ่มนี้?

— ไบรอัน
แหล่งที่มา

แบบจำลองเสมือนปฏิบัติต่อพารามิเตอร์สเกล / การกระจายตัวเป็นพารามิเตอร์ที่สร้างความรำคาญและจัดเตรียม SEs สำหรับ IRRs ที่กว้างขึ้นโดยความต่างกันนั้นในขณะที่ IRS ลบทวินามลบขึ้นอยู่กับพารามิเตอร์ของสเกล แบบจำลองผสมมีผลแตกต่างกัน: ระดับบุคคลหรือผลตามเงื่อนไขในขณะที่แบบจำลองทวินามลบและ quasipoisson เป็นแบบจำลองขอบ ดังนั้นพวกเขาจึงไม่ประมาณสิ่งเดียวกัน

— AdamO

โอเคสิ่งที่จะเลือกจริงและเกณฑ์ในการตัดสินใจคืออะไร

— ไบรอัน

ฉันคิดว่าคุณจะเลือก Quasipoisson ถ้า (เป็นอิสระจากข้อมูล) คุณรู้ว่าโมเดล Poisson ประมาณการแนวโน้มที่คุณสนใจ แต่การออกแบบหรือการวิเคราะห์ข้อมูลไม่ตรงกับสมมติฐานความแปรปรวน คุณจะใช้โมเดลทวินามลบเชิงลบหากคุณมีเหตุผลที่ดีที่จะเชื่อว่าแบบจำลองความน่าจะเป็นนั้นเป็นลบทวินามแบบลบล้างจริง ๆแล้วและคุณจำเป็นต้องทำนายความแตกต่างแบบเชิงซ้อนแทนการอนุมานแนวโน้ม สุดท้ายคุณใช้แบบผสมถ้าคุณต้องการทราบผลกระทบของการสัมผัสกับบุคคลมากกว่าในประชากร (เช่นไม่เคยใช้กับพิษวิทยา)

— AdamO

ผมไม่เห็นด้วยกับ @AdamO WRT "รูปแบบผสม ... ผลของการสัมผัสบน ... บุคคลมากกว่าในประชากร" ความเข้าใจของฉันคือแบบจำลองแบบผสมจะคำนวณปริมาณเอฟเฟ็กต์ระดับหัวเรื่องจากนั้นรวมเข้ากับมัน โดยพื้นฐานแล้วบัญชีนี้ใช้สำหรับการปลอมแปลง (การวัดหลายอย่างในหัวข้อเดียวกัน) จากการประมาณพารามิเตอร์ของคุณการคำนวณในการประมาณค่าพารามิเตอร์ที่ไม่เอนเอียงสำหรับประชากร (ไม่ใช่รายบุคคล) ฉันใช้แบบผสมอยู่ตลอดเวลาด้วยเหตุผลนี้ดังนั้นฉันหวังว่าฉันจะไม่ผิดกับเรื่องนี้!

— RTbecard

การถดถอยปัวซองเป็นเพียง GLM:

ผู้คนมักพูดถึงเหตุผลเชิงพารามิเตอร์สำหรับการประยุกต์การถดถอยปัวซอง อันที่จริงแล้วการถดถอยของปัวซองนั้นเป็นเพียง GLM นั่นหมายถึงการถดถอยปัวซงเป็นธรรมสำหรับข้อมูลประเภทใด ๆ (นับ, คะแนน, คะแนนสอบ, เหตุการณ์ไบนารี ฯลฯ ) เมื่อพบสองสมมติฐาน: 1) บันทึกของค่าเฉลี่ยผลคือการรวมกันเชิงเส้นของตัวทำนายและ 2) ความแปรปรวนของผลที่ได้จะเท่ากับค่าเฉลี่ย เงื่อนไขสองข้อนี้เรียกว่าความสัมพันธ์ระหว่างค่าเฉลี่ยและความแปรปรวนเฉลี่ย

สมมติฐานแบบจำลองสามารถผ่อนคลายได้บ้างโดยใช้ชุดการปรับที่ซับซ้อนสำหรับตัวทำนาย นี่เป็นสิ่งที่ดีเพราะฟังก์ชั่นลิงค์มีผลต่อการตีความพารามิเตอร์ ความละเอียดอ่อนของการตีความทำให้เกิดความแตกต่างระหว่างการตอบคำถามทางวิทยาศาสตร์และขจัดการวิเคราะห์เชิงสถิติของผู้บริโภคอย่างสมบูรณ์ ในบทความSEอื่นฉันพูดถึงประโยชน์ของการแปลงบันทึกเพื่อการตีความ

อย่างไรก็ตามปรากฎว่าสมมติฐานที่สอง (ความสัมพันธ์ความแปรปรวนเฉลี่ย) มีนัยยะสำคัญต่อการอนุมาน เมื่อความสัมพันธ์ของค่าเฉลี่ยความแปรปรวนไม่เป็นความจริงประมาณการพารามิเตอร์จะไม่ลำเอียง อย่างไรก็ตามข้อผิดพลาดมาตรฐานช่วงความมั่นใจค่า p และการคาดการณ์ทั้งหมดจะถูกคำนวณผิด นั่นหมายความว่าคุณไม่สามารถควบคุมข้อผิดพลาด Type I และคุณอาจมีพลังงานต่ำ

เกิดอะไรขึ้นถ้าความแปรปรวนเฉลี่ยสามารถผ่อนคลายเพื่อให้ความแปรปรวนเป็นสัดส่วนกับค่าเฉลี่ย? การถดถอยแบบทวินามลบและการถดถอยแบบ Quasipoisson ทำเช่นนี้

รุ่น Quasipoisson

โมเดล Quasipoisson ไม่ได้มีความเป็นไปได้ พวกเขาเพิ่ม "quasilikelihood" ซึ่งเป็นโอกาสปัวซองถึงค่าคงที่สัดส่วน สัดส่วนคงที่นั้นเกิดจากการกระจายตัว การกระจายตัวถือว่าเป็นสิ่งที่น่ารำคาญพารามิเตอร์. ในขณะที่รูทีนการขยายใหญ่สุดเกิดขึ้นพร้อมการประมาณค่าพารามิเตอร์ที่สร้างความรำคาญการประมาณการนั้นเป็นเพียงส่วนของข้อมูลแทนที่จะเป็นค่าใด ๆ การกระจายทำหน้าที่เพียงเพื่อ "ลดขนาด" หรือ "ขยาย" SEs ของพารามิเตอร์การถดถอยตามว่าความแปรปรวนมีขนาดเล็กกว่าหรือใหญ่กว่าค่าเฉลี่ย เนื่องจากการกระจายตัวได้รับการปฏิบัติเสมือนเป็นพารามิเตอร์ที่สร้างความรำคาญโมเดลของ quasipoisson จะมีคุณสมบัติที่แข็งแกร่ง: ในความเป็นจริงข้อมูลสามารถเป็นแบบ heteroscedastic (ไม่ตรงตามสมมติฐานค่าความแปรปรวนแบบสัดส่วน) และแม้แต่แสดงแหล่งที่มาของการพึ่งพาเพียงเล็กน้อย ให้ถูกต้อง แต่ CIs 95% สำหรับพารามิเตอร์การถดถอยนั้นถูกต้องหากเป้าหมายของคุณในการวิเคราะห์ข้อมูลคือการวัดความสัมพันธ์ระหว่างชุดของพารามิเตอร์การถดถอยและผลลัพธ์โมเดล quasipoisson มักเป็นวิธีที่จะไป ข้อ จำกัด ของแบบจำลองเหล่านี้คือพวกเขาไม่สามารถคาดการณ์ช่วงเวลาได้ส่วนที่เหลือของเพียร์สันไม่สามารถบอกคุณได้มากเกี่ยวกับความแม่นยำของแบบจำลองค่าเฉลี่ยและเกณฑ์ข้อมูลเช่น AIC หรือ BIC ไม่สามารถเปรียบเทียบแบบจำลองเหล่านี้กับรุ่นอื่น ๆ ได้อย่างมีประสิทธิภาพ

แบบจำลองทวินามลบ

มันมีประโยชน์มากที่สุดในการทำความเข้าใจการถดถอยแบบทวินามเชิงลบในรูปของการถดถอยปัวซง 2 พารามิเตอร์ ตัวแบบเฉลี่ยนั้นเหมือนกับในแบบ Poisson และ Quasipoisson โดยที่ log ของผลลัพธ์นั้นเป็นการรวมกันเชิงเส้นของตัวทำนาย นอกจากนี้พารามิเตอร์ "สเกล" ยังแสดงถึงความสัมพันธ์ความแปรปรวนเฉลี่ยซึ่งความแปรปรวนนั้นเป็นสัดส่วนกับค่าเฉลี่ยเช่นเดียวกับก่อนหน้านี้ อย่างไรก็ตามแตกต่างจากรุ่น quasipoisson รูปแบบประเภทนี้เป็นขั้นตอนตามโอกาสที่แน่นอน. ในกรณีนี้การกระจายตัวเป็นพารามิเตอร์จริงซึ่งมีขอบเขตทั่วไปของประชากร สิ่งนี้นำเสนอข้อได้เปรียบเล็ก ๆ น้อย ๆ เกี่ยวกับ quasipoisson แต่ในความคิดของฉันได้กำหนดสมมติฐานเพิ่มเติม (ไม่สามารถทดสอบได้) ซึ่งแตกต่างจากรุ่น quasipoisson: ข้อมูลจะต้องเป็นอิสระรูปแบบค่าเฉลี่ยจะต้องถูกต้องและพารามิเตอร์ขนาดจะต้องเป็นเนื้อเดียวกันในช่วงของค่าติดตั้งเพื่อให้ได้ข้อสรุปที่ถูกต้อง อย่างไรก็ตามสิ่งเหล่านี้สามารถประเมินได้โดยการตรวจสอบส่วนที่เหลือของเพียร์สันและรูปแบบการสร้างการทำนายที่มีศักยภาพและช่วงการทำนายและเป็นคล้อยตามการเปรียบเทียบกับเกณฑ์ข้อมูล

แบบจำลองความน่าจะเป็นแบบทวินามลบเกิดขึ้นจากส่วนผสมปัวซอง - แกมม่า นั่นคือมีตัวแปรสุ่ม Gamma ที่ไม่ทราบค่าที่เปลี่ยนแปลง "ป้อนเข้า" พารามิเตอร์อัตราปัวซอง เนื่องจากความเหมาะสมของ NB GLM เป็นไปตามความน่าจะเป็นดังนั้นจึงมักจะเป็นประโยชน์ในการระบุความเชื่อก่อนหน้าเกี่ยวกับกลไกการสร้างข้อมูลและเชื่อมต่อพวกเขากับ ตัวอย่างเช่นถ้าฉันกำลังทดสอบจำนวนนักแข่งที่เกษียณจากการแข่งรถที่มีความอดทน 24 ชั่วโมงฉันอาจพิจารณาว่าสภาพแวดล้อมเป็นสิ่งที่สร้างความเครียดทั้งหมดที่ฉันไม่ได้วัดและทำให้เกิดความเสี่ยงต่อ DNF เช่นความชื้นหรืออุณหภูมิเย็นที่ส่งผลต่อยาง ฉุดและดังนั้นความเสี่ยงของการหมุนออกและการก่อวินาศกรรม

รุ่นสำหรับข้อมูลที่ขึ้นต่อกัน: GLMMs กับ GEE

โมเดลผสมเชิงเส้นทั่วไป (GLMM) สำหรับข้อมูลปัวซองไม่ได้เปรียบเทียบกับวิธีการข้างต้น GLMM ตอบคำถามต่าง ๆ และใช้ในโครงสร้างข้อมูลที่แตกต่างกัน ที่นี่แหล่งอ้างอิงระหว่างข้อมูลถูกวัดอย่างชัดเจน GLMM ใช้ประโยชน์จากการสกัดแบบสุ่มและความลาดชันแบบสุ่มเพื่ออธิบายความแตกต่างในระดับบุคคล สิ่งนี้จะแก้ไขสิ่งที่เราประเมิน เอฟเฟกต์แบบสุ่มจะปรับเปลี่ยนค่าเฉลี่ยและความแปรปรวนที่เป็นแบบจำลองแทนที่จะเป็นเพียงความแปรปรวนตามที่ได้กล่าวไว้ข้างต้น

มีการเชื่อมโยงที่เป็นไปได้สองระดับซึ่งสามารถวัดได้ในข้อมูลที่ต้องพึ่งพา: ระดับประชากร (ส่วนเพิ่ม) และระดับบุคคล (ตามเงื่อนไข) GLMMs เรียกร้องให้วัดความสัมพันธ์ในระดับบุคคล (แบบมีเงื่อนไข): นั่นคือให้ทั้งโฮสต์ของผู้มีส่วนร่วมในระดับบุคคลกับผลลัพธ์สิ่งที่เป็นผลสัมพันธ์ของการรวมกันของการทำนาย ตัวอย่างเช่นหลักสูตรเตรียมสอบอาจมีผลเพียงเล็กน้อยต่อเด็ก ๆ ที่เข้าเรียนในโรงเรียนที่เป็นแบบอย่างในขณะที่เด็ก ๆ ในเมืองชั้นในอาจได้รับประโยชน์อย่างมาก ผลกระทบระดับบุคคลนั้นสูงขึ้นอย่างมากในกรณีนี้เนื่องจากเด็กที่ได้รับผลประโยชน์สูงกว่าเส้นโค้งในแง่ของความเสี่ยงเชิงบวก

หากเราใช้แบบจำลอง quasipoisson หรือแบบจำลองแบบทวินามลบกับข้อมูลที่ขึ้นต่อกันแบบจำลอง NB จะผิดและแบบจำลอง Quasipoisson จะไม่มีประสิทธิภาพ อย่างไรก็ตาม GEE ขยายแบบจำลอง quasipoisson ไปยังแบบจำลองโครงสร้างการพึ่งพาอย่างชัดเจนเช่น GLMM แต่ GEE วัดแนวโน้มส่วนเพิ่ม (ระดับประชากร) และรับน้ำหนักที่ถูกต้องข้อผิดพลาดมาตรฐานและการอนุมาน

ตัวอย่างการวิเคราะห์ข้อมูล:

โพสต์นี้ยาวเกินไปแล้ว :) มีตัวอย่างที่ดีของสองโมเดลแรกในบทช่วยสอนนี้พร้อมด้วยการอ้างอิงถึงการอ่านเพิ่มเติมหากคุณสนใจ ข้อมูลในคำถามเกี่ยวข้องกับพฤติกรรมการทำรังของปูเกือกม้า: เพศเมียนั่งอยู่ในรังและตัวผู้ (ดาวเทียม) ติดอยู่กับเธอ นักวิจัยต้องการวัดจำนวนเพศชายที่ติดอยู่กับผู้หญิงเป็นหน้าที่ของลักษณะของผู้หญิง ฉันหวังว่าฉันจะเน้นย้ำว่าเพราะเหตุใดโมเดลที่ผสมกันจึงไม่สามารถเทียบเคียงได้: ถ้าคุณมีข้อมูลที่ต้องพึ่งพาคุณต้องใช้โมเดลที่ถูกต้องสำหรับคำถามที่ข้อมูลที่พึ่งพานั้นพยายามตอบ GLM หรือ GEE

อ้างอิง:

[1] Agresti, การวิเคราะห์ข้อมูลอย่างละเอียดรุ่นที่ 2

[2] Diggle, Heagerty, Liang, Zeger, การวิเคราะห์ข้อมูลระยะยาว 2nd ed.

— Adamo
แหล่งที่มา