การถดถอยปัวซองเป็นเพียง GLM:
ผู้คนมักพูดถึงเหตุผลเชิงพารามิเตอร์สำหรับการประยุกต์การถดถอยปัวซอง อันที่จริงแล้วการถดถอยของปัวซองนั้นเป็นเพียง GLM นั่นหมายถึงการถดถอยปัวซงเป็นธรรมสำหรับข้อมูลประเภทใด ๆ (นับ, คะแนน, คะแนนสอบ, เหตุการณ์ไบนารี ฯลฯ ) เมื่อพบสองสมมติฐาน: 1) บันทึกของค่าเฉลี่ยผลคือการรวมกันเชิงเส้นของตัวทำนายและ 2) ความแปรปรวนของผลที่ได้จะเท่ากับค่าเฉลี่ย เงื่อนไขสองข้อนี้เรียกว่าความสัมพันธ์ระหว่างค่าเฉลี่ยและความแปรปรวนเฉลี่ย
สมมติฐานแบบจำลองสามารถผ่อนคลายได้บ้างโดยใช้ชุดการปรับที่ซับซ้อนสำหรับตัวทำนาย นี่เป็นสิ่งที่ดีเพราะฟังก์ชั่นลิงค์มีผลต่อการตีความพารามิเตอร์ ความละเอียดอ่อนของการตีความทำให้เกิดความแตกต่างระหว่างการตอบคำถามทางวิทยาศาสตร์และขจัดการวิเคราะห์เชิงสถิติของผู้บริโภคอย่างสมบูรณ์ ในบทความSEอื่นฉันพูดถึงประโยชน์ของการแปลงบันทึกเพื่อการตีความ
อย่างไรก็ตามปรากฎว่าสมมติฐานที่สอง (ความสัมพันธ์ความแปรปรวนเฉลี่ย) มีนัยยะสำคัญต่อการอนุมาน เมื่อความสัมพันธ์ของค่าเฉลี่ยความแปรปรวนไม่เป็นความจริงประมาณการพารามิเตอร์จะไม่ลำเอียง อย่างไรก็ตามข้อผิดพลาดมาตรฐานช่วงความมั่นใจค่า p และการคาดการณ์ทั้งหมดจะถูกคำนวณผิด นั่นหมายความว่าคุณไม่สามารถควบคุมข้อผิดพลาด Type I และคุณอาจมีพลังงานต่ำ
เกิดอะไรขึ้นถ้าความแปรปรวนเฉลี่ยสามารถผ่อนคลายเพื่อให้ความแปรปรวนเป็นสัดส่วนกับค่าเฉลี่ย? การถดถอยแบบทวินามลบและการถดถอยแบบ Quasipoisson ทำเช่นนี้
รุ่น Quasipoisson
โมเดล Quasipoisson ไม่ได้มีความเป็นไปได้ พวกเขาเพิ่ม "quasilikelihood" ซึ่งเป็นโอกาสปัวซองถึงค่าคงที่สัดส่วน สัดส่วนคงที่นั้นเกิดจากการกระจายตัว การกระจายตัวถือว่าเป็นสิ่งที่น่ารำคาญพารามิเตอร์. ในขณะที่รูทีนการขยายใหญ่สุดเกิดขึ้นพร้อมการประมาณค่าพารามิเตอร์ที่สร้างความรำคาญการประมาณการนั้นเป็นเพียงส่วนของข้อมูลแทนที่จะเป็นค่าใด ๆ การกระจายทำหน้าที่เพียงเพื่อ "ลดขนาด" หรือ "ขยาย" SEs ของพารามิเตอร์การถดถอยตามว่าความแปรปรวนมีขนาดเล็กกว่าหรือใหญ่กว่าค่าเฉลี่ย เนื่องจากการกระจายตัวได้รับการปฏิบัติเสมือนเป็นพารามิเตอร์ที่สร้างความรำคาญโมเดลของ quasipoisson จะมีคุณสมบัติที่แข็งแกร่ง: ในความเป็นจริงข้อมูลสามารถเป็นแบบ heteroscedastic (ไม่ตรงตามสมมติฐานค่าความแปรปรวนแบบสัดส่วน) และแม้แต่แสดงแหล่งที่มาของการพึ่งพาเพียงเล็กน้อย ให้ถูกต้อง แต่ CIs 95% สำหรับพารามิเตอร์การถดถอยนั้นถูกต้องหากเป้าหมายของคุณในการวิเคราะห์ข้อมูลคือการวัดความสัมพันธ์ระหว่างชุดของพารามิเตอร์การถดถอยและผลลัพธ์โมเดล quasipoisson มักเป็นวิธีที่จะไป ข้อ จำกัด ของแบบจำลองเหล่านี้คือพวกเขาไม่สามารถคาดการณ์ช่วงเวลาได้ส่วนที่เหลือของเพียร์สันไม่สามารถบอกคุณได้มากเกี่ยวกับความแม่นยำของแบบจำลองค่าเฉลี่ยและเกณฑ์ข้อมูลเช่น AIC หรือ BIC ไม่สามารถเปรียบเทียบแบบจำลองเหล่านี้กับรุ่นอื่น ๆ ได้อย่างมีประสิทธิภาพ
แบบจำลองทวินามลบ
มันมีประโยชน์มากที่สุดในการทำความเข้าใจการถดถอยแบบทวินามเชิงลบในรูปของการถดถอยปัวซง 2 พารามิเตอร์ ตัวแบบเฉลี่ยนั้นเหมือนกับในแบบ Poisson และ Quasipoisson โดยที่ log ของผลลัพธ์นั้นเป็นการรวมกันเชิงเส้นของตัวทำนาย นอกจากนี้พารามิเตอร์ "สเกล" ยังแสดงถึงความสัมพันธ์ความแปรปรวนเฉลี่ยซึ่งความแปรปรวนนั้นเป็นสัดส่วนกับค่าเฉลี่ยเช่นเดียวกับก่อนหน้านี้ อย่างไรก็ตามแตกต่างจากรุ่น quasipoisson รูปแบบประเภทนี้เป็นขั้นตอนตามโอกาสที่แน่นอน. ในกรณีนี้การกระจายตัวเป็นพารามิเตอร์จริงซึ่งมีขอบเขตทั่วไปของประชากร สิ่งนี้นำเสนอข้อได้เปรียบเล็ก ๆ น้อย ๆ เกี่ยวกับ quasipoisson แต่ในความคิดของฉันได้กำหนดสมมติฐานเพิ่มเติม (ไม่สามารถทดสอบได้) ซึ่งแตกต่างจากรุ่น quasipoisson: ข้อมูลจะต้องเป็นอิสระรูปแบบค่าเฉลี่ยจะต้องถูกต้องและพารามิเตอร์ขนาดจะต้องเป็นเนื้อเดียวกันในช่วงของค่าติดตั้งเพื่อให้ได้ข้อสรุปที่ถูกต้อง อย่างไรก็ตามสิ่งเหล่านี้สามารถประเมินได้โดยการตรวจสอบส่วนที่เหลือของเพียร์สันและรูปแบบการสร้างการทำนายที่มีศักยภาพและช่วงการทำนายและเป็นคล้อยตามการเปรียบเทียบกับเกณฑ์ข้อมูล
แบบจำลองความน่าจะเป็นแบบทวินามลบเกิดขึ้นจากส่วนผสมปัวซอง - แกมม่า นั่นคือมีตัวแปรสุ่ม Gamma ที่ไม่ทราบค่าที่เปลี่ยนแปลง "ป้อนเข้า" พารามิเตอร์อัตราปัวซอง เนื่องจากความเหมาะสมของ NB GLM เป็นไปตามความน่าจะเป็นดังนั้นจึงมักจะเป็นประโยชน์ในการระบุความเชื่อก่อนหน้าเกี่ยวกับกลไกการสร้างข้อมูลและเชื่อมต่อพวกเขากับ ตัวอย่างเช่นถ้าฉันกำลังทดสอบจำนวนนักแข่งที่เกษียณจากการแข่งรถที่มีความอดทน 24 ชั่วโมงฉันอาจพิจารณาว่าสภาพแวดล้อมเป็นสิ่งที่สร้างความเครียดทั้งหมดที่ฉันไม่ได้วัดและทำให้เกิดความเสี่ยงต่อ DNF เช่นความชื้นหรืออุณหภูมิเย็นที่ส่งผลต่อยาง ฉุดและดังนั้นความเสี่ยงของการหมุนออกและการก่อวินาศกรรม
รุ่นสำหรับข้อมูลที่ขึ้นต่อกัน: GLMMs กับ GEE
โมเดลผสมเชิงเส้นทั่วไป (GLMM) สำหรับข้อมูลปัวซองไม่ได้เปรียบเทียบกับวิธีการข้างต้น GLMM ตอบคำถามต่าง ๆ และใช้ในโครงสร้างข้อมูลที่แตกต่างกัน ที่นี่แหล่งอ้างอิงระหว่างข้อมูลถูกวัดอย่างชัดเจน GLMM ใช้ประโยชน์จากการสกัดแบบสุ่มและความลาดชันแบบสุ่มเพื่ออธิบายความแตกต่างในระดับบุคคล สิ่งนี้จะแก้ไขสิ่งที่เราประเมิน เอฟเฟกต์แบบสุ่มจะปรับเปลี่ยนค่าเฉลี่ยและความแปรปรวนที่เป็นแบบจำลองแทนที่จะเป็นเพียงความแปรปรวนตามที่ได้กล่าวไว้ข้างต้น
มีการเชื่อมโยงที่เป็นไปได้สองระดับซึ่งสามารถวัดได้ในข้อมูลที่ต้องพึ่งพา: ระดับประชากร (ส่วนเพิ่ม) และระดับบุคคล (ตามเงื่อนไข) GLMMs เรียกร้องให้วัดความสัมพันธ์ในระดับบุคคล (แบบมีเงื่อนไข): นั่นคือให้ทั้งโฮสต์ของผู้มีส่วนร่วมในระดับบุคคลกับผลลัพธ์สิ่งที่เป็นผลสัมพันธ์ของการรวมกันของการทำนาย ตัวอย่างเช่นหลักสูตรเตรียมสอบอาจมีผลเพียงเล็กน้อยต่อเด็ก ๆ ที่เข้าเรียนในโรงเรียนที่เป็นแบบอย่างในขณะที่เด็ก ๆ ในเมืองชั้นในอาจได้รับประโยชน์อย่างมาก ผลกระทบระดับบุคคลนั้นสูงขึ้นอย่างมากในกรณีนี้เนื่องจากเด็กที่ได้รับผลประโยชน์สูงกว่าเส้นโค้งในแง่ของความเสี่ยงเชิงบวก
หากเราใช้แบบจำลอง quasipoisson หรือแบบจำลองแบบทวินามลบกับข้อมูลที่ขึ้นต่อกันแบบจำลอง NB จะผิดและแบบจำลอง Quasipoisson จะไม่มีประสิทธิภาพ อย่างไรก็ตาม GEE ขยายแบบจำลอง quasipoisson ไปยังแบบจำลองโครงสร้างการพึ่งพาอย่างชัดเจนเช่น GLMM แต่ GEE วัดแนวโน้มส่วนเพิ่ม (ระดับประชากร) และรับน้ำหนักที่ถูกต้องข้อผิดพลาดมาตรฐานและการอนุมาน
ตัวอย่างการวิเคราะห์ข้อมูล:
โพสต์นี้ยาวเกินไปแล้ว :) มีตัวอย่างที่ดีของสองโมเดลแรกในบทช่วยสอนนี้พร้อมด้วยการอ้างอิงถึงการอ่านเพิ่มเติมหากคุณสนใจ ข้อมูลในคำถามเกี่ยวข้องกับพฤติกรรมการทำรังของปูเกือกม้า: เพศเมียนั่งอยู่ในรังและตัวผู้ (ดาวเทียม) ติดอยู่กับเธอ นักวิจัยต้องการวัดจำนวนเพศชายที่ติดอยู่กับผู้หญิงเป็นหน้าที่ของลักษณะของผู้หญิง ฉันหวังว่าฉันจะเน้นย้ำว่าเพราะเหตุใดโมเดลที่ผสมกันจึงไม่สามารถเทียบเคียงได้: ถ้าคุณมีข้อมูลที่ต้องพึ่งพาคุณต้องใช้โมเดลที่ถูกต้องสำหรับคำถามที่ข้อมูลที่พึ่งพานั้นพยายามตอบ GLM หรือ GEE
อ้างอิง:
[1] Agresti, การวิเคราะห์ข้อมูลอย่างละเอียดรุ่นที่ 2
[2] Diggle, Heagerty, Liang, Zeger, การวิเคราะห์ข้อมูลระยะยาว 2nd ed.