การใช้มากเกินไปและการสร้างแบบจำลองทางเลือกในโมเดลเอฟเฟกต์แบบปัวซองที่มีออฟเซ็ต


12

ฉันพบคำถามเชิงปฏิบัติจำนวนมากเมื่อสร้างแบบจำลองนับข้อมูลจากการวิจัยเชิงทดลองโดยใช้การทดสอบภายในเรื่อง ฉันอธิบายการทดลองข้อมูลและสิ่งที่ฉันได้ทำไปแล้วตามด้วยคำถามของฉัน

มีการฉายภาพยนตร์สี่เรื่องที่แตกต่างกันตามตัวอย่างของผู้ตอบแบบสอบถาม หลังจากภาพยนตร์แต่ละเรื่องทำการสัมภาษณ์กันซึ่งเราได้นับจำนวนการปรากฏของข้อความบางอย่างที่น่าสนใจสำหรับ RQ (ตัวแปรการนับที่คาดการณ์) นอกจากนี้เรายังบันทึกจำนวนสูงสุดของเหตุการณ์ที่เป็นไปได้ (หน่วยการเข้ารหัสตัวแปรออฟเซ็ต) นอกจากนี้ยังมีการวัดคุณลักษณะหลายอย่างของภาพยนตร์ในระดับต่อเนื่องซึ่งสำหรับหนึ่งเรามีสมมติฐานเชิงสาเหตุของผลกระทบของคุณลักษณะภาพยนตร์ที่มีต่อการนับข้อความในขณะที่คุณสมบัติอื่น ๆ เป็นตัวควบคุม (ตัวทำนาย)

กลยุทธ์การสร้างแบบจำลองที่นำมาใช้จนถึงมีดังนี้:

ประมาณค่าแบบจำลองเอฟเฟกต์ปัวซงโดยใช้ตัวแปรสาเหตุเป็นตัวแปรร่วมและตัวแปรอื่น ๆ เป็นตัวแปรควบคุม รุ่นนี้มีการชดเชยเท่ากับ 'บันทึก (หน่วย)' (หน่วยการเข้ารหัส) เอฟเฟกต์แบบสุ่มจะถูกนำไปใช้กับตัวแบบ (จำนวนเฉพาะของภาพยนตร์นั้นซ้อนอยู่ในตัวแบบ) เราพบว่าสมมติฐานเชิงสาเหตุได้รับการยืนยัน (sig. สัมประสิทธิ์ของตัวแปรเชิงสาเหตุ) ในการประมาณค่าเราใช้แพ็คเกจ lme4 ใน R โดยเฉพาะฟังก์ชัน glmer

ตอนนี้ฉันมีคำถามต่อไปนี้ ปัญหาที่พบบ่อยในการถดถอยปัวซองคือ ฉันรู้ว่าสิ่งนี้สามารถทดสอบได้โดยใช้การถดถอยแบบทวินามลบและประเมินว่าพารามิเตอร์การกระจายของมันช่วยปรับปรุงแบบจำลองของปัวซองแบบง่าย ๆ หรือไม่ อย่างไรก็ตามฉันไม่รู้ว่าจะทำอย่างไรในบริบทของเอฟเฟกต์แบบสุ่ม

  • ฉันควรทดสอบ overispersion ในสถานการณ์ของฉันอย่างไร ฉันทดสอบการกระจายตัวมากเกินไปในปัวซอง / การถดถอยแบบทวินามเชิงลบอย่างง่าย (ที่ไม่มีเอฟเฟกต์แบบสุ่ม) ที่ฉันรู้ว่าจะพอดีได้อย่างไร การทดสอบแสดงให้เห็นการปรากฏตัวของ overdispersion อย่างไรก็ตามเนื่องจากรุ่นเหล่านี้ไม่ได้พิจารณาการจัดกลุ่มฉันจึงคิดว่าการทดสอบนี้ไม่ถูกต้อง นอกจากนี้ฉันไม่แน่ใจเกี่ยวกับบทบาทของออฟเซ็ตสำหรับการทดสอบการเกินขนาด
  • มีแบบจำลองการถดถอยเอฟเฟกต์แบบสุ่มแบบลบทวินามแบบลบหรือไม่และฉันควรใส่ใน R ได้อย่างไร?
  • คุณมีคำแนะนำสำหรับแบบจำลองทางเลือกอื่นที่ฉันควรลองใช้กับข้อมูลหรือไม่เช่นการพิจารณาโครงสร้างการวัดซ้ำการนับตัวแปรและการเปิดรับ (หน่วยการเข้ารหัส)

1
สำหรับ starters ตรวจสอบส่วน "overdispersion" ในglmm.wikidot.com/faq
Ben Bolker

1
ขอบคุณมีประโยชน์มาก! บางทีใครบางคนต้องการรวบรวมคำตอบจากข้อมูลนี้และข้อมูลอื่น ๆ
tomka

คำตอบ:


1

มีคำตอบที่นับได้สูงสุดที่เกี่ยวข้องกับจำนวนคำถามที่ถาม ถึงแม้คนหนึ่งสามารถจำลองนี้เป็นกระบวนการ Poissonประเภทนับอีกความหมายก็คือว่ากระบวนการ Poisson ไม่มีขีด จำกัด ทางทฤษฎีสำหรับจำนวนของคำตอบนับ, ที่อยู่, มันอยู่บนinfty) การจัดจำหน่ายอีกเช่นหนึ่งที่ไม่ต่อเนื่องที่มีการสนับสนุนที่ จำกัดเช่นการทวินามเบต้า , อาจจะเหมาะสมกว่าในขณะที่มันมีรูปร่างไม่แน่นอนมากขึ้น อย่างไรก็ตามนั่นเป็นเพียงการคาดเดาและในทางปฏิบัติฉันจะค้นหาคำตอบสำหรับคำถามทั่วไปโดยใช้กำลังดุร้าย ...[0,)

แทนที่จะตรวจสอบoverdispersionซึ่งไม่รับประกันว่าจะนำไปสู่คำตอบที่เป็นประโยชน์และแม้ว่าใครสามารถตรวจสอบดัชนีการกระจายตัวเพื่อหาจำนวนการกระจายตัวได้ฉันก็จะแนะนำการค้นหาการกระจายที่ดีที่สุดโดยใช้ตัวเลือกการกระจายแบบไม่ต่อเนื่อง โปรแกรมเช่นรูทีนFindDistributionของ Mathematica การค้นหาประเภทนั้นทำงานค่อนข้างละเอียดถี่ถ้วนในการคาดเดาว่าการกระจายแบบใดที่รู้จักกันดีที่สุดไม่เพียง แต่จะช่วยลดการกระจายเกินพิกัด แต่ยังรวมถึงการใช้แบบจำลองที่เป็นประโยชน์มากขึ้นของลักษณะข้อมูลอื่น ๆ อีกมากมายเช่น วิธีทางที่แตกต่าง.

ในการตรวจสอบการแจกแจงผู้สมัครของฉันเพิ่มเติมฉันจะโพสต์ hocตรวจสอบเศษที่เหลือเพื่อตรวจสอบ homoscedasticity และ / หรือประเภทการแจกแจง อันตรายของกระบวนการนี้คือการระบุการกระจายที่ไม่สอดคล้องกับการสร้างแบบจำลองที่ดีที่สุดของชุดข้อมูลที่ขยาย อันตรายของการไม่ทำโพสต์เฉพาะกิจคือการกำหนดสิทธิ์ในการแจกจ่ายที่เลือกโดยพลการโดยไม่มีการทดสอบที่เหมาะสม (ขยะในขยะ) ความเหนือกว่าของโพสต์เฉพาะกิจวิธีการคือ จำกัด ข้อผิดพลาดของข้อต่อและยังเป็นจุดอ่อนของมันเช่นมันอาจจะพูดถึงข้อผิดพลาดในการสร้างแบบจำลองผ่านโอกาสที่บริสุทธิ์เมื่อมีการแจกแจงจำนวนมากที่เหมาะสม นั่นคือเหตุผลในการตรวจสอบสิ่งตกค้างและการพิจารณาทางกายภาพ บนลงล่างหรือเบื้องต้นแนวทางข้อเสนอดังกล่าวไม่มีการโพสต์เฉพาะกิจตรวจสอบความสมเหตุสมผล นั่นคือวิธีเดียวในการเปรียบเทียบกายภาพของการสร้างแบบจำลองที่มีการแจกแจงที่แตกต่างกันคือการโพสต์เฉพาะกิจเปรียบเทียบพวกเขา ดังนั้นจึงเกิดขึ้นตามธรรมชาติของทฤษฎีทางกายภาพเราทดสอบคำอธิบายสมมุติฐานของข้อมูลด้วยการทดลองจำนวนมากก่อนที่เราจะยอมรับพวกเขาว่าเป็นคำอธิบายทางเลือกที่น่าเบื่อหน่าย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.