รูปแบบผสมกับการรวมข้อผิดพลาดมาตรฐานสำหรับการศึกษาหลายเว็บไซต์ - ทำไมรูปแบบผสมจึงมีประสิทธิภาพมากกว่ามาก


16

ฉันมีชุดข้อมูลที่ประกอบด้วยชุดของกรณี "รายเดือนที่หัก" นับจากเว็บไซต์จำนวนหนึ่ง ฉันกำลังพยายามหาค่าประมาณสรุปเดียวจากสองเทคนิคที่ต่างกัน:

เทคนิคที่ 1: ติดตั้ง "แท่งหัก" กับ Poisson GLM พร้อมตัวแปรตัวบ่งชี้ 0/1 และใช้ตัวแปรเวลาและเวลา ^ 2 เพื่อควบคุมแนวโน้มในเวลา การประมาณค่าตัวแปร 0/1 ของตัวบ่งชี้และ SE นั้นจะรวมกันโดยใช้วิธีโมเมนต์ขึ้นและลงแบบสวย ๆ หรือใช้แพ็คเกจ tlnise ใน R เพื่อรับการประมาณ "Bayesian" สิ่งนี้คล้ายกับที่ Peng และ Dominici ทำกับข้อมูลมลพิษทางอากาศ แต่มีไซต์น้อยกว่า (~ โหล)

เทคนิคที่ 2: ละทิ้งการควบคุมเฉพาะไซต์สำหรับแนวโน้มในเวลาและใช้โมเดลเชิงเส้นผสม โดยเฉพาะอย่างยิ่ง:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

คำถามของฉันเกี่ยวข้องกับข้อผิดพลาดมาตรฐานที่มาจากการประมาณเหล่านี้ ข้อผิดพลาดมาตรฐานของเทคนิค 1 ซึ่งใช้จริงทุกสัปดาห์แทนที่จะตั้งเวลารายเดือนและควรมีความแม่นยำมากขึ้นมีข้อผิดพลาดมาตรฐานในการประเมินประมาณ 0.206 สำหรับวิธีการของ Moments และ ~ 0.306 สำหรับ tlnise

เมธอด lmer ให้ข้อผิดพลาดมาตรฐานที่ ~ 0.09 การประเมินผลกระทบอยู่ใกล้พอสมควรดังนั้นจึงไม่น่าจะเป็นไปได้ว่าพวกเขามีศูนย์ในการประมาณการสรุปที่แตกต่างกันมากพอ ๆ กับตัวแบบผสมที่มีประสิทธิภาพอย่างมากมาย

เป็นสิ่งที่สมเหตุสมผลหรือไม่ ถ้าเป็นเช่นนั้นทำไมโมเดลแบบผสมจึงมีประสิทธิภาพมากกว่ามาก นี่เป็นปรากฏการณ์ทั่วไปหรือเป็นผลลัพธ์ที่เฉพาะเจาะจงของรุ่นนี้หรือไม่?


คำถามนี้ยากที่จะตอบโดยไม่ทราบว่าแบบจำลองใดที่คุณเหมาะสมกับเทคนิคของคุณ 1. คุณพูดถึงความเป็นไปได้ 3 ประการ แต่เท่าที่ฉันสามารถบอกได้ หลังจากนั้นคุณพูดว่า "ข้อผิดพลาดมาตรฐานของเทคนิค 1 [... ] คือ ~ 0.206" นี่เป็นข้อผิดพลาดมาตรฐานที่แม่นยำสำหรับรุ่นใด คุณจะโพสต์ซินแทกซ์ที่คุณใช้สำหรับการปรับโมเดลนี้เช่นเดียวกับที่คุณทำกับเทคนิค 2 หรือไม่ ยิ่งไปกว่านั้นคือการให้ตัวอย่างที่ทำซ้ำได้ (ไม่จำเป็นต้องเป็นชุดข้อมูลดั้งเดิมของคุณ) ที่เราสามารถทำได้ทั้งสองแบบ
Jake Westfall

@ JakeWestfall คุณถูกต้องเมื่อฉันแรกเขียนนี้มันเป็นชนิดของคำถามที่มีสติในขณะที่ปัญหาการพัฒนา ฉันจะแก้ไขและดูว่ามันจะมีประโยชน์มากกว่านี้ไหม แต่น่าเสียดายที่รหัสได้เดินออกไปที่ไหนสักแห่ง ...
Fomite

เสร็จสิ้นการล้างข้อมูลเล็กน้อย - การออกแบบตัวแบบใช้ตัวแปรเดียวกัน น่าเสียดายที่รหัสข้อมูล ฯลฯ อยู่ในเครื่องอื่นและฉันกำลังประชุม ฉันคิดว่ารูทคำถามอาจถูกต้มลงไปที่ "การประเมินหลายเว็บไซต์: โมเดลผสมกัน / มักจะมีประสิทธิภาพมากกว่าการรวมกำไรหรือไม่"
Fomite

คำตอบ:


5

ฉันรู้ว่านี่เป็นคำถามเก่า แต่มันค่อนข้างเป็นที่นิยมและมีคำตอบง่ายๆหวังว่ามันจะเป็นประโยชน์กับคนอื่น ๆ ในอนาคต สำหรับการใช้เวลามากขึ้นในเชิงลึกให้ดูที่สนามคริสโต Lippert ในเชิงเส้นรุ่นผสมซึ่งจะตรวจสอบพวกเขาในบริบทของจีโนมทั้งการศึกษาการเชื่อมโยงที่นี่ ในอ่านโดยเฉพาะอย่างยิ่งการบรรยาย 5

เหตุผลที่โมเดลผสมทำงานได้ดีขึ้นมากก็คือมันถูกออกแบบมาให้คำนึงถึงสิ่งที่คุณพยายามควบคุม: โครงสร้างประชากร "ประชากร" ในการศึกษาของคุณเป็นเว็บไซต์ต่าง ๆ ที่ใช้ตัวอย่างเช่นการใช้งานที่แตกต่างกันเล็กน้อย แต่สอดคล้องกันของโปรโตคอลเดียวกัน นอกจากนี้หากหัวข้อการศึกษาของคุณเป็นคนคนที่รวมกลุ่มจากเว็บไซต์ต่าง ๆ มีแนวโน้มที่จะมีความสัมพันธ์น้อยกว่าคนจากไซต์เดียวกันดังนั้นความเกี่ยวข้องกับเลือดอาจมีบทบาทเช่นกัน

ยังไม่มีข้อความ(Y|Xβ,σ2)Kยังไม่มีข้อความ(Y|Xβ+Zยู,σ2ผม+σก.2K).

เนื่องจากคุณพยายามควบคุมโครงสร้างประชากรอย่างชัดเจนจึงไม่แปลกใจเลยที่โมเดลผสมเชิงเส้นมีประสิทธิภาพดีกว่าเทคนิคการถดถอยอื่น ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.