การตีความ“ รูปแบบผสม” สามรูปแบบ


19

มีความแตกต่างที่สะดุดฉันกับโมเดลผสมและฉันสงสัยว่าฉันจะได้รับความชัดเจนในนั้น สมมติว่าคุณมีรูปแบบข้อมูลนับรวมกัน มีตัวแปรที่คุณรู้ว่าคุณต้องการเป็นเอฟเฟกต์คงที่ (A) และตัวแปรอีกตัวสำหรับเวลา (T) จัดกลุ่มโดยพูดว่าตัวแปร "ไซต์"

ตามที่ฉันเข้าใจ

glmer(counts ~ A + T, data=data, family="Poisson") เป็นโมเดลเอฟเฟกต์คงที่

glmer(counts ~ (A + T | Site), data=data, family="Poisson") เป็นโมเดลเอฟเฟกต์แบบสุ่ม

คำถามของฉันคือเมื่อคุณมีสิ่งที่ชอบ:

glmer(counts ~ A + T + (T | Site), data=data, family="Poisson")T คืออะไร มันเป็นผลแบบสุ่มหรือไม่? ผลคงที่? การทำให้สำเร็จด้วยการใส่ T ในทั้งสองแห่งคืออะไร

เมื่อสิ่งที่ควรเท่านั้นที่ปรากฏในส่วนผลกระทบแบบสุ่มของสูตรรูปแบบ?

คำตอบ:


22

สิ่งนี้อาจชัดเจนขึ้นโดยการเขียนสูตรโมเดลสำหรับแต่ละโมเดลทั้งสามนี้ ให้เป็นข้อสังเกตสำหรับ person iในไซต์jในแต่ละรุ่นและกำหนดA i j , T i j แบบอะนาล็อกเพื่ออ้างอิงตัวแปรในโมเดลของคุณYผมJผมJAผมJ,TผมJ

glmer(counts ~ A + T, data=data, family="Poisson") เป็นรูปแบบ

เข้าสู่ระบบ(E(YผมJ))=β0+β1AผมJ+β2TผมJ

ซึ่งเป็นเพียงรูปแบบการถดถอยปัวซองสามัญ

glmer(counts ~ (A + T|Site), data=data, family="Poisson") เป็นรูปแบบ

เข้าสู่ระบบ(E(YผมJ))=α0+ηJ0+ηJ1AผมJ+ηJ2TผมJ

โดยที่เป็นเอฟเฟกต์แบบสุ่มที่ใช้ร่วมกันโดยการสังเกตแต่ละครั้งที่ทำโดยบุคคลจากไซต์j ) )คือα 0สำหรับไซต์ทั้งหมด มีการสุ่มชดเชย ( η J 0ηj=(ηj0,ηj1,ηj2)N(0,Σ)Jเจผลกระทบสุ่มเหล่านี้จะได้รับอนุญาตให้มีลักษณะร่วมกันได้อย่างอิสระ (คือไม่มีข้อ จำกัด จะทำใน ) ในรูปแบบที่คุณระบุ ในการกำหนดความเป็นอิสระคุณต้องวางมันไว้ในวงเล็บที่แตกต่างกันเช่นทำมัน รุ่นนี้จะถือว่าบันทึกนั้น( E ( Y i j)Σ(A-1|Site) + (T-1|Site) + (1|Site)log(E(Yij))α0ηj0 ) และมีความสัมพันธ์เชิงเส้นสุ่มที่มีทั้งฉันJ , T ฉันเจAij,Tij

glmer(counts ~ A + T + (T|Site), data=data, family="Poisson") เป็นรูปแบบ

log(E(Yij))=(θ0+γj0)+θ1Aij+(θ2+γj1)Tij

ดังนั้นตอนนี้มีความสัมพันธ์ "เฉลี่ย" กับA i j , T i j ที่กำหนดโดยเอฟเฟกต์คงที่θ 0 , θ 1 , θ 2แต่ความสัมพันธ์นั้นแตกต่างกันสำหรับแต่ละไซต์และความแตกต่างเหล่านั้น ถูกจับโดยเอฟเฟกต์แบบสุ่มγ j 0 , γ j 1 , γ j 2log(E(Yij))Aij,Tijθ0,θ1,θ2γj0,γj1,γj2. นั่นคือพื้นฐานจะถูกเปลี่ยนแบบสุ่มและความลาดชันของตัวแปรทั้งสองจะถูกเปลี่ยนแบบสุ่มและทุกคนจากไซต์เดียวกันจะแชร์การเปลี่ยนแปลงแบบสุ่มเดียวกัน

T คืออะไร มันเป็นผลแบบสุ่มหรือไม่? ผลคงที่? การทำให้สำเร็จด้วยการใส่ T ในทั้งสองแห่งคืออะไร

เป็นหนึ่งในโควาเรียตของคุณ มันไม่ใช่เอฟเฟกต์แบบสุ่ม -เป็นเอฟเฟกต์แบบสุ่ม มีเอฟเฟกต์คงที่ของ Tที่แตกต่างกันขึ้นอยู่กับเอฟเฟกต์แบบสุ่มที่กำหนดโดย- γ j 1ในโมเดลด้านบน อะไรคือความสำเร็จโดยรวมทั้งผลการสุ่มนี้คือการอนุญาตให้มีความแตกต่างระหว่างเว็บไซต์ในความสัมพันธ์ระหว่าง Tและเข้าสู่ระบบ( E ( Y ฉันเจ ) )TSiteTSiteγJ1Tเข้าสู่ระบบ(E(YผมJ))

เมื่อใดควรปรากฏบางสิ่งในส่วนลักษณะพิเศษแบบสุ่มของสูตรโมเดล

นี่เป็นเรื่องของสิ่งที่สมเหตุสมผลในบริบทของแอปพลิเคชัน

เกี่ยวกับการสกัดกั้น - คุณควรเก็บการสกัดกั้นไว้ที่นั่นด้วยเหตุผลหลายประการ (ดูเช่นที่นี่ ) Re: การสกัดกั้นแบบสุ่ม, , สิ่งนี้ทำหน้าที่เป็นหลักในการกระตุ้นความสัมพันธ์ระหว่างการสังเกตที่เกิดขึ้นในไซต์เดียวกัน หากมันไม่สมเหตุสมผลที่ความสัมพันธ์ดังกล่าวจะมีอยู่จริงก็ควรจะยกเว้นผลกระทบแบบสุ่มγJ0

เกี่ยวกับการสุ่มลาดแบบจำลองที่มีการสุ่มลาดเท่านั้นและไม่มีความลาดชันคงที่สะท้อนถึงความเชื่อที่ว่าในแต่ละไซต์มีความสัมพันธ์ระหว่างและโควาเรียตของคุณสำหรับแต่ละไซต์ แต่ถ้าคุณเฉลี่ย ผลกระทบในทุกเว็บไซต์แล้วไม่มีความสัมพันธ์ ตัวอย่างเช่นหากคุณมีความชันแบบสุ่มในTแต่ไม่มีความชันคงที่นี่จะเหมือนกับการบอกว่าโดยเฉลี่ยแล้วจะไม่มีผลกระทบ (เช่นไม่มีแนวโน้มทางโลกในข้อมูล) แต่แต่ละคนจะมุ่งไปในทิศทางที่สุ่มตลอดเวลา ซึ่งอาจทำให้รู้สึก อีกครั้งมันขึ้นอยู่กับแอปพลิเคชันเข้าสู่ระบบ(E(YผมJ))TSite

โปรดทราบว่าคุณสามารถใส่แบบจำลองที่มีและไม่มีเอฟเฟกต์แบบสุ่มเพื่อดูว่าสิ่งนี้กำลังเกิดขึ้นหรือไม่คุณไม่ควรเห็นผลใด ๆ ในโมเดลที่ตายตัว ฉันต้องเตือนคุณว่าการตัดสินใจเช่นนี้มักจะทำได้ดีกว่าโดยอาศัยความเข้าใจในแอปพลิเคชันมากกว่าผ่านการเลือกรุ่น


2
(+1): การเขียนสูตรโมเดลสำหรับแต่ละรุ่นย่อมเป็นวิธีที่ดีที่สุดในการทำให้สัญลักษณ์ R โปร่งใสมากขึ้น ดีมาก!
ocram

@Macro หนึ่งคำถามเกี่ยวกับสมการข้างต้น (ขอบคุณสำหรับพวกเขา btw) - พวกเขายังมีข้อผิดพลาดตามปกติในพวกเขาหรือไม่? ถ้าเป็นเช่นนั้นคำว่าตัวห้อยของคำนั้นคืออะไร
Fomite

2
E(YผมJ|X)(หรือรุ่น 'ลิงก์') ตามที่ฉันทำไว้ที่นี่ ไม่มีคำผิดพลาดสำหรับค่าที่คาดหวังหากระบุแบบจำลองได้อย่างถูกต้อง เพื่อตอบคำถามของคุณใน GLM เรากำลังระบุการกระจายของYผมJ|X. การสุ่ม "ที่เหลือ" ในตัวแบบเชิงเส้นถูกแสดงออกด้วยคำที่ผิดพลาดแบบกระจาย แต่ใน GLM ที่ไม่ใช่แบบเชิงเส้น (เช่นปัวซอง, โลจิสติก) มีการสุ่ม "สร้างขึ้น" เนื่องจากทราบอัตราของปัวซองหรือโพรสำเร็จของการทดลองเบอโนลลีไม่อนุญาตให้คุณทำนายการสำนึกโดยไม่มีข้อผิดพลาด หวังว่านี่จะช่วยได้
มาโคร

11

คุณควรทราบว่าTไม่มีเอฟเฟกต์แบบสุ่มของคุณ แต่เป็นเอฟเฟกต์คงที่ ผลกระทบสุ่มเป็นเพียงผลกระทบที่ปรากฏหลังจากที่|ในlmerสูตร!

การอภิปรายอย่างละเอียดมากขึ้นเกี่ยวกับสิ่งที่สเปคนี้คุณสามารถหาได้ในคำถามคำถามที่พบบ่อยนี้

จากคำถามนี้แบบจำลองของคุณควรให้สิ่งต่อไปนี้ (สำหรับเอฟเฟกต์คงที่T):

  • ความชันระดับโลก
  • ระยะสุ่มลาดระบุความเบี่ยงเบนจากความลาดชันโดยรวมสำหรับแต่ละระดับ Site
  • ความสัมพันธ์ระหว่างความลาดชันแบบสุ่ม

และตามที่กล่าวโดย @ mark999 นี่เป็นข้อกำหนดทั่วไป ในการออกแบบมาตรการซ้ำ ๆ โดยทั่วไปคุณต้องการให้มีความลาดชันและสหสัมพันธ์แบบสุ่มสำหรับปัจจัยการวัดซ้ำ ๆ (ภายในวิชา)

ดูบทความต่อไปนี้สำหรับตัวอย่าง (ซึ่งฉันมักจะอ้างอิงที่นี่เสมอ):

Judd, CM, Westfall, J. , & Kenny, DA (2012) การรักษาสิ่งเร้าเป็นปัจจัยสุ่มในจิตวิทยาสังคม: วิธีการใหม่และครอบคลุมในการแก้ปัญหาที่แพร่หลาย วารสารบุคลิกภาพและจิตวิทยาสังคม , 103 (1), 54–69 ดอย: 10.1037 / a0028347


2
การอ้างอิงที่คล้ายกันจากนิเวศวิทยา: Schielzeth, Holger และ Wolfgang Forstmeier 2552. “ ข้อสรุปที่ได้รับการสนับสนุน: การประเมินที่เกินความเชื่อมั่นในแบบผสม” นิเวศวิทยาเชิงพฤติกรรม 20 (2) (1 มีนาคม): 416–420 ดอย: 10.1093 / beheco / arn145 beheco.oxfordjournals.org/content/20/2/416
Ben Bolker

1

บางสิ่งบางอย่างควรปรากฏเฉพาะในส่วนที่สุ่มเมื่อคุณไม่สนใจพารามิเตอร์ของมันโดยเฉพาะอย่างยิ่ง แต่ต้องรวมไว้เพื่อหลีกเลี่ยงข้อมูลที่ต้องพึ่งพา เช่นถ้าเด็กซ้อนในชั้นเรียนคุณมักต้องการให้เด็ก ๆ ทำเอฟเฟกต์แบบสุ่มเท่านั้น


1
บางทีฉันอาจจะเข้าใจผิด แต่ฉันคิดว่าการมีเอฟเฟกต์แบบคงที่และแบบสุ่มสำหรับตัวแปรเดียวกันนั้นบ่อยกว่าตัวแปรที่มีเอฟเฟกต์แบบสุ่ม การมีเอฟเฟกต์แบบคงที่และสุ่มสำหรับตัวแปรเดียวกันนั้นไม่ใช่เรื่องแปลกในหนังสือ Pinheiro และ Bates
mark999

2
@MichaelChernick อย่างที่ฉันเข้าใจถ้าคุณมีเอฟเฟกต์คงที่และเอฟเฟกต์แบบสุ่มสำหรับตัวแปรเดียวกันดังนั้นเอฟเฟกต์คงที่คือผลกระทบโดยรวมในประชากร มีตัวอย่างหลายตัวอย่างใน Pinheiro & Bates
mark999

2
@PeterFlom อีกครั้ง: "ถ้าเด็ก ๆ ซ้อนในชั้นเรียนคุณมักจะต้องการให้เด็ก ๆ เป็นเอฟเฟกต์แบบสุ่มเท่านั้น" ฉันคิดว่าคุณหมายถึงคลาสนั้นเป็นเอฟเฟกต์แบบสุ่ม เว้นแต่จะมีการทำรังต่อไปในข้อมูล (เช่นการวัดซ้ำกับเด็ก) ดังนั้นจะไม่มีการระบุเอฟเฟ็กต์ระดับเด็ก
มาโคร

1
@ แมโครใช่นั่นคือสิ่งที่ฉันหมายถึงขอโทษ คำศัพท์สับสนมาก! นั่นอาจเป็นสาเหตุว่าทำไม Gelman ละทิ้งคำว่า 'คงที่' และ 'สุ่ม'
Peter Flom - Reinstate Monica

2
@Michael ฉันเห็นด้วยกับคุณ ในรูปแบบลำดับชั้นเหล่านี้ผลแบบสุ่มจะถูกกำหนดโดยตัวแปรการจัดกลุ่ม (เมื่อเทียบกับโมเดลหลายตัวแปรอื่น ๆ เช่นชุดข้อมูลที่จัดทำดัชนีเชิงพื้นที่ซึ่งตัวแปร 'การจัดกลุ่ม' มีการเปลี่ยนแปลงอย่างต่อเนื่อง) ในคำถามของ OP ที่Siteจะถูกเรียกว่าผลสุ่มไม่ได้TหรือAหรือสิ่งอื่นใด เมื่อคิดอย่างนั้นผลของมันก็Siteชัดเจนไม่สามารถเป็นได้ทั้งแบบสุ่มและแบบสุ่ม คุณสามารถมีทั้งสัมประสิทธิ์คงที่และสุ่มสำหรับตัวแปร แต่นั่นเป็นคำถามที่แตกต่างกัน
มาโคร
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.