ทำไมคุณถึงทำนายจากโมเดลเอฟเฟกต์ผสมโดยไม่รวมเอฟเฟกต์แบบสุ่มสำหรับการทำนาย


10

นี้เป็นอีกคำถามที่คิด แต่ที่ผมใช้ผมจะอ้างถึงแพคเกจในR Rหากเป้าหมายคือการทำให้แบบจำลองเชิงเส้นตรงกับวัตถุประสงค์ของการทำนายและจากนั้นทำการคาดการณ์ว่าจะไม่มีเอฟเฟกต์แบบสุ่มมีประโยชน์ใด ๆ ในการใช้แบบจำลองเอฟเฟกต์ผสมหรือควรใช้โมเดลเอฟเฟกต์คงที่แทน?

ตัวอย่างเช่นถ้าฉันมีข้อมูลเกี่ยวกับน้ำหนักเทียบกับส่วนสูงกับข้อมูลอื่นและสร้างแบบจำลองต่อไปนี้โดยใช้โดยlme4ที่ตัวแบบเป็นปัจจัยที่มีn ระดับ (n=no.samples):

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

จากนั้นฉันต้องการที่จะสามารถทำนายน้ำหนักจากแบบจำลองโดยใช้ข้อมูลส่วนสูงและอายุใหม่ เห็นได้ชัดว่าความแปรปรวนของเรื่องในข้อมูลต้นฉบับนั้นถูกจับในแบบจำลอง แต่เป็นไปได้ไหมที่จะใช้ข้อมูลนี้ในการทำนาย? สมมติว่าฉันมีข้อมูลส่วนสูงและอายุใหม่และต้องการคาดการณ์น้ำหนักฉันสามารถทำได้ดังนี้:

predict(mod1,newdata=newdf) # newdf columns for height, age, subject

สิ่งนี้จะใช้predict.merModและฉันสามารถรวมคอลัมน์สำหรับหัวเรื่อง (ใหม่) ในnewdfหรือตั้งค่าre.form =~0ได้ ในอินสแตนซ์แรกมันไม่ชัดเจนว่าแบบจำลองทำอะไรกับปัจจัยเรื่อง 'ใหม่' และในอินสแตนซ์ที่สองความแปรปรวนของเรื่องที่ถูกจับในแบบจำลองจะถูกละเว้น (โดยเฉลี่ย) สำหรับการทำนายหรือไม่

ไม่ว่าในกรณีใดฉันจะเห็นว่าโมเดลเชิงเส้นเอฟเฟกต์คงที่อาจเหมาะสมกว่า ที่จริงถ้าความเข้าใจของฉันถูกต้องแล้วตัวแบบผลคงที่ควรทำนายค่าเช่นเดียวกับตัวแบบผสมถ้าไม่ได้ใช้ผลแบบสุ่มในการทำนาย ควรเป็นกรณีนี้หรือไม่? ในRมันไม่ได้เป็นเช่น:

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject

ให้ผลลัพธ์ที่แตกต่างไปที่:

mod2 <- lm(weight ~ height + age, data=df)

predict(mod2,newdata=newdf) # newdf columns for height, age



1
อาจเป็นปีที่ต้องการคาดการณ์สำหรับกลุ่มใหม่ซึ่งไม่รวมอยู่ในการประมาณ
kjetil b halvorsen

ใช่ แต่ในกรณีนั้นทำไมต้องรำคาญกับโมเดลเอฟเฟกต์ผสม? อะไรทำให้คุณมีรูปแบบเอฟเฟกต์คงที่ไม่ได้ถ้าคุณไม่สนใจเอฟเฟกต์แบบสุ่มในการทำนาย
tribalsoul

1
ดีก็อาจจะให้ประมาณดีกว่าเพราะคุณมีดีกว่า (ที่ถูกต้องมากขึ้น) รูปแบบของโครงสร้างข้อผิดพลาด
ข Kjetil Halvorsen

คำตอบ:


5

การทดลองคิดอย่างง่าย: คุณวัดน้ำหนักและส่วนสูงของทารก 5 คนหลังคลอด และคุณวัดมันจากเด็กทารกเดียวกันอีกครั้งหลังจากสองปี ในขณะเดียวกันคุณวัดน้ำหนักและส่วนสูงของลูกสาวของคุณเกือบทุกสัปดาห์ส่งผลให้เกิด 100 คู่ค่าสำหรับเธอ หากคุณใช้รูปแบบเอฟเฟกต์แบบผสมจะไม่มีปัญหา หากคุณใช้แบบจำลองเอฟเฟกต์ถาวรคุณจะต้องชั่งน้ำหนักที่ไม่เหมาะกับการวัดจากลูกสาวของคุณจนถึงจุดที่คุณจะได้แบบจำลองที่เกือบจะพอดีถ้าคุณใช้ข้อมูลจากเธอเท่านั้น ดังนั้นจึงไม่เพียงมีความสำคัญในการอนุมานโมเดลมาตรการซ้ำหรือโครงสร้างความไม่แน่นอนอย่างถูกต้อง แต่ยังสำหรับการทำนาย โดยทั่วไปคุณจะไม่ได้รับการคาดการณ์ที่เหมือนกันจากโมเดลเอฟเฟกต์ผสมและจากโมเดลเอฟเฟกต์คงที่ (ที่มีการละเมิดสมมติฐาน)

และฉันสามารถรวมคอลัมน์สำหรับหัวเรื่อง (ใหม่) ใน newdf

คุณไม่สามารถทำนายวิชาที่ไม่ได้เป็นส่วนหนึ่งของข้อมูลดั้งเดิม (การฝึกอบรม) การทดลองทางความคิดอีกครั้ง: วิชาใหม่เป็นโรคอ้วน แบบจำลองจะรู้ได้อย่างไรว่าอยู่ที่ปลายด้านบนของการกระจายเอฟเฟกต์แบบสุ่ม?

ความแปรปรวนของเรื่องที่จับในแบบจำลองจะถูกเพิกเฉย (โดยเฉลี่ย) เพื่อการทำนาย

ถ้าฉันเข้าใจคุณถูกต้องแล้วใช่ แบบจำลองให้การประมาณค่าที่คาดหวังสำหรับประชากร (โปรดทราบว่าการประมาณการนี้ยังมีเงื่อนไขในเรื่องต้นฉบับ)


1
ขอบคุณสำหรับคำอธิบายและตัวอย่างที่ชัดเจนทั้งหมดนี้สมเหตุสมผล อย่างไรก็ตามที่คุณระบุYou can't predict for subjects which were not part of the original (training) data; ไม่ได้ตั้งค่าre.form=~0และคาดการณ์จากค่าคาดหวังของประชากรที่อนุญาตให้ฉันทำอย่างนั้นหรือ ได้รับแบบจำลองไม่ได้ใช้ข้อมูลเฉพาะเรื่องใด ๆ ในการทำนาย แต่มันยุติธรรมที่จะบอกว่าการประเมินจากตัวแบบเอฟเฟ็กต์เอฟเฟกต์จะยังคงมีความแม่นยำมากกว่าแบบจำลองเอฟเฟกต์คงที่เทียบเท่า ละเว้น?
tribalsoul

1
โมเดลที่ตายตัวไม่สามารถใช้งานได้เนื่องจากสมมติฐานถูกละเมิด คุณต้องใช้โมเดลที่มีโครงสร้างการพึ่งพา re.form=~0ให้การคาดคะเนระดับประชากรซึ่งเป็นวิธีที่ดีที่สุดที่คุณสามารถทำได้สำหรับวิชาใหม่
Roland

ฉันมีคำถามเดียวกันเมื่อใช้glmmLasso แพคเกจใน R. ผู้เขียนแพ็คเกจ Andreas Groll กล่าวว่าขั้นตอน glmmLasso ใช้เพียงเอฟเฟกต์คงที่สำหรับการคาดคะเนสำหรับวิชาใหม่และเอฟเฟกต์แบบสุ่ม + คงที่สำหรับวิชาที่มีอยู่ในช่วงเวลาถัดไป
RobertF
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.