อนุญาตให้รวมเวลาเป็นตัวทำนายในโมเดลผสมหรือไม่


10

ฉันเชื่อเสมอว่าเวลาไม่ควรใช้เป็นตัวทำนายในการถดถอย (รวมถึง gam's) เพราะหลังจากนั้นเราจะเพียงแค่ "อธิบาย" แนวโน้มของตัวเอง หากจุดประสงค์ของการศึกษาคือการหาพารามิเตอร์ด้านสิ่งแวดล้อมเช่นอุณหภูมิและอื่น ๆ ที่อธิบายความแปรปรวนสมมติว่ากิจกรรมของสัตว์แล้วฉันสงสัยว่าจะใช้เวลานานแค่ไหน? เป็นพร็อกซีสำหรับพารามิเตอร์ที่ไม่วัดหรือไม่?

คุณสามารถดูแนวโน้มของเวลาเกี่ยวกับข้อมูลกิจกรรมของปลาโลมาที่ท่าเรือได้ที่นี่: -> จะจัดการช่องว่างในอนุกรมเวลาเมื่อใช้ GAMM ได้อย่างไร

ปัญหาของฉันคือเมื่อฉันรวมเวลาในแบบจำลองของฉัน (วัดเป็นวันจูเลียน) จากนั้น 90% ของพารามิเตอร์อื่น ๆ ทั้งหมดจะไม่มีนัยสำคัญ ถ้าฉันปล่อยให้เวลาหมดแล้วบางคนก็มีความสำคัญ ...

คำถามคือ: อนุญาตให้ใช้เวลาเป็นตัวพยากรณ์ (อาจจำเป็นหรือไม่) หรือทำให้การวิเคราะห์ของฉันยุ่งเหยิง?

ขอบคุณมากล่วงหน้า

คำตอบ:


12

อนุญาตให้ใช้เวลา ไม่ว่าจะจำเป็นหรือไม่นั้นขึ้นอยู่กับสิ่งที่คุณพยายามทำตัวแบบ? ปัญหาที่คุณมีคือคุณมีโควาเรียตร่วมกันดูเหมือนจะสอดคล้องกับแนวโน้มของข้อมูลซึ่งเวลาสามารถทำได้เช่นกัน แต่ใช้เสรีภาพน้อยลง

หากความสนใจคือการสร้างแบบจำลองระบบความสัมพันธ์ระหว่างการตอบสนองและ covariates เมื่อเวลาผ่านไปแทนที่จะเป็นรูปแบบที่การตอบสนองแตกต่างกันไปตามกาลเวลาไม่รวมเวลาเป็น covariate หากเป้าหมายคือการจำลองการเปลี่ยนแปลงในระดับเฉลี่ยของการตอบกลับรวมเวลา แต่ไม่รวม covariate จากสิ่งที่คุณพูดมันจะปรากฏว่าคุณต้องการอดีตไม่ใช่หลังและไม่ควรรวมเวลาไว้ในแบบจำลองของคุณ (แต่ให้พิจารณาข้อมูลเพิ่มเติมด้านล่างนี้)

มีข้อแม้อยู่สองสามข้อ สำหรับทฤษฎีที่จะถือส่วนที่เหลือควรจะ iid (หรือ id ถ้าคุณผ่อนคลายสมมติฐานอิสระโดยใช้โครงสร้างความสัมพันธ์) หากคุณกำลังสร้างแบบจำลองการตอบสนองเป็นหน้าที่ของ covariates และพวกเขาไม่ได้จำลองแบบแนวโน้มใด ๆ ในข้อมูลอย่างเพียงพอส่วนที่เหลือจะมีแนวโน้มซึ่งละเมิดสมมติฐานทางทฤษฎียกเว้นว่าโครงสร้างความสัมพันธ์ที่เหมาะสมสามารถรับมือกับแนวโน้มนี้ได้

ในทางกลับกันหากคุณกำลังสร้างแบบจำลองแนวโน้มในการตอบสนองเพียงอย่างเดียว (รวมถึงเวลา) อาจมีการเปลี่ยนแปลงอย่างเป็นระบบในส่วนที่เหลือ (เกี่ยวกับแนวโน้มที่พอดี) ที่ไม่ได้อธิบายโดยแนวโน้ม (เวลา) และสิ่งนี้อาจละเมิดสมมติฐาน สำหรับสารตกค้าง ในกรณีเช่นนี้คุณอาจต้องรวม covariates อื่น ๆ เพื่อแสดงผล iid ที่เหลืออยู่

เหตุใดจึงเป็นปัญหา เมื่อคุณทำการทดสอบว่าองค์ประกอบของเทรนด์มีความสำคัญหรือไม่หรือว่าผลกระทบของโควาเรียตมีความสำคัญหรือไม่ทฤษฎีที่ใช้จะถือว่าส่วนที่เหลือเป็นไอดด์หากพวกมันไม่ใช่ไอดอล ค่า p จะถูกลำเอียง

ประเด็นทั้งหมดนี้คือคุณต้องสร้างแบบจำลองส่วนประกอบต่าง ๆ ทั้งหมดของข้อมูลเช่นส่วนที่เหลือเป็นไอดอลสำหรับทฤษฎีที่คุณใช้เพื่อทดสอบว่าส่วนประกอบที่มีความสำคัญนั้นถูกต้องหรือไม่

ยกตัวอย่างเช่นพิจารณาข้อมูลตามฤดูกาลและเราต้องการให้พอดีกับแบบจำลองที่อธิบายถึงความแปรปรวนในระยะยาวของข้อมูลแนวโน้ม หากเราทำแบบจำลองแนวโน้มเท่านั้นและไม่ใช่ความผันแปรตามฤดูกาลเราไม่สามารถทดสอบได้ว่าแนวโน้มการติดตั้งนั้นสำคัญหรือไม่เพราะส่วนที่เหลือจะไม่เป็น iid สำหรับข้อมูลดังกล่าวเราจะต้องพอดีกับแบบจำลองที่มีทั้งองค์ประกอบตามฤดูกาลและแนวโน้ม คอมโพเนนต์และโมเดลว่างที่มีเฉพาะคอมโพเนนต์ตามฤดูกาล จากนั้นเราจะเปรียบเทียบแบบจำลองทั้งสองแบบโดยใช้การทดสอบอัตราส่วนความน่าจะเป็นแบบทั่วไปเพื่อประเมินความสำคัญของแนวโน้มที่พอดี นี้จะกระทำโดยใช้anova()ในองค์ประกอบของทั้งสองรุ่นติดตั้งโดยใช้$lmegamm()


เรียนกาวินขอบคุณมากสำหรับความคิดเห็นที่เป็นประโยชน์ของคุณ ฉันหวังว่าฉันจะช่วยคุณออกได้เร็ว ๆ นี้เช่นกัน) เมื่อฉันลองใช้ GLRT กับ anova มันจะบอกฉันว่า "ไม่พบวัตถุ" ที่แก้ไขแล้ว ":(
Jens

1
@Jens anova(mod1$lme, mod2$lme)โทรที่ควรจะเป็น หากคุณกำลังปรับแบบจำลองที่ไม่ใช่แบบเกาส์นี่อาจไม่ทำงานเนื่องจากไม่มีความเป็นไปได้ที่แท้จริงในวิธีการ PQL ให้เพิ่มความน่าจะเป็นเสมือนในชื่อ PQL นี่คือเหตุผลหนึ่งที่ใช้gamm4แต่คุณต้องทำอะไรบางอย่างเกี่ยวกับโครงสร้างความสัมพันธ์เนื่องจากlme4ไม่อนุญาต
Gavin Simpson
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.