บริบท
คำถามนี้ใช้ R แต่เกี่ยวกับปัญหาทางสถิติทั่วไป
ฉันกำลังวิเคราะห์ผลกระทบของปัจจัยการเสียชีวิต (อัตราการตาย% เนื่องจากโรคและปรสิต) ต่ออัตราการเติบโตของประชากรมอดเมื่อเวลาผ่านไปโดยมีการสุ่มตัวอย่างประชากร 12 ตัวต่อปีเป็นเวลา 8 ปี ข้อมูลอัตราการเติบโตของประชากรแสดงแนวโน้มวัฏจักรที่ชัดเจน แต่ผิดปกติเมื่อเวลาผ่านไป
ส่วนที่เหลือจากแบบจำลองเชิงเส้นแบบง่ายทั่วไป (อัตราการเจริญเติบโต ~% โรค +% ปรสิต + ปี) แสดงแนวโน้มวัฏจักรที่ชัดเจน แต่ผิดปกติตลอดเวลา ดังนั้นแบบจำลองกำลังสองน้อยที่สุดทั่วไปของรูปแบบเดียวกันจึงถูกนำไปใช้กับข้อมูลที่มีโครงสร้างความสัมพันธ์ที่เหมาะสมเพื่อจัดการกับความสัมพันธ์ระหว่างกาลชั่วคราวเช่นสมมาตรผสมคำสั่งกระบวนการอัตโนมัติ 1 และโครงสร้างความสัมพันธ์เฉลี่ยเคลื่อนที่อัตโนมัติ
แบบจำลองทั้งหมดมีเอฟเฟกต์คงที่เหมือนกันถูกนำมาเปรียบเทียบโดยใช้ AIC และติดตั้งโดย REML (เพื่อให้สามารถเปรียบเทียบโครงสร้างความสัมพันธ์ที่แตกต่างกันโดย AIC) ฉันใช้ R package nlme และฟังก์ชัน gls
คำถามที่ 1
ส่วนที่เหลือของแบบจำลอง GLS ยังคงแสดงรูปแบบวัฏจักรที่เหมือนกันเกือบทุกรูปแบบเมื่อเทียบกับเวลา รูปแบบดังกล่าวจะยังคงอยู่หรือไม่แม้จะอยู่ในรูปแบบที่มีความแม่นยำในโครงสร้างของความสัมพันธ์
ฉันได้จำลองข้อมูลที่เรียบง่าย แต่คล้ายกันใน R ด้านล่างคำถามที่สองของฉันซึ่งแสดงปัญหาตามความเข้าใจปัจจุบันของฉันเกี่ยวกับวิธีการที่จำเป็นในการประเมินรูปแบบที่สัมพันธ์กันแบบชั่วคราวในรูปแบบที่เหลือซึ่งตอนนี้ฉันรู้ว่าผิด
คำถามที่ 2
ฉันได้ติดตั้งโมเดล GLS ที่มีโครงสร้างความสัมพันธ์ที่เป็นไปได้ทั้งหมดกับข้อมูลของฉัน แต่ไม่มีใครเหมาะสมกว่า GLM จริงมากไปกว่าโครงสร้างที่ไม่มีความสัมพันธ์ใด ๆ : แบบจำลอง GLS เพียงรุ่นเดียวนั้นดีกว่าเล็กน้อย (คะแนน AIC = 1.8 ต่ำกว่า) ค่า AIC ที่สูงขึ้น อย่างไรก็ตามนี่เป็นเพียงกรณีที่ทุกรุ่นติดตั้งโดย REML ไม่ใช่ ML ที่รุ่น GLS ดีกว่าชัดเจนมาก แต่ฉันเข้าใจจากหนังสือสถิติคุณต้องใช้ REML เพื่อเปรียบเทียบรุ่นที่มีโครงสร้างความสัมพันธ์ที่แตกต่างกันและผลกระทบคงที่เดียวกันด้วยเหตุผล ฉันจะไม่ลงรายละเอียดที่นี่
เมื่อพิจารณาจากลักษณะของข้อมูลอัตโนมัติที่มีความสัมพันธ์เชิงชั่วคราวอย่างชัดเจนหากไม่มีตัวแบบใดที่ดีกว่า GLM แบบเรียบง่ายในระดับปานกลางสิ่งที่เป็นวิธีที่เหมาะสมที่สุดในการตัดสินใจว่าจะใช้ตัวแบบใดสำหรับการอนุมานโดยสมมติว่าฉันใช้วิธีที่เหมาะสม AIC เพื่อเปรียบเทียบชุดค่าตัวแปรที่แตกต่างกัน)
Q1 'จำลอง' สำรวจรูปแบบที่เหลือในแบบจำลองที่มีและไม่มีโครงสร้างสหสัมพันธ์ที่เหมาะสม
สร้างตัวแปรตอบสนองแบบจำลองที่มีเอฟเฟกต์แบบวนรอบเป็น 'เวลา' และผลเชิงเส้นเชิงบวกของ 'x':
time <- 1:50
x <- sample(rep(1:25,each=2),50)
y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1)
y ควรแสดงแนวโน้มของวัฏจักรในช่วงเวลาที่มีการเปลี่ยนแปลงแบบสุ่ม:
plot(time,y)
และความสัมพันธ์เชิงเส้นเชิงบวกกับ 'x' ด้วยการเปลี่ยนแปลงแบบสุ่ม:
plot(x,y)
สร้างรูปแบบการเติมเชิงเส้นอย่างง่ายของ "y ~ time + x":
require(nlme)
m1 <- gls(y ~ time + x, method="REML")
รูปแบบแสดงรูปแบบวัฏจักรที่ชัดเจนในส่วนที่เหลือเมื่อพล็อตกับ 'เวลา' ตามที่คาดหวัง:
plot(time, m1$residuals)
และสิ่งที่ควรจะดีไม่มีรูปแบบหรือแนวโน้มที่ชัดเจนในการตกค้างเมื่อพล็อตกับ 'x':
plot(x, m1$residuals)
แบบจำลองอย่างง่ายของ "y ~ time + x" ที่มีโครงสร้างความสัมพันธ์แบบออโต้เรียร์ตามลำดับที่ 1 ควรพอดีกับข้อมูลที่ดีกว่ารุ่นก่อนหน้านี้มากเพราะโครงสร้างความสัมพันธ์อัตโนมัติเมื่อประเมินโดยใช้ AIC:
m2 <- gls(y ~ time + x, correlation = corAR1(form=~time), method="REML")
AIC(m1,m2)
อย่างไรก็ตามตัวแบบควรแสดงส่วนที่เหลือที่สัมพันธ์กันแบบชั่วคราวโดยอัตโนมัติ
plot(time, m2$residuals)
ขอบคุณมากสำหรับคำแนะนำใด ๆ