ความสัมพันธ์ระหว่างอนุกรมเวลาสอง: ARIMA


12

เมื่อพิจารณาจากอนุกรมเวลาสองแบบต่อไปนี้ ( x , y ; ดูด้านล่าง) วิธีใดที่ดีที่สุดในการสร้างแบบจำลองความสัมพันธ์ระหว่างแนวโน้มระยะยาวในข้อมูลนี้

อนุกรมเวลาทั้งสองมีการทดสอบ Durbin-Watson อย่างมีนัยสำคัญเมื่อทำตัวเป็นแบบของเวลาและไม่หยุดนิ่ง (อย่างที่ฉันเข้าใจคำศัพท์หรือสิ่งนี้หมายความว่ามันจะต้องอยู่นิ่งในที่เหลือเท่านั้น) ฉันได้รับการบอกว่านี่หมายความว่าฉันควรจะมีความแตกต่างลำดับที่หนึ่ง (อย่างน้อยอาจลำดับที่ 2) ของแต่ละชุดเวลาก่อนที่ฉันจะสามารถจำลองแบบหนึ่งเป็นหน้าที่ของอีกฝ่ายหนึ่งโดยใช้ arima เป็นหลัก (1,1,0 ), arima (1,2,0) เป็นต้น

ฉันไม่เข้าใจว่าทำไมคุณต้องทำให้เสียโฉมก่อนที่คุณจะสามารถจำลองพวกเขา ฉันเข้าใจถึงความจำเป็นในการสร้างแบบจำลองความสัมพันธ์อัตโนมัติ แต่ฉันไม่เข้าใจว่าทำไมต้องมีความแตกต่าง สำหรับฉันดูเหมือนว่าการทำลายล้างโดยการสร้างความแตกต่างคือการลบสัญญาณหลัก (ในกรณีนี้แนวโน้มระยะยาว) ในข้อมูลที่เราสนใจและปล่อยให้ "เสียง" ความถี่สูงขึ้น (โดยใช้เสียงรบกวนอย่างหลวม ๆ ) ที่จริงแล้วในสถานการณ์จำลองที่ฉันสร้างความสัมพันธ์ที่สมบูรณ์แบบเกือบระหว่างซีรีส์ครั้งหนึ่งกับอีกแบบหนึ่งโดยไม่มีการเชื่อมต่ออัตโนมัติการหาไทม์ไลน์ที่แตกต่างกันทำให้ฉันได้ผลลัพธ์ที่ตอบโต้เพื่อวัตถุประสงค์ในการตรวจจับความสัมพันธ์เช่น

a = 1:50 + rnorm(50, sd = 0.01)
b = a + rnorm(50, sd = 1)
da = diff(a); db = diff(b)
summary(lmx <- lm(db ~ da))

ในกรณีนี้bเกี่ยวข้องอย่างยิ่งกับaแต่bมีเสียงรบกวนมากกว่า สำหรับฉันนี่แสดงให้เห็นว่าการแตกต่างไม่เหมาะสำหรับการตรวจจับความสัมพันธ์ระหว่างสัญญาณความถี่ต่ำ ฉันเข้าใจว่าการใช้ความแตกต่างเป็นเรื่องปกติสำหรับการวิเคราะห์อนุกรมเวลา แต่ดูเหมือนว่ามีประโยชน์มากกว่าสำหรับการพิจารณาความสัมพันธ์ระหว่างสัญญาณความถี่สูง ฉันกำลังคิดถึงอะไร

ตัวอย่างข้อมูล

df1 <- structure(list(
x = c(315.97, 316.91, 317.64, 318.45, 318.99, 319.62, 320.04, 321.38, 322.16, 323.04, 324.62, 325.68, 326.32, 327.45, 329.68, 330.18, 331.08, 332.05, 333.78, 335.41, 336.78, 338.68, 340.1, 341.44, 343.03, 344.58, 346.04, 347.39, 349.16, 351.56, 353.07, 354.35, 355.57, 356.38, 357.07, 358.82, 360.8, 362.59, 363.71, 366.65, 368.33, 369.52, 371.13, 373.22, 375.77, 377.49, 379.8, 381.9, 383.76, 385.59, 387.38, 389.78), 
y = c(0.0192, -0.0748, 0.0459, 0.0324, 0.0234, -0.3019, -0.2328, -0.1455, -0.0984, -0.2144, -0.1301, -0.0606, -0.2004, -0.2411, 0.1414, -0.2861, -0.0585, -0.3563, 0.0864, -0.0531, 0.0404, 0.1376, 0.3219, -0.0043, 0.3318, -0.0469, -0.0293, 0.1188, 0.2504, 0.3737, 0.2484, 0.4909, 0.3983, 0.0914, 0.1794, 0.3451, 0.5944, 0.2226, 0.5222, 0.8181, 0.5535, 0.4732, 0.6645, 0.7716, 0.7514, 0.6639, 0.8704, 0.8102, 0.9005, 0.6849, 0.7256, 0.878),
ti = 1:52), 
.Names = c("x", "y", "ti"), class = "data.frame", row.names = 110:161)

ddf<- data.frame(dy = diff(df1$y), dx = diff(df1$x))
ddf2<- data.frame(ddy = diff(ddf$dy), ddx = diff(ddf$dx))
ddf$ti<-1:length(ddf$dx); ddf2$year<-1:length(ddf2$ddx)
summary(lm0<-lm(y~x, data=df1))      #t = 15.0
summary(lm1<-lm(dy~dx, data=ddf))    #t = 2.6
summary(lm2<-lm(ddy~ddx, data=ddf2)) #t = 2.6

คำตอบ:


6

แมตต์คุณถูกต้องมากในความกังวลที่คุณแจ้งไว้เกี่ยวกับการใช้โครงสร้างความแตกต่างที่ไม่จำเป็น เพื่อระบุรูปแบบที่เหมาะสมป้อนคำอธิบายรูปภาพที่นี่สำหรับข้อมูลของคุณที่ให้โครงสร้างที่สำคัญในขณะที่แสดงผลกระบวนการข้อผิดพลาดแบบเกาส์ป้อนคำอธิบายรูปภาพที่นี่ด้วย ACFป้อนคำอธิบายรูปภาพที่นี่กระบวนการสร้างแบบจำลองการโอนฟังก์ชั่นการระบุต้องใช้ (ในกรณีนี้) ความแตกต่างที่เหมาะสมในการสร้างซีรีย์ตัวแทนที่อยู่นิ่งและทำให้สามารถระบุความสัมพันธ์กับผู้ขายได้ ในข้อกำหนดความแตกต่างสำหรับการระบุตัวตนนั้นมีความแตกต่างสองเท่าสำหรับ X และความแตกต่างเดียวสำหรับ Y นอกจากนี้ตัวกรอง ARIMA สำหรับ X ที่มีความแตกต่างสองเท่าพบว่าเป็น AR (1) การใช้ตัวกรอง ARIMA นี้ (เพื่อจุดประสงค์ในการระบุตัวตนเท่านั้น!) กับทั้งชุดที่อยู่กับที่ให้ผลโครงสร้าง cross-correlative ต่อไปนี้ ป้อนคำอธิบายรูปภาพที่นี่แนะนำความสัมพันธ์ที่เกิดขึ้นพร้อมกันอย่างง่าย ป้อนคำอธิบายรูปภาพที่นี่. โปรดทราบว่าในขณะที่ซีรี่ส์ดั้งเดิมมีความไม่คงที่ แต่ก็ไม่ได้หมายความว่าจำเป็นต้องมีความแตกต่างในโมเดลเชิงสาเหตุ รุ่นสุดท้ายป้อนคำอธิบายรูปภาพที่นี่และ acf สุดท้ายสนับสนุนสิ่งนี้ป้อนคำอธิบายรูปภาพที่นี่. ในการปิดสมการขั้นสุดท้ายนอกเหนือจากการเลื่อนระดับที่ระบุโดยประจักษ์ (การสกัดกั้นการเปลี่ยนแปลงจริง ๆ ) คือ

 Y(t)=-4.78 + .192*X(t) - .177*X(t-1) which is NEARLY equal to 

 Y(t)=-4.78 + .192*[X(t)-X(t-1)] which means that changes in X effect the level of Y

สุดท้ายให้สังเกตคุณสมบัติของรุ่นที่แนะนำป้อนคำอธิบายรูปภาพที่นี่

ซีรี่ส์ Level Shift (0,0,0,0,0,0,0,0,0,1,1, ......... , 1) แสดงให้เห็นว่าหากปล่อยทิ้งไว้ไม่ได้รักษาแบบจำลองที่เหลือจะแสดงระดับ เลื่อนที่หรือรอบระยะเวลา 10 THUS การทดสอบสมมติฐานของค่าเฉลี่ยที่เหลือทั่วไประหว่าง 10 เหลือแรกและ 42 สุดท้ายจะมีนัยสำคัญที่ alpha = .0002 ตามการทดสอบ "t -4.10" โปรดทราบว่าการรวมค่าคงที่รับประกันว่าค่าเฉลี่ยโดยรวมของส่วนที่เหลือไม่แตกต่างกันอย่างมีนัยสำคัญจากศูนย์ แต่สิ่งนี้ไม่จำเป็นสำหรับช่วงเวลาย่อยทั้งหมด กราฟดังต่อไปนี้แสดงให้เห็นชัดเจน (ให้ที่คุณบอกว่าจะดู!) ได้โดยง่ายจริง / Fit / ป้อนคำอธิบายรูปภาพที่นี่การพยากรณ์อากาศค่อนข้างส่องสว่าง สถิติเป็นเหมือนเสาไฟบางคนใช้มันเพื่อให้คนอื่นใช้เพื่อส่องสว่าง


ขอบคุณสำหรับการวิเคราะห์ที่ครอบคลุมเดฟ เพื่อให้แน่ใจว่าฉันเข้าใจ 2 คือตัวแปรxตามที่เป็น 3 คือตัวแปรx ที่มีความล่าช้า -1 และ 4 คือการเลื่อนระดับ ไม่มีสเปคของ arima?
Matt Albrecht

@MattAlbrecht Y ขึ้นกับ (y ของคุณด้วยค่า. 0192, -. 0748 ... ); X1 เป็น x ของคุณที่มีค่า 315.97; X2 เป็นตัวแปรจำลอง 0,0,0,0,0,0,0,0,0,1,1,1,1, ... 1 ตัวแปร X1 นั้นมีบอตที่เกิดขึ้นพร้อมกันและเกิดความล่าช้าพร้อมกับสัมประสิทธิ์ [.192 และ -.177 ตามลำดับ] สมการสุดท้ายที่สมบูรณ์คือ
IrishStat

@MattAlbrecht Y ขึ้นกับ (y ของคุณด้วยค่า. 0192, -. 0748 ... ); X1 เป็น x ของคุณที่มีค่า 315.97; X2 เป็นตัวแปรจำลอง 0,0,0,0,0,0,0,0,0,1,1,1,1, ... 1 ตัวแปร X1 นั้นมีทั้งค่า Contemporaneous และ Lag Effect ที่มีค่าสัมประสิทธิ์ [.192 และ -.177 ตามลำดับ] สมการที่สมบูรณ์สุดท้ายมี 4 สัมประสิทธิ์; ค่าคงที่; สองสัมประสิทธิ์สำหรับ x และ a
IrishStat

1

ฉันไม่เข้าใจคำแนะนำนั้น ความแตกต่างจะลบแนวโน้มพหุนาม หากซีรีส์มีความคล้ายคลึงกันเนื่องจากมีแนวโน้มที่แตกต่างกันอย่างมากในการลบความสัมพันธ์นั้น คุณจะทำเช่นนั้นก็ต่อเมื่อคุณคาดหวังให้ส่วนประกอบที่น่าเชื่อถือนั้นสัมพันธ์กัน หากลำดับที่แตกต่างกันนำไปสู่ ​​acfs สำหรับส่วนที่เหลือที่ดูเหมือนว่าพวกเขาอาจมาจากรูปแบบ ARMA นิ่งรวมทั้งเสียงสีขาวที่อาจบ่งบอกว่าทั้งสองชุดมีแนวโน้มพหุนามเดียวกันหรือคล้ายกัน


การแยกความแตกต่างยังสามารถใช้เพื่อแก้ไขแบบไม่คงที่เมื่อไม่มีแนวโน้ม การใช้ที่ไม่ได้รับการรับรองสามารถสร้างความไร้สาระทางสถิติ / เศรษฐมิติตามที่คุณชี้อย่างถูกต้อง
IrishStat

1

วิธีที่ฉันเข้าใจการแยกความแตกต่างให้คำตอบที่ชัดเจนในฟังก์ชันความสัมพันธ์ข้าม เปรียบเทียบและccf(df1$x,df1$y)ccf(ddf$dx,ddf$dy)


ฉันเห็นด้วยว่าความสัมพันธ์ข้ามแสดงความสัมพันธ์ระหว่างซีรีย์ที่แตกต่างกัน แต่ประเด็นของฉันคือซีรีส์เหล่านี้ดูเหมือนจะเกี่ยวข้องกันเป็นส่วนใหญ่เนื่องจากแนวโน้มที่แตกต่างกันจะถูกลบออก
Michael R. Chernick

คุณไม่ตอบคำถามของคุณเองหรือ? มีแนวโน้มทั่วไปเราเห็นด้วยกับที่ การแยกความแตกต่างทำให้มองผ่านแนวโน้ม: ความผันผวนของแนวโน้มเป็นอย่างไร? ในกรณีนี้ความสัมพันธ์ระหว่าง x และ y เกิดขึ้นกับความล่าช้า 0 และ 8 ผลที่ความล่าช้า 8 นั้นยังสามารถมองเห็นได้ในความสัมพันธ์แบบอัตโนมัติของ ddf $ dy คุณจะไม่ทราบว่าไม่มีความแตกต่าง
Kees
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.