วิธีการวิเคราะห์แนวโน้มในอนุกรมเวลาที่ไม่เป็นงวด


12

สมมติว่าฉันมีการติดตามอนุกรมเวลาที่ไม่เป็นระยะ เห็นได้ชัดว่าแนวโน้มกำลังลดลงและฉันต้องการพิสูจน์ด้วยการทดสอบบางอย่าง (พร้อมค่า p ) ฉันไม่สามารถใช้การถดถอยเชิงเส้นแบบคลาสสิกได้เนื่องจากความสัมพันธ์เชิงสัมพันธ์ระหว่างค่าอัตโนมัติ

library(forecast)
my.ts <- ts(c(10,11,11.5,10,10.1,9,11,10,8,9,9,
               6,5,5,4,3,3,2,1,2,4,4,2,1,1,0.5,1),
            start = 1, end = 27,frequency = 1)
plot(my.ts, col = "black", type = "p",
     pch = 20, cex = 1.2, ylim = c(0,13))
# line of moving averages 
lines(ma(my.ts,3),col="red", lty = 2, lwd = 2)

ป้อนคำอธิบายรูปภาพที่นี่

ตัวเลือกของฉันคืออะไร?


4
ฉันคิดว่าความจริงที่ว่าซีรีส์นี้เป็นแบบไม่ต่อเนื่อง ( frequency=1) มีความเกี่ยวข้องเล็กน้อยที่นี่ ปัญหาที่เกี่ยวข้องมากขึ้นอาจเป็นได้ว่าคุณเต็มใจที่จะระบุรูปแบบการทำงานสำหรับแบบจำลองของคุณ
Richard Hardy

1
ข้อมูลเพิ่มเติมบางอย่างเกี่ยวกับข้อมูลที่อาจเป็นประโยชน์สำหรับการสร้างแบบจำลอง
bdeonovic

ข้อมูลมีการนับของบุคคล (เป็นพัน) ของสิ่งมีชีวิตบางชนิดที่ถูกนับทุกปีในอ่างเก็บน้ำ
Ladislav Naďo

1
@ LadislavNado เป็นซีรี่ส์ของคุณที่สั้นตามตัวอย่างที่ให้ไว้หรือไม่ ฉันถามเพราะถ้าเป็นเช่นนั้นจะลดจำนวนวิธีการที่สามารถใช้ได้เนื่องจากขนาดตัวอย่าง
ทิม

1
ความชัดเจนของมุมมองที่ลดลงนั้นขึ้นอยู่กับขนาดที่ควรพิจารณาด้วย
Laurent Duval

คำตอบ:


7

ดังที่คุณกล่าวว่าแนวโน้มในข้อมูลตัวอย่างของคุณนั้นชัดเจน หากคุณต้องการพิสูจน์ความจริงนี้โดยการทดสอบสมมติฐานนอกจากการใช้การถดถอยเชิงเส้น (ตัวเลือกพารามิเตอร์ที่ชัดเจน) คุณสามารถใช้การทดสอบแบบแมนน - เค็นดัลที่ไม่ใช่พารามิเตอร์สำหรับแนวโน้มแบบโมโนโทนิก การทดสอบจะใช้ในการ

ประเมินว่ามีแนวโน้มของตัวแปรที่น่าสนใจขึ้นหรือลงแบบ monotonic เมื่อเวลาผ่านไป เทรนด์แบบโมโนโทนิขึ้น (ลง) หมายความว่าตัวแปรเพิ่มขึ้นอย่างต่อเนื่อง (ลดลง) ตลอดเวลา แต่แนวโน้มนั้นอาจจะใช่หรือไม่ใช่เชิงเส้นก็ได้ ( http://vsp.pnnl.gov/help/Vsample/Design_Trend_Mann_Kendall.htm )

ยิ่งกว่านั้นดังที่กิลเบิร์ต (1987) ได้ทำการทดสอบ

มีประโยชน์อย่างยิ่งเนื่องจากอนุญาตให้มีค่าที่ขาดหายไปและข้อมูลไม่จำเป็นต้องสอดคล้องกับการแจกแจงเฉพาะใด ๆ

สถิติการทดสอบคือความแตกต่างระหว่างค่าลบและค่าบวกความแตกต่างระหว่างคู่ที่เป็นไปได้คู่คือ n ( n - 1 ) / 2xjxin(n1)/2

S=i=1n1j=i+1nsgn(xjxi)

ที่เป็นฟังก์ชั่นการเข้าสู่ระบบ สามารถใช้ในการคำนวณสถิติที่คล้ายกับสหสัมพันธ์เนื่องจากมีค่าตั้งแต่ถึงโดยที่สัญญาณบ่งชี้ว่าเป็นลบหรือแนวโน้มในเชิงบวกและค่าของนั้นแปรผันตามความชันของแนวโน้มS τ - 1 + 1 τsgn()S τ1+1τ

τ=Sn(n1)/2

สุดท้ายคุณก็สามารถคำนวณ -values สำหรับตัวอย่างขนาดคุณสามารถใช้ตารางค่า precomputed สำหรับค่าและขนาดตัวอย่างที่แตกต่างกัน (ดู Gilbert, 1987) ด้วยตัวอย่างขนาดใหญ่ก่อนอื่นคุณต้องคำนวณความแปรปรวนของpn10pSS

var(S)=118[n(n1)(2n+5)p=1gtp(tp1)(2tp+5)]

จากนั้นคำนวณสถิติการทดสอบZMK

ZMK={S1var(S)if S>00if S=0S+1var(S)if S<0

ค่าของจะถูกเปรียบเทียบกับค่าปกติมาตรฐาน ZMK

  • ZMKZ1αสำหรับแนวโน้มขาขึ้น
  • ZMKZ1αสำหรับแนวโน้มขาลง
  • |ZMK|Z1α/2สำหรับแนวโน้มขึ้นหรือลง

ในหัวข้อนี้คุณสามารถค้นหารหัส R ใช้การทดสอบนี้

เนื่องจากสถิติถูกนำมาเปรียบเทียบกับคู่ของการสังเกตที่เป็นไปได้ทั้งหมดแทนที่จะใช้การประมาณแบบปกติสำหรับค่าคุณสามารถใช้การทดสอบการเปลี่ยนรูปแบบที่ชัดเจนสำหรับกรณีนี้ ขั้นแรกให้คุณคำนวณทางสถิติจากข้อมูลของคุณจากนั้นสุ่มสุ่มข้อมูลหลาย ๆ ครั้งและคำนวณสำหรับแต่ละตัวอย่าง เป็นเพียงสัดส่วนของกรณีเมื่อสำหรับแนวโน้มขาขึ้นหรือสำหรับแนวโน้มขาลงP S P S ข้อมูลS เปลี่ยนแปลงS ข้อมูลS เปลี่ยนแปลงSpSpSdataSpermutationSdataSpermutation


Gilbert, RO (1987) วิธีการทางสถิติสำหรับการตรวจสอบมลพิษสิ่งแวดล้อม ไวลีย์นิวยอร์ก

Önöz, B. , & Bayazit, M. (2003) พลังของการทดสอบทางสถิติสำหรับการตรวจจับแนวโน้ม ตุรกีวิศวกรรมศาสตร์และวิทยาศาสตร์สิ่งแวดล้อม, 27 (4), 247-251


1

ปัญหาที่คุณมี "ฉันไม่สามารถใช้การถดถอยเชิงเส้นแบบคลาสสิกได้เนื่องจากความสัมพันธ์ระหว่างค่าอัตโนมัติ (อนุกรม) ที่แข็งแกร่งอัตโนมัติ" เป็นโอกาสจริง ฉันใช้ค่า 27 ค่าของคุณและใช้ซอฟต์แวร์ของ AUTOBOX (ซึ่งฉันได้ช่วยพัฒนา) ซึ่งสามารถ (เป็นทางเลือก) กำหนดรูปแบบที่เป็นไปได้โดยอัตโนมัติ นี่คือความเป็นจริง / ป้อนคำอธิบายรูปภาพที่นี่พอดีและกราฟการคาดการณ์ ACF ป้อนคำอธิบายรูปภาพที่นี่ของเหลืออยู่ที่นี่กับพล็อตที่เหลือที่นี่ แบบจำลองอยู่ที่นี่ป้อนคำอธิบายรูปภาพที่นี่และที่นี่ป้อนคำอธิบายรูปภาพที่นี่และที่นี่ป้อนคำอธิบายรูปภาพที่นี่. สัมประสิทธิ์สองตัวอธิบายข้อมูลได้อย่างเหมาะสมด้วย "แนวโน้ม" หรือที่รู้จักกันในชื่อ "ดริฟท์" คือช่วงเวลาถึงผลต่างของระยะเวลา -.596 โปรดทราบว่านี่เป็นแนวโน้มประเภทหนึ่งที่แบบจำลองของคุณใช้การนับตัวเลข 1,2, ... 27 เป็นตัวแปรตัวทำนาย หากข้อมูลของคุณชี้ว่าแนวโน้มดังกล่าวซอฟต์แวร์จะพบว่าสามารถใช้งานได้มากกว่า ฉันจะพยายามหาโพสต์ก่อนหน้าของฉันที่มีรายละเอียดครบถ้วน / เปรียบเทียบแนวโน้มทั้งสองนี้ ที่นี่การระบุโมเดลแนวโน้มสุ่มและการตรวจจับแนวโน้มหรือค่าเริ่มต้น

ป้อนคำอธิบายรูปภาพที่นี่


2
การคาดการณ์ของ Autobox นั้นผิดพลาดทุกจุดที่น่าสนใจ 1996, 1999, 2000, 2009 ที่มีแนวโน้มแตกหัก มันเกือบจะเหมือนกับการเปลี่ยนเฟสภายในหนึ่งปี ในเรื่องนั้นมันไม่ได้อธิบายอะไรเลย
Aksakal

คำแนะนำก่อนหน้าของคุณ (ใช้ภาษาแก้ม) เพื่อให้พอดีกับพหุนามในระดับสูงกับข้อมูลจะทำสิ่งที่คุณขอ แต่เราไม่ได้เกี่ยวกับความเหมาะสมที่เราจะเกี่ยวกับการสร้างแบบจำลอง พล็อตที่เหลือดูเหมือนจะอธิบายกระบวนการข้อผิดพลาดอย่างเพียงพอเนื่องจากปัจจัยภายนอก / ไม่ทราบ ทุกรุ่นผิด แต่บางรุ่นก็มีประโยชน์ ฉันเชื่อว่านี่เป็นรูปแบบที่มีประโยชน์ แต่ถ้าคุณคิดว่าคุณทำได้ดีกว่าโปรดโพสต์ผลลัพธ์ของคุณเพื่อให้เราทุกคนสามารถเรียนรู้ได้ ไม่มีคำอธิบายจากแบบจำลอง ARIMA เนื่องจากที่ผ่านมาเป็นเพียงพร็อกซีสำหรับตัวแปรที่ละเว้น
IrishStat

2
ในกรณีนี้ดูเหมือนว่าไม่มีอะไรเกี่ยวข้องกับสถิติมากนัก มันไม่ใช่คำถามสถิติที่น่าสนใจเลย มีแนวโน้มที่ชัดเจนและ OP ต้องศึกษาฟิสิกส์ของปรากฏการณ์ ฉันคิดว่ารูปแบบเหล่านี้เหมาะกับจาก Autobox เพียงนำ OP ไปในทิศทางที่ผิด พวกเขาไม่ได้เปิดเผยสิ่งที่มีค่าเกินกว่าที่เห็นได้ชัดอยู่แล้ว
Aksakal

คำถามคือการวิเคราะห์สามารถแทนที่ตามนุษย์ได้หรือไม่ ... การวิเคราะห์แสดงให้เห็นว่าตารองรับอะไรนี่คือเหตุผลที่เราฝึกสถิติเพื่อที่จะทำมากกว่าอาจมองเห็นได้ทันที โซลูชัน AUTOBOX เป็นผู้นำของ OP ในทิศทางที่ถูกต้องเช่นลง ความคิดเห็นของคุณไม่ได้มีประสิทธิภาพในความคิดของฉัน แต่อย่างที่ฉันถามก่อนหน้านี้ (สุภาพ) โปรดให้สถิติทางเลือกที่ทำงานได้ตาม ในความเห็นของฉันนี่เป็นคำถามเชิงสถิติที่น่าสนใจมากและต้องการคำตอบ โปรดระบุหนึ่งรายการหากคุณสามารถทำได้
IrishStat

1

คุณสามารถใช้สัมประสิทธิ์สหสัมพันธ์อันดับของ Spearmanเพื่อกำหนดระดับที่ข้อมูลของคุณเป็นแบบโมโนโทนิก มันส่งคืนค่าบวกสำหรับข้อมูลที่เพิ่มขึ้นแบบ monotonic และค่าลบสำหรับข้อมูลที่ลดลงแบบ monotonic (ระหว่าง -1 ถึง +1) ต่อไปนี้การเชื่อมโยงดังกล่าวข้างต้นนอกจากนี้ยังมีการทดสอบอย่างมีนัยสำคัญส่วนการซื้อขายแม้ว่าผมแน่ใจมากที่สุดซอฟแวร์จะมี p-value ทำเพื่อคุณเมื่อคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ (เช่นใน Matlab: [RHO,PVAL] = corr(...); ใน R: cor.test(x,...))


0

คุณสามารถใช้ OLS ได้เนื่องจากไม่มีการเชื่อมต่ออัตโนมัติแบบอนุกรม (อย่างน้อยในตัวอย่างที่คุณให้มา) บันทึกสถิติการทดสอบของ Durbin-Watson 1.966 (≈2)

ดังนั้นการประมาณค่าสัมประสิทธิ์เชิงลบอย่างมีนัยสำคัญสำหรับ x1 คือสิ่งที่คุณต้องพูด

จำนวนที่สังเกตได้ของ [บางสายพันธุ์] ลดลงประมาณ 1,000 ต่อปี

หรือ

จำนวนที่สังเกตได้ของ [บางสายพันธุ์] ลดลงระหว่าง 628 ถึง 1,408 ต่อปี (ที่ระดับความเชื่อมั่น 95%)

นี่ถือว่าวิธีการนับชนิดมีการครอบคลุมที่ดีและมีความสอดคล้องในช่วงหลายปีในตัวอย่างของคุณ

ป้อนคำอธิบายรูปภาพที่นี่

สิ่งนี้ถูกสร้างขึ้นด้วยรหัส Python นี้ (ขออภัย; ไม่มีประโยชน์ R):

import numpy as np
import statsmodels.api as sm

y = [10,12,10,11,8,9,6,4,2,4]
x = np.arange(len(y))
x = sm.add_constant(x)

mod = sm.OLS(y, x)
result = mod.fit()
print(result.summary())

0

การรู้แหล่งที่มาของข้อมูลจะเป็นประโยชน์อย่างมากและข้อมูลถ้าค่าของmy.tsสามารถลบได้หรือไม่

อย่างไรก็ตามการมองอย่างรวดเร็วในพล็อตมากกว่าเห็นคงเส้นแนวโน้มผมค่อนข้างชี้ให้เห็นว่าชุดเวลาที่ไม่นิ่งจึงบูรณาการ ตัวอย่างเช่นราคาหุ้นจะถูกรวมเข้าด้วยกัน แต่สต็อกจะส่งคืนไม่ได้อีกต่อไป (มีความผันผวนใกล้ 0)

สมมติฐานนี้สามารถทดสอบได้โดยใช้การทดสอบเพิ่มยิ่งขึ้นของ Dickey Fuller:

require(tseries)
adf.test(my.ts)

Augmented Dickey-Fuller Test
Dickey-Fuller = -2.9557, Lag order = 2, p-value = 0.7727
alternative hypothesis: stationary

เนื่องจากค่า p-value ไม่ต่ำกว่า 0.05 จึงไม่มีหลักฐานว่ากระบวนการเป็นแบบนิ่ง

เพื่อให้ได้ข้อมูลนิ่งคุณต้องแตกต่าง:

diff.ts <- diff(my.ts)
plot(diff.ts)

ป้อนคำอธิบายรูปภาพที่นี่

ตอนนี้ข้อมูลไม่แสดงแนวโน้มอีกต่อไปและสิ่งเดียวที่คุณจะพบคือคำสั่งซื้ออัตโนมัติ 2 (โดยใช้acf(diff.ts))

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.