คำถามติดแท็ก time-series

อนุกรมเวลาเป็นข้อมูลที่สังเกตได้ตลอดเวลา

3
แบบจำลองอนุกรมเวลาทั้งหมด
ฉันต้องทำการพยากรณ์อนุกรมเวลาโดยอัตโนมัติและฉันไม่ทราบล่วงหน้าเกี่ยวกับคุณลักษณะของซีรี่ส์เหล่านั้น (ฤดูกาล, แนวโน้ม, เสียง, ฯลฯ ) เป้าหมายของฉันคือไม่ได้แบบที่ดีที่สุดเท่าที่จะเป็นไปได้สำหรับแต่ละซีรี่ย์ แต่เพื่อหลีกเลี่ยงโมเดลที่แย่มาก กล่าวอีกนัยหนึ่งการได้รับข้อผิดพลาดเล็ก ๆ น้อย ๆ ทุกครั้งไม่ใช่ปัญหา แต่จะได้รับข้อผิดพลาดใหญ่ ๆ เป็นครั้งคราว ฉันคิดว่าฉันสามารถทำสิ่งนี้ได้โดยการรวมโมเดลที่คำนวณด้วยเทคนิคที่แตกต่างกัน นั่นคือแม้ว่า ARIMA จะเป็นวิธีที่ดีที่สุดสำหรับซีรีส์หนึ่ง แต่มันอาจจะไม่ดีที่สุดสำหรับซีรีย์อื่น เช่นเดียวกับการปรับให้เรียบแบบเอกซ์โพเนนเชียล อย่างไรก็ตามถ้าฉันรวมโมเดลหนึ่งจากแต่ละเทคนิคแม้ว่าหนึ่งโมเดลจะไม่ดีนัก แต่อีกรุ่นจะนำค่าประมาณมาใกล้เคียงกับมูลค่าที่แท้จริงมากขึ้น เป็นที่ทราบกันดีว่า ARIMA ใช้งานได้ดีกว่าสำหรับซีรีย์ที่มีพฤติกรรมดีในระยะยาวในขณะที่การปรับให้เรียบแบบเอ็กซ์โปเนนเชียลนั้นดูโดดเด่นด้วยซีรีย์ที่มีเสียงรบกวนระยะสั้น ความคิดของฉันคือการรวมโมเดลที่สร้างจากทั้งสองเทคนิคเพื่อให้ได้การคาดการณ์ที่มีประสิทธิภาพยิ่งขึ้น อาจมีหลายวิธีในการรวมโมเดลเหล่านั้น หากนี่เป็นวิธีการที่ดีฉันจะรวมมันอย่างไร ค่าเฉลี่ยของการคาดการณ์อย่างง่ายคือตัวเลือก แต่บางทีฉันอาจได้การคาดการณ์ที่ดีกว่าถ้าฉันให้น้ำหนักค่าเฉลี่ยตามแบบวัดความดีของแบบจำลอง อะไรคือการรักษาความแปรปรวนเมื่อรวมตัวแบบ?

3
กลยุทธ์การเพิ่มข้อมูลสำหรับการพยากรณ์อนุกรมเวลา
ฉันกำลังพิจารณาสองกลยุทธ์ในการทำ "การเพิ่มข้อมูล" ในการพยากรณ์อนุกรมเวลา ครั้งแรกพื้นหลังเล็กน้อย ตัวทำนายPPPเพื่อคาดการณ์ขั้นตอนถัดไปของอนุกรมเวลา{ Aผม}{Aผม}\lbrace A_i\rbraceเป็นฟังก์ชันที่โดยทั่วไปจะขึ้นอยู่กับสองสิ่งคือสถานะของอนุกรมเวลาที่ผ่านมา แต่ยังรวมถึงรัฐในอดีตของผู้ทำนายด้วย: P( { Aฉัน≤ t - 1} , PSt - 1)P({Aผม≤เสื้อ-1},PSเสื้อ-1)P(\lbrace A_{i\leq t-1}\rbrace,P_{S_{t-1}}) หากเราต้องการปรับ / ฝึกอบรมระบบของเราเพื่อให้ได้PPPที่ดีเราจะต้องมีข้อมูลที่เพียงพอ บางครั้งข้อมูลที่มีอยู่อาจไม่เพียงพอดังนั้นเราจึงพิจารณาเพิ่มข้อมูล วิธีแรก สมมติว่าเรามีชุดเวลา{ Aผม}{Aผม}\lbrace A_i \rbraceกับ1 ≤ ฉัน≤ n1≤ผม≤n1 \leq i \leq n n และสมมติว่าเรามีεε\epsilonที่ตรงตามเงื่อนไขต่อไปนี้: 0 &lt; ϵ &lt; | ฉัน+ 1- กผม| ∀ฉัน∈{1,…,n}0&lt;ε&lt;|Aผม+1-Aผม|∀ผม∈{1,...,n}0<\epsilon < |A_{i+1} - …

3
ACF & PACF ระบุลำดับของเงื่อนไข MA และ AR อย่างไร
เป็นเวลามากกว่า 2 ปีแล้วที่ฉันทำงานในซีรีย์ต่างเวลา ฉันได้อ่านบทความมากมายที่ ACF ใช้เพื่อระบุลำดับของคำ MA และ PACF สำหรับ AR มีกฎง่ายๆที่สำหรับ MA ความล่าช้าที่ ACF ปิดทันทีคือลำดับของ MA และในทำนองเดียวกันสำหรับ PACF และ AR นี่คือหนึ่งในบทความที่ฉันติดตามจาก PennState Eberly College of Science คำถามของฉันคือทำไมมันเป็นเช่นนั้น? สำหรับฉัน ACF ยังสามารถให้เทอม AR ได้ ฉันต้องการคำอธิบายของกฎง่ายๆที่กล่าวถึงข้างต้น ฉันไม่สามารถเข้าใจกฎง่ายๆได้อย่างง่ายดาย / ทางคณิตศาสตร์ว่าทำไม - การระบุรูปแบบ AR มักจะทำได้ดีที่สุดด้วย PACF การระบุรูปแบบ MA มักทำได้ดีที่สุดกับ ACF แทนที่จะเป็น PACF โปรดทราบ: - …

3
โมเดลมาร์คอฟที่ซ่อนอยู่เทียบกับเครือข่ายประสาทเทียม
ปัญหาการป้อนข้อมูลตามลำดับใดที่เหมาะสมที่สุดสำหรับแต่ละปัญหา มิติข้อมูลเข้ากำหนดว่าการจับคู่แบบใดดีกว่า ปัญหาที่ต้องใช้ "หน่วยความจำที่ยาวนานกว่า" เหมาะกว่าสำหรับ LSTM RNN หรือไม่ขณะที่ปัญหาเกี่ยวกับรูปแบบอินพุตที่เป็นวงจร (ตลาดหุ้น, สภาพอากาศ) จะแก้ไขได้ง่ายขึ้นโดย HMM ดูเหมือนว่ามีการทับซ้อนกันมากมาย ฉันอยากรู้ว่าความแตกต่างที่ลึกซึ้งนั้นมีอยู่ระหว่างสองสิ่งนี้อย่างไร

3
ความคงที่ของภาพคงที่ภายใต้ชุดค่าผสมเชิงเส้นหรือไม่?
ลองนึกภาพเรามีสองกระบวนการอนุกรมเวลาที่มีความนิ่ง, การผลิต: x_t,xt,ytxt,ytx_t,y_t คือ ,ยังนิ่ง? ∀ α , β ∈ Rzt=αxt+βytzt=αxt+βytz_t=\alpha x_t +\beta y_t∀α,β∈R∀α,β∈R\forall \alpha, \beta \in \mathbb{R} ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม ฉันจะบอกว่าใช่เพราะมันมีตัวแทน MA

2
ซีรีย์ที่ไม่อยู่นิ่งทุกชุดสามารถแปลงเป็นซีรีส์นิ่งได้หรือไม่ผ่านการเปลี่ยนแปลง
อนุกรมเวลาที่ไม่หยุดนิ่งทุกตัวสามารถแปลงเป็นอนุกรมเวลาคงที่โดยใช้การเปลี่ยนแปลงที่แตกต่างกันได้หรือไม่? นอกจากนี้คุณจะตัดสินใจลำดับความแตกต่างที่จะใช้ได้อย่างไร คุณเพียงแค่แตกต่างกับช่วงเวลา 1,2 ... n และทำการทดสอบรูทยูนิตของเครื่องเขียนในแต่ละครั้งเพื่อดูว่าซีรีย์ที่ได้นั้นเป็นแบบนิ่งหรือไม่?

1
วิธีการบัญชีสำหรับผลกระทบของวันหยุดในการคาดการณ์
ฉันมีซีรีย์เวลารายวันที่สามารถคาดการณ์ได้ค่อนข้างมีฤดูกาลทุกสัปดาห์ ฉันสามารถหาคำทำนายที่ค่อนข้างแม่นยำ (ยืนยันโดยการตรวจสอบข้าม) เมื่อไม่มีวันหยุด อย่างไรก็ตามเมื่อมีวันหยุดฉันมีปัญหาดังต่อไปนี้: ฉันได้รับตัวเลขที่ไม่เป็นศูนย์สำหรับวันหยุดในการคาดการณ์ของฉันแม้ว่าวันหยุดประวัติศาสตร์ทั้งหมดจะเป็น 0 นี่ไม่ใช่ประเด็นหลักจริงๆ ปัญหาคือ ... เนื่องจากการประมวลผลที่ไม่ได้เกิดขึ้นในวันหยุด "หกล้นเกิน" ไปจนถึงวันถัดจากวันหยุดตัวแปรดัมมี่ที่เรียบง่ายไม่ได้ตัดมันเนื่องจากค่าผิดปกติเหล่านี้ดูเหมือนจะเป็นนวัตกรรมระยะสั้น หากไม่มีฤดูกาลประจำสัปดาห์ฉันอาจจะเกิดขึ้นกับการประมาณการสำหรับการกระจายข้อมูลที่ไม่ได้ประมวลผลในวันหยุดในช่วงห้าวันหรือมากกว่านั้นหลังจากวันหยุด (ดังที่แนะนำในวิธีทำคุณสร้างตัวแปรที่สะท้อนถึงโอกาสในการขาย ผลกระทบของปฏิทินในการวิเคราะห์อนุกรมเวลา? ) อย่างไรก็ตามการกระจายของ "การรั่วไหล" ขึ้นอยู่กับวันของสัปดาห์ที่เกิดขึ้นและไม่ว่าวันหยุดจะเป็นวันคริสต์มาสหรือวันขอบคุณพระเจ้าซึ่งคำสั่งซื้อจะถูกวางในอัตราที่ต่ำกว่าช่วงที่เหลือของปี ต่อไปนี้เป็นภาพรวมบางส่วนจากการตรวจสอบความถูกต้องไขว้ของฉันซึ่งแสดงผลลัพธ์ (สีน้ำเงิน) ที่คาดการณ์ไว้กับผลลัพธ์ที่แท้จริง (สีแดง) สำหรับวันหยุดที่ปรากฏในวันที่แตกต่างกันของสัปดาห์: ฉันยังกังวลว่าผลกระทบของคริสต์มาสจะขึ้นอยู่กับวันในสัปดาห์และฉันมีข้อมูลประวัติศาสตร์เพียงหกปีหรือมากกว่านั้น ไม่มีใครมีข้อเสนอแนะใด ๆ เกี่ยวกับวิธีจัดการกับค่าผิดปกติเชิงนวัตกรรมประเภทนี้ในบริบทของการพยากรณ์หรือไม่? (น่าเสียดายที่ฉันไม่สามารถแชร์ข้อมูลใด ๆ ได้)

4
ซีรีส์เครื่องเขียนเทรนด์สามารถใช้กับ ARIMA ได้หรือไม่?
ฉันมีคำถาม / ความสับสนเกี่ยวกับชุดเครื่องเขียนที่จำเป็นสำหรับการสร้างแบบจำลองด้วย ARIMA (X) ฉันคิดถึงสิ่งนี้มากขึ้นในแง่ของการอนุมาน (ผลของการแทรกแซง) แต่อยากรู้ว่าการคาดการณ์และการอนุมานนั้นสร้างความแตกต่างในการตอบสนองหรือไม่ คำถาม: แหล่งข้อมูลเบื้องต้นทั้งหมดที่ฉันได้อ่านระบุว่าซีรีส์ต้องหยุดนิ่งซึ่งทำให้ฉันรู้สึกว่าเหมาะสมและนั่นคือที่ "ฉัน" ใน arima เข้ามา (ต่างกัน) สิ่งที่ทำให้ฉันสับสนคือการใช้แนวโน้มและการล่องลอยใน ARIMA (X) และความหมาย (ถ้ามี) สำหรับข้อกำหนดที่อยู่กับที่ การใช้เทอมคงที่ / ดริฟท์และ / หรือตัวแปรเทรนด์เป็นตัวแปรภายนอก (เช่นการเพิ่ม 't' เป็น regressor) ลบล้างความต้องการของซีรีส์ที่อยู่กับที่หรือไม่? คำตอบนั้นแตกต่างกันไปหรือไม่ขึ้นอยู่กับว่าซีรี่ส์มีรูทยูนิต (เช่น adf test) หรือมีแนวโน้มที่กำหนดขึ้น แต่ไม่มีรูทยูนิตหรือไม่ หรือ ซีรีย์ต้องหยุดนิ่งอยู่เสมอโดยสร้างความแตกต่างและ / หรือทำให้เสียโฉมก่อนใช้ ARIMA (X)

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat &lt;- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) &lt;- paste ("M", 1:10000, sep ="") rownames(xmat) &lt;- paste("sample", 1:200, sep = "") #M variables are correlated N &lt;- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
สถิติใดที่ถูกเก็บรักษาไว้ภายใต้การรวมกลุ่ม?
หากเรามีอนุกรมเวลาที่มีความยาวและความละเอียดสูงพร้อมเสียงรบกวนมากมายมันมักจะสมเหตุสมผลที่จะรวบรวมข้อมูลให้เป็นความละเอียดที่ต่ำกว่า (เช่นค่ารายวันเป็นรายเดือน) เพื่อทำความเข้าใจกับสิ่งที่เกิดขึ้นได้ดียิ่งขึ้น เสียงดัง. ฉันเคยเห็นอย่างน้อยหนึ่งกระดาษที่ใช้สถิติบางอย่างกับข้อมูลรวมรวมถึงสำหรับการถดถอยเชิงเส้นในตัวแปรแยกต่างหาก ถูกต้องหรือไม่ ฉันคิดว่ากระบวนการหาค่าเฉลี่ยจะปรับเปลี่ยนผลลัพธ์ค่อนข้างดีเนื่องจากเสียงรบกวนน้อยลงr2r2r^2 โดยทั่วไปแล้วสถิติบางอย่างสามารถนำไปใช้กับข้อมูลอนุกรมเวลารวมและอื่น ๆ ไม่ได้? ถ้าเป็นเช่นนั้น คนที่มีการรวมกันเชิงเส้นอาจ?

1
เกณฑ์สำหรับการเลือกโมเดล“ ดีที่สุด” ในโมเดลมาร์คอฟที่ซ่อนอยู่
ฉันมีชุดข้อมูลอนุกรมเวลาที่ฉันพยายามจัดวางแบบซ่อนมาร์คอฟ (HMM) เพื่อประเมินจำนวนสถานะแฝงในข้อมูล รหัสหลอกของฉันสำหรับทำสิ่งนี้มีดังต่อไปนี้: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } ตอนนี้ในรูปแบบการถดถอยปกติ BIC มีแนวโน้มที่จะชอบรูปแบบที่น่าสังเวชมากที่สุด แต่ในกรณีของ HMM ฉันไม่แน่ใจว่ามันคือสิ่งที่ทำ มีใครบ้างที่ทราบว่าเกณฑ์ BIC ของ HMM ประเภทใดมีแนวโน้มเป็นจริง? ฉันยังสามารถได้รับ AIC และค่าความน่าจะเป็นเช่นกัน เนื่องจากฉันพยายามที่จะอนุมานจำนวนจริงของรัฐเป็นหนึ่งในเกณฑ์เหล่านี้ "ดีกว่า" เพื่ออื่น ๆ สำหรับวัตถุประสงค์นี้หรือไม่

2
ความสัมพันธ์และความแตกต่างระหว่างอนุกรมเวลาและการถดถอย
อะไรคือความสัมพันธ์และความแตกต่างระหว่างอนุกรมเวลาและการถดถอย สำหรับแบบจำลองและสมมติฐานมันถูกต้องหรือไม่ที่แบบจำลองการถดถอยถือว่าเป็นอิสระระหว่างตัวแปรเอาต์พุตสำหรับค่าต่าง ๆ ของตัวแปรอินพุตในขณะที่โมเดลอนุกรมเวลาไม่ ความแตกต่างอื่น ๆ คืออะไร? สำหรับวิธีการจากเว็บไซต์โดย Darlington มีวิธีการวิเคราะห์อนุกรมเวลาหลายวิธี แต่วิธีที่สองที่รู้จักกันดีคือวิธีการถดถอยและวิธี Box-Jenkins (1976) หรือ ARIMA (AutoRegressive Integrated Moving Average) เอกสารนี้แนะนำวิธีการถดถอย ฉันพิจารณาวิธีการถดถอยที่เหนือกว่า ARIMA อย่างมากด้วยเหตุผลสามประการ ฉันไม่เข้าใจว่า "วิธีการถดถอย" สำหรับอนุกรมเวลาอยู่บนเว็บไซต์อย่างไรและมันแตกต่างจากวิธี Box-Jenkins หรือวิธี ARIMA อย่างไร ฉันขอขอบคุณถ้ามีคนให้ข้อมูลเชิงลึกกับคำถามเหล่านั้น ขอบคุณและขอแสดงความนับถือ!

1
อัลกอริทึมสำหรับการฟื้นฟูข้อมูลตามเวลาจริงตามเวลาจริงหรือไม่
ฉันกำลังทำงานกับอัลกอริทึมที่ใช้ในเวกเตอร์ของจุดข้อมูลล่าสุดจากลำธารเซ็นเซอร์จำนวนหนึ่งและเปรียบเทียบระยะทางแบบยุคลิดกับเวกเตอร์ก่อนหน้านี้ ปัญหาคือกระแสข้อมูลที่แตกต่างกันมาจากเซ็นเซอร์ที่แตกต่างกันอย่างสิ้นเชิงดังนั้นการใช้ระยะทางแบบยุคลิดแบบเรียบง่ายจะทำให้ค่าบางค่าสูงขึ้นอย่างมาก เห็นได้ชัดว่าฉันต้องการวิธีที่จะทำให้ข้อมูลเป็นมาตรฐาน อย่างไรก็ตามเนื่องจากอัลกอริทึมได้รับการออกแบบให้ทำงานแบบเรียลไทม์ฉันไม่สามารถใช้ข้อมูลใด ๆ เกี่ยวกับสตรีมข้อมูลใด ๆ โดยรวมในการทำให้เป็นมาตรฐานได้ จนถึงตอนนี้ฉันเพิ่งจะติดตามค่าที่ใหญ่ที่สุดที่มองเห็นได้สำหรับเซ็นเซอร์แต่ละตัวในระยะเริ่มต้น (เวกเตอร์ข้อมูล 500 ตัวแรก) จากนั้นหารข้อมูลในอนาคตทั้งหมดจากเซ็นเซอร์นั้นด้วยค่านั้น มันใช้งานได้ดีอย่างน่าประหลาดใจ แต่รู้สึกไม่ค่อยดี ฉันไม่ได้โชคดีที่ได้พบอัลกอริทึมที่มีอยู่แล้วสำหรับสิ่งนี้ แต่บางทีฉันแค่ไม่ได้มองในที่ที่เหมาะสม มีใครรู้บ้างไหม หรือมีความคิดใด ๆ ฉันเห็นคำแนะนำหนึ่งข้อในการใช้ค่าเฉลี่ย (อาจคำนวณโดยอัลกอริธึมของ Wellford) แต่ถ้าฉันทำอย่างนั้นการอ่านค่าเดียวกันหลายครั้งจะไม่ปรากฏว่าเหมือนกันซึ่งดูเหมือนว่าจะเป็นปัญหาใหญ่เว้นแต่ฉัน คิดถึงบางอย่าง ความคิดใด ๆ ที่ชื่นชม! ขอบคุณ!

1
ขั้นตอนแรกเรียนรู้การทำนายไทม์ทางการเงินโดยใช้การเรียนรู้ของเครื่อง
ฉันพยายามเข้าใจวิธีใช้การเรียนรู้ของเครื่องเพื่อทำนายไทม์ทางการเงิน 1 ขั้นตอนหรือมากกว่าในอนาคต ฉันมีช่วงเวลาทางการเงินพร้อมข้อมูลเชิงพรรณนาและฉันต้องการจัดทำแบบจำลองจากนั้นใช้แบบจำลองเพื่อทำนายขั้นตอนล่วงหน้า สิ่งที่ฉันได้ทำไปคือ: getSymbols("GOOG") GOOG$sma &lt;- SMA(Cl(GOOG)) GOOG$range &lt;- GOOG$GOOG.High-GOOG$GOOG.Low tail(GOOG) GOOG.Open GOOG.High GOOG.Low GOOG.Close GOOG.Volume GOOG.Adjusted sma range 2013-05-07 863.01 863.87 850.67 857.23 1959000 857.23 828.214 13.20 2013-05-08 857.00 873.88 852.91 873.63 2468300 873.63 834.232 20.97 2013-05-09 870.84 879.66 868.23 871.48 2200600 871.48 840.470 11.43 2013-05-10 875.31 …

2
ฉันสามารถทำให้หลงผิดและแตกต่างเพื่อสร้างชุดเครื่องเขียนได้หรือไม่?
ฉันมีชุดข้อมูลที่เพิ่มขึ้นอย่างชัดเจนเมื่อเวลาผ่านไป (อัตราแลกเปลี่ยนของสกุลเงินข้อมูลรายเดือนเกิน 20 ปี) คำถามของฉันคือ: ฉันสามารถ detrend ข้อมูลแล้วแตกต่างเพื่อให้มันหยุดนิ่งถ้าตัวเองตกอยู่ในตัวเอง ไม่ได้รับสิ่งนี้ใช่หรือไม่ และถ้าเป็นเช่นนั้นสิ่งนี้จะได้รับการพิจารณาต่างกันสองครั้งหรือน่ารังเกียจและแตกต่างเพียงครั้งเดียว

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.