คำถามติดแท็ก time-series

อนุกรมเวลาเป็นข้อมูลที่สังเกตได้ตลอดเวลา

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
ฉันควรระวังปัญหาอะไรบ้างเมื่อรวมอนุกรมหลายเวลา
สมมติว่าฉันมีอนุกรมเวลาจำนวนหนึ่งเช่นจำนวนบันทึกอุณหภูมิจากสถานีต่าง ๆ ในภูมิภาค ฉันต้องการได้รับการบันทึกอุณหภูมิเดียวสำหรับทั้งภูมิภาคซึ่งฉันสามารถอธิบายลักษณะของภูมิอากาศในภูมิภาค วิธีการที่เข้าใจง่ายอาจเพียงแค่ใช้ค่าเฉลี่ยของทุกสถานีในแต่ละเวลา แต่ความรู้สึกทางสถิติของฉัน (ซึ่งฉันยังติดต่อไม่ได้ด้วย) บอกฉันว่านี่อาจไม่ใช่เรื่องง่าย โดยเฉพาะอย่างยิ่งฉันจินตนาการว่าค่าเฉลี่ยทั่วทั้งภูมิภาคจะลบจุดสุดยอดอุณหภูมิที่น่าสนใจบางส่วนและฉันอาจมีปัญหากับการพึ่งพาระหว่างสถานีปิด ฉันอาจประสบปัญหาอื่นใดอีกถ้าฉันลองใช้กลยุทธ์เช่นนี้และมีวิธีที่จะเอาชนะพวกเขาหรือวิธีการที่เหมาะสมกว่าในการรวมข้อมูลประเภทนี้ หมายเหตุ: คำตอบอาจกว้างกว่าตัวอย่างเชิงพื้นที่ที่ฉันให้ไว้

1
vcovHC, vcovHAC, NeweyWest - ใช้ฟังก์ชั่นใด?
ฉันกำลังพยายามอัปเดตโมเดลตาม LM ของฉันเพื่อรับข้อผิดพลาดและการทดสอบมาตรฐานที่ถูกต้อง ฉันสับสนจริง ๆ ว่าเมทริกซ์ VC ที่จะใช้ sandwichแพคเกจราคาพิเศษvcovHC, และvcovHAC NeweyWestในขณะที่อดีตเพียงบัญชี heteroskedasticity สองหลังบัญชีทั้งความสัมพันธ์ต่อเนื่องและ heteroskedasticity กระนั้นเอกสารไม่ได้บอกอะไรมากมายเกี่ยวกับความแตกต่างระหว่างสองอันหลัง (อย่างน้อยฉันก็ไม่เข้าใจ) เมื่อมองไปที่ฟังก์ชั่นของตัวเองฉันรู้ว่า NeweyWest โทรหา vcovHAC จริงๆ สังเกตุผลลัพธ์coeftest(mymodel, vcov. = vcovHAC)และcoeftest(mymodel, vcov. = NeweyWest)แตกต่างอย่างบ้าคลั่ง แม้ว่าvcovHACจะค่อนข้างใกล้เคียงกับผลลัพธ์ที่ไร้เดียงสา แต่การใช้ NeweyWest สัมประสิทธิ์ทั้งหมดจะเปลี่ยนไปเล็กน้อย (การทดสอบใกล้เคียงกับ 1)

4
จะรับค่าที่ใช้ใน plot.gam เป็น mgcv ได้อย่างไร?
ฉันต้องการทราบค่าที่(x, y)ใช้ในการลงจุดplot(b, seWithMean=TRUE)ในแพ็คเกจmgcv ไม่มีใครรู้ว่าฉันสามารถแยกหรือคำนวณค่าเหล่านี้ได้อย่างไร นี่คือตัวอย่าง: library(mgcv) set.seed(0) dat <- gamSim(1, n=400, dist="normal", scale=2) b <- gam(y~s(x0), data=dat) plot(b, seWithMean=TRUE)


2
การทดสอบตามฤดูกาลของอนุกรมเวลา
การทดสอบฤดูกาลที่ง่ายที่สุดสำหรับอนุกรมเวลาคืออะไร? เฉพาะเจาะจงมากขึ้นฉันต้องการทดสอบว่าspecific time series the seasonal componentมีความหมายหรือไม่ แพ็คเกจที่แนะนำใน Python / R คืออะไร?

1
หากสแควร์ของซีรีย์เวลาหยุดนิ่งอนุกรมเวลาดั้งเดิมจะอยู่กับที่หรือไม่?
ฉันพบวิธีแก้ปัญหาที่ระบุว่าหากตารางเวลาของอนุกรมเวลาคงที่ดังนั้นอนุกรมเวลาเดิมและในทางกลับกัน อย่างไรก็ตามฉันดูเหมือนจะไม่สามารถพิสูจน์ได้ว่าใครมีความคิดว่านี่เป็นเรื่องจริงและถ้ามันเป็นวิธีการที่จะได้รับมัน?

3
การพยากรณ์หลายช่วงเวลาด้วยการเรียนรู้ของเครื่อง
เมื่อเร็ว ๆ นี้ฉันได้ทบทวนความรู้เกี่ยวกับอนุกรมเวลาของฉันและรู้ว่าการเรียนรู้ด้วยเครื่องส่วนใหญ่ให้การคาดการณ์ล่วงหน้าเพียงขั้นตอนเดียว ด้วยการคาดการณ์ล่วงหน้าหนึ่งขั้นฉันหมายถึงการคาดการณ์ที่เช่นถ้าเรามีข้อมูลรายชั่วโมงให้ใช้ข้อมูลตั้งแต่ 10.00 น. ถึง 11.00 น. และ 11.00 น. สำหรับ 12.00 น. เป็นต้น วิธีการเรียนรู้ของเครื่องสามารถสร้างการคาดการณ์ล่วงหน้าล่วงหน้าได้หรือไม่? ด้วยการคาดการณ์ h-step-ahead ฉันหมายถึงเช่นสมมติว่าข้อมูลรายชั่วโมงเราใช้ข้อมูลจาก 10:00 ในการคาดการณ์ล่วงหน้า 7 ขั้นตอนเพื่อรับการประมาณการสำหรับ 11,12,13,14,15,16,17 ' o นาฬิกา ตัวอย่างรูป: เกี่ยวข้องกับคำถามหลักของฉันฉันสงสัยว่า: อะไรคือสาเหตุที่ฉันไม่เห็นใครก็ตามที่ใช้การเรียนรู้ของเครื่องเพื่อทำการพยากรณ์ล่วงหน้าแบบ h-step หากมีวิธีการที่ใช้การเรียนรู้ของเครื่องมันแม่นยำมากกว่าหรือน้อยกว่า ARIMA หรือไม่?

1
เงื่อนไขสำหรับพฤติกรรมแบบวงกลมของแบบจำลอง ARIMA
ฉันพยายามสร้างแบบจำลองและคาดการณ์ชุดเวลาที่เป็นวงจรแทนที่จะเป็นฤดูกาล (เช่นมีรูปแบบคล้ายฤดูกาล แต่ไม่ใช่ในช่วงเวลาคงที่) สิ่งนี้ควรเป็นไปได้ที่จะใช้โมเดล ARIMA ตามที่กล่าวไว้ในส่วนที่ 8.5 ของการพยากรณ์: หลักการและการปฏิบัติ : ค่าของมีความสำคัญหากข้อมูลแสดงรอบ เพื่อให้ได้การคาดการณ์แบบวนรอบจำเป็นต้องมีพร้อมกับเงื่อนไขเพิ่มเติมบางอย่างเกี่ยวกับพารามิเตอร์ สำหรับ AR (2) รูปแบบพฤติกรรมที่เกิดขึ้นหากเป็นวงกลม&lt;0pppp≥2p≥2p\geq 2ϕ21+4ϕ2&lt;0ϕ12+4ϕ2&lt;0\phi^2_1+4\phi_2<0 เงื่อนไขเพิ่มเติมเหล่านี้เกี่ยวกับพารามิเตอร์ในกรณีทั่วไปของ ARIMA (p, d, q) คืออะไร ฉันไม่สามารถพบพวกเขาได้ทุกที่

1
ฉันจะเน้นเสียงแก้ไขที่มีเสียงดังในอนุกรมเวลาได้อย่างไร
ฉันมีข้อมูลอนุกรมเวลาจำนวนมาก - ระดับน้ำและความเร็วเทียบกับเวลา มันเป็นผลลัพธ์จากการจำลองแบบไฮดรอลิก เป็นส่วนหนึ่งของกระบวนการตรวจสอบเพื่อยืนยันว่าแบบจำลองทำงานได้ตามที่คาดหวังฉันต้องวางแผนในแต่ละช่วงเวลาเพื่อให้แน่ใจว่าไม่มี "การโยกเยก" ในข้อมูล (ดูตัวอย่างการโยกเยกเล็กน้อยด้านล่าง) การใช้ UI ของซอฟต์แวร์การสร้างแบบจำลองเป็นวิธีที่ค่อนข้างช้าและลำบากในการตรวจสอบข้อมูลนี้ ฉันจึงเขียนแมโคร VBA สั้น ๆ เพื่อนำเข้าบิตข้อมูลต่าง ๆ จากแบบจำลองรวมถึงผลลัพธ์ลงใน Excel และพล็อตพวกมันทั้งหมดในครั้งเดียว ฉันหวังว่าจะเขียนแมโคร VBA สั้น ๆ อีกชุดเพื่อวิเคราะห์ข้อมูลอนุกรมเวลาและเน้นส่วนที่สงสัย สิ่งเดียวที่ฉันคิดก็คือฉันสามารถวิเคราะห์ความชันของข้อมูลได้บ้าง ทุกที่ที่ความชันเปลี่ยนแปลงอย่างรวดเร็วจากการเป็นค่าบวกเป็นค่าลบหลายครั้งภายในหน้าต่างการค้นหาที่ระบุอาจถูกจัดประเภทว่าไม่เสถียร ฉันพลาดเทคนิคที่ง่ายกว่านี้ไหม? โดยพื้นฐานแล้วการจำลอง "เสถียร" ควรให้เส้นโค้งที่ราบรื่นมาก การเปลี่ยนแปลงอย่างฉับพลันใด ๆ มีแนวโน้มที่จะเป็นผลมาจากความไม่แน่นอนในการคำนวณ

1
เหตุใดโมเดล VAR ของฉันจึงทำงานได้ดีกว่ากับข้อมูลที่ไม่ใช่เครื่องเขียนมากกว่าข้อมูลที่อยู่กับที่?
ฉันใช้ไลบรารี่ VAR ของ Python ในการสร้างแบบจำลองข้อมูลอนุกรมเวลาการเงินและผลลัพธ์บางอย่างทำให้ฉันงงงวย ฉันรู้ว่าแบบจำลอง VAR ถือว่าข้อมูลอนุกรมเวลาอยู่กับที่ ฉันบังเอิญใส่ราคาล็อกที่ไม่คงที่สำหรับหลักทรัพย์สองชุดที่แตกต่างกันโดยไม่ตั้งใจและน่าประหลาดใจที่ค่าติดตั้งและการคาดการณ์ในตัวอย่างนั้นมีความแม่นยำมาก R2R2R^2 ในการพยากรณ์ในตัวอย่างคือ 99% และค่าเบี่ยงเบนมาตรฐานของซีรีส์ส่วนที่เหลือที่คาดการณ์อยู่ที่ประมาณ 10% ของค่าการคาดการณ์ อย่างไรก็ตามเมื่อฉันแตกต่างราคาบันทึกและปรับให้พอดีกับอนุกรมเวลานั้นกับรุ่น VAR ค่าติดตั้งและการคาดการณ์จะอยู่ไกลจากเครื่องหมายซึ่งอยู่ในระยะที่แคบโดยรอบค่าเฉลี่ย เป็นผลให้ส่วนที่เหลือทำการคาดการณ์งานได้ดีกว่าค่าที่ติดตั้งพร้อมกับส่วนเบี่ยงเบนมาตรฐานของส่วนที่เหลือที่คาดการณ์ 15X ที่ใหญ่กว่าชุดข้อมูลที่ติดตั้งแล้วเป็น. 007R2R2R^2 ค่าสำหรับชุดการคาดการณ์ ฉันตีความผิดกับสิ่งที่ติดอยู่กับรุ่น VAR หรือทำให้เกิดข้อผิดพลาดอื่น ๆ หรือไม่? เหตุใดอนุกรมเวลาที่ไม่หยุดนิ่งจะส่งผลให้การคาดการณ์มีความแม่นยำมากขึ้นกว่าอนุกรมที่อยู่กับที่โดยอ้างอิงจากข้อมูลพื้นฐานเดียวกัน ฉันทำงานได้ดีกับรุ่น ARMA จากคลังหลามเดียวกันและไม่เห็นอะไรเหมือนการสร้างแบบจำลองข้อมูลชุดเดียว

1
การตรวจหาการเปลี่ยนแปลงคู่เคียงแบบเบย์ออนไลน์
ฉันกำลังอ่านรายงานการตรวจหาการเปลี่ยนแปลงไบเซียนออนไลน์โดย Adams และ MacKay ( ลิงก์ ) ผู้แต่งเริ่มต้นด้วยการเขียนการแจกแจงการทำนายแบบชายขอบ: โดยที่P(xt+1|x1:t)=∑rtP(xt+1|rt,x(r)t)P(rt|x1:t)(1)P(xt+1|x1:t)=∑rtP(xt+1|rt,xt(r))P(rt|x1:t)(1) P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t} P(x_{t+1} | r_t, \textbf{x}_t^{(r)}) P(r_t | \textbf{x}_{1:t}) \qquad \qquad (1) xtxtx_tคือการสังเกตในเวลา ;ttt x1:tx1:t\textbf{x}_{1:t}หมายถึงชุดการสังเกตจนกระทั่งเวลา ;ttt rt∈Nrt∈Nr_t \in \mathbb{N}คือ runlength ปัจจุบัน (เวลานับตั้งแต่การเปลี่ยนแปลงครั้งล่าสุดสามารถเป็น 0); และ x(r)txt(r)\textbf{x}_t^{(r)}เป็นชุดของการสังเกตที่เกี่ยวข้องกับการทำงานr_trtrtr_t อีคิว 1 ถูกต้องเป็นทางการ (ดูคำตอบด้านล่างโดย @JuhoKokkala) แต่ความเข้าใจของฉันคือถ้าคุณต้องการทำนายเกี่ยวกับคุณจะต้องขยายดังต่อไปนี้:xt+1xt+1x_{t+1} P(xt+1|x1:t)=∑rt,rt+1P(xt+1|rt+1,x(r)t)P(rt|x1:t)P(rt+1|rt)(1b)P(xt+1|x1:t)=∑rt,rt+1P(xt+1|rt+1,xt(r))P(rt|x1:t)P(rt+1|rt)(1b) P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t, r_{t+1}} …

2
การกำหนดน้ำหนักให้มากขึ้นเพื่อการสังเกตการณ์ล่าสุดในการถดถอย
ฉันจะกำหนดน้ำหนักให้กับการสำรวจล่าสุดใน R มากขึ้นได้อย่างไร ฉันคิดว่านี่เป็นคำถามหรือความปรารถนาที่ถามบ่อย แต่ฉันมีเวลายากที่จะหาวิธีการใช้งาน ฉันพยายามค้นหาสิ่งนี้มาก แต่ฉันไม่สามารถหาตัวอย่างการปฏิบัติที่ดีได้ ในตัวอย่างของฉันฉันจะมีชุดข้อมูลขนาดใหญ่เมื่อเวลาผ่านไป ฉันต้องการบอกว่าใช้การยกน้ำหนักแบบเอกซ์โปเนนเชียลของแถวของข้อมูลที่ใหม่กว่า ดังนั้นฉันจะมีฟังก์ชันเลขชี้กำลังบางส่วนที่บอกว่าการสังเกตในปี 2558 มีความสำคัญมากกว่า ___ ในการฝึกอบรมแบบจำลองมากกว่าการสังเกตในปี 2012 ตัวแปรชุดข้อมูลของฉันมีการผสมผสานของค่าหมวดหมู่และตัวเลขและเป้าหมายของฉันคือค่าตัวเลข - หากเป็นสิ่งสำคัญ ฉันต้องการทดสอบ / ลองใช้โมเดลเช่น GBM / Random Forest โดยเฉพาะในแพ็คเกจ CARET ปรับปรุงคำถาม ฉันขอขอบคุณคำตอบที่ระบุไว้ด้านล่างเกี่ยวกับวิธีลดน้ำหนักแบบเอ็กซ์โปเนนเชียลตามระยะทางวันที่ระหว่างจุดสองจุด อย่างไรก็ตามเมื่อพูดถึงการฝึกอบรมรุ่นนี้ด้วยคาเร็ตน้ำหนักตัวประกอบมีอะไรกันแน่? ค่าน้ำหนักในแต่ละแถวการฝึกอบรมคือระยะห่างระหว่างบางจุดในอนาคตและเมื่อจุดนั้นเกิดขึ้นในอดีต น้ำหนักมีการเล่นเฉพาะในระหว่างการทำนายหรือไม่? เพราะถ้าพวกเขาเข้ามาในระหว่างการฝึกซ้อมนั่นจะไม่ทำให้เกิดปัญหาทุกอย่างเพราะ cross-folds ต่าง ๆ จะมีน้ำหนักต่างกันพยายามที่จะทำนายบางสิ่งที่อาจมีอยู่ก่อนหน้านี้ใช่ไหม?

2
เหตุใดจึงใช้เกณฑ์ข้อมูล (ไม่ได้ปรับ ) เพื่อเลือกลำดับความล่าช้าที่เหมาะสมในรุ่นอนุกรมเวลา
ในโมเดลอนุกรมเวลาเช่น ARMA-GARCH เพื่อเลือกความล่าช้าหรือลำดับของเกณฑ์ข้อมูลที่แตกต่างกันของโมเดลเช่น AIC, BIC, SIC เป็นต้น คำถามของฉันง่ายมากเหตุใดเราจึงไม่ใช้การปรับเพื่อเลือกรุ่นที่เหมาะสม เราสามารถเลือกรูปแบบที่นำไปสู่มูลค่าที่สูงขึ้นของการปรับ 2 เนื่องจากทั้งสองปรับและเกณฑ์ข้อมูลลงโทษสำหรับจำนวน regressors เพิ่มเติมในรูปแบบที่ซึ่งอดีตลงโทษและต่อมาลงโทษค่าโอกาส R2R2R^2R2R2R^2R2R2R^2R2R2R^2

2
ใช้ LSTM ที่ดีที่สุดสำหรับการทำนายเหตุการณ์ตามลำดับ
สมมติลำดับ 1 มิติต่อไปนี้: A, B, C, Z, B, B, #, C, C, C, V, $, W, A, % ... ตัวอักษรA, B, C, ..ที่นี่เป็นตัวแทนของเหตุการณ์ 'ธรรมดา' สัญลักษณ์#, $, %, ...ที่นี่แสดงถึงกิจกรรม 'พิเศษ' การเว้นวรรคชั่วคราวระหว่างเหตุการณ์ทั้งหมดนั้นไม่เหมือนกัน (ทุกอย่างจากไม่กี่วินาทีไปจนถึงหลายวัน) แม้ว่าเหตุการณ์ในอดีตที่ผ่านมามีความเป็นไปได้น้อยที่จะมีอิทธิพลต่อเหตุการณ์ในอนาคต เป็นการดีที่ฉันสามารถคำนึงถึงความล่าช้าเหล่านี้อย่างชัดเจน มีคำสั่งของประเภทเหตุการณ์ปกติ 10,000 ประเภทและลำดับเหตุการณ์พิเศษ 100 ชนิด จำนวนของกิจกรรมทั่วไปก่อนหน้ากิจกรรมพิเศษจะแตกต่างกันไป แต่ไม่น่าจะมากกว่า 100-300 โดยพื้นฐานฉันสนใจที่จะมองหารูปแบบในลำดับเหตุการณ์ปกติที่จบลงด้วยการทำนายเหตุการณ์พิเศษ ตอนนี้คุณสามารถเข้าถึงสิ่งนี้ได้หลายวิธี: การสร้างคุณสมบัติเวกเตอร์ + การจำแนกมาตรฐานการเรียนรู้กฎการเชื่อมโยง HMM ฯลฯ ในกรณีนี้ฉันอยากรู้ว่าเครือข่ายที่ใช้ LSTM …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.