คำถามติดแท็ก time-series

อนุกรมเวลาเป็นข้อมูลที่สังเกตได้ตลอดเวลา

2
คุณใช้การยกกำลังเลขชี้กำลังแบบง่ายใน R ได้อย่างไร?
ฉันเป็นผู้เริ่มต้นใน R คุณช่วยอธิบายวิธีใช้ ses ในแพ็คเกจพยากรณ์ของ R forecast ได้ไหม ฉันต้องการเลือกจำนวนของจุดเริ่มต้นและค่าคงที่แบบเรียบ d <- c(3,4,41,10,9,86,56,20,18,36,24,59,82,51,31,29,13,7,26,19,20,103,141,145,24,99,40,51,72,58,94,78,11,15,17,53,44,34,12,15,32,14,15,26,75,110,56,43,19,17,33,26,40,42,18,24,69,18,18,25,86,106,104,35,43,12,4,20,16,8) ผมมี 70 คาบ, ผมอยากใช้ 40 คาบสำหรับค่าเริ่มต้นและ 30 สำหรับตัวอย่างที่ไม่อยู่ ses(d, h=30, level=c(80,95), fan=FALSE,initial=c("simple"), alpha=.1) ถูกต้องหรือไม่

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

3
รูปแบบใดที่สามารถใช้เมื่อมีการละเมิดสมมติฐานความแปรปรวนคงที่
เนื่องจากเราไม่สามารถพอดีกับแบบจำลอง ARIMA เมื่อมีการละเมิดสมมติฐานความแปรปรวนคงที่รูปแบบใดที่สามารถใช้เพื่อให้พอดีกับอนุกรมเวลาแบบไม่แปร

4
วิธีปรับให้พอดีกับแบบจำลองสำหรับอนุกรมเวลาที่มีค่าผิดปกติ
ฉันได้ติดตั้งแบบจำลอง ARIMA (5,1,2) โดยใช้auto.arima()ฟังก์ชั่นใน R และโดยลำดับการค้นหาเราสามารถพูดได้ว่านี่ไม่ใช่แบบจำลองที่ดีที่สุดในการคาดการณ์ หากมีค่าผิดปกติอยู่ในชุดข้อมูลวิธีการใดที่จะพอดีกับแบบจำลองกับข้อมูลดังกล่าว

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
รูปแบบใดสำหรับชุดข้อมูลที่ท้าทาย (ซีรีย์หลายร้อยครั้งพร้อมการซ้อนจำนวนมาก)
ฉันมีชุดข้อมูลที่ค่อนข้างซับซ้อนในการวิเคราะห์และฉันไม่สามารถหาวิธีแก้ปัญหาที่ดีได้ นี่คือสิ่งที่: 1.ข้อมูลดิบเป็นแมลงบันทึกเพลงเป็นหลัก เพลงแต่ละเพลงทำจากระเบิดหลายครั้งและแต่ละเพลงทำจากชุดย่อย บุคคลทั้งหมดได้รับการบันทึกเป็นเวลา 5 นาที จำนวนระเบิดและตำแหน่งในการบันทึกอาจแตกต่างกันมากระหว่างบุคคลเช่นเดียวกับจำนวนหน่วยย่อยต่อการระเบิด 2.ฉันมีความถี่ผู้ให้บริการ (ความถี่พื้นฐาน) ของแต่ละหน่วยย่อยและนั่นคือสิ่งที่ฉันต้องการวิเคราะห์ ปัญหาของฉัน: 1.ความถี่ภายในการระเบิดไม่ชัดเจน (แม้ว่าจะค่อนข้างเสถียร แต่ความถี่ของหน่วยย่อย n-1 จะมีผลกับหน่วยย่อย n) 2.การระเบิดยังไม่ขึ้นอยู่กับการบันทึก 3.พวกเขามีความอิสระน้อยลงเมื่อความถี่ลดลงตามเวลา (แต่ละคนเบื่อที่จะร้องเพลงดังนั้นความถี่ของเพลงจึงลดลงและลดลง) หยดดูเหมือนจะเป็นเส้นตรง 4. การทำรัง = ฉันมีประชากรซ้ำกัน 3 แห่งสำหรับสองแห่งคือ A และ B ดังนั้นฉันจึงมี A1, A2, A3 และ B1, B2, B3 สิ่งที่ฉันต้องการจะทำ: 1.อธิบายความแตกต่างของความถี่ระหว่างสถานที่สองแห่งของฉัน (ทดสอบทางสถิติ) 2.ระบุความถี่ที่ลดลงระหว่างสองตำแหน่ง (ดูว่ามันลดลงเร็วกว่าหนึ่งในนั้นหรือไม่) ทำอย่างไร: นั่นคือเหตุผลที่ฉันต้องการความช่วยเหลือ: ฉันไม่รู้ ดูเหมือนว่ากรณีของฉันรวมปัญหาที่มักไม่เห็นด้วยกัน ฉันได้อ่านเกี่ยวกับโมเดลผสม, เกี่ยวกับ …

3
Spline df selection ในปัญหาโมเดลเสริมปัวซองทั่วไป
ฉันได้รับการกระชับข้อมูลอนุกรมเวลาโดยใช้รูปแบบการเติมแต่งทั่วไป Poisson ใช้ PROC GAMSAS โดยทั่วไปฉันมีกระบวนการตรวจสอบข้ามแบบทั่วไปในตัวแล้วสร้าง "จุดเริ่มต้น" ที่ดีสำหรับเส้นโค้งเดี่ยวของฉันซึ่งเป็นฟังก์ชันที่ไม่ใช่เชิงเส้นของเวลาพร้อมกับคำพารามิเตอร์เดียว (อันที่ฉัน สนใจจริงๆ) จนถึงตอนนี้มันทำงานได้ค่อนข้างว่ายน้ำยกเว้นหนึ่งในชุดข้อมูลของฉัน มีการสังเกตในชุดข้อมูล 132 ชุดและ GCV แนะนำให้มีอิสระในระดับ 128 องศา ดูเหมือนว่า ... ผิด ผิดมาก ที่สำคัญมันยังไม่เสถียรเลย ฉันลองวิธีที่สองโดยใช้บางอย่างเช่น "เปลี่ยนค่าประมาณ" เพื่อหยุดเพิ่มองศาอิสระเมื่อการประมาณค่าพารามิเตอร์หยุดหยุดการเปลี่ยนแปลงเพราะเหตุใดจึงต้องเพิ่มการควบคุมหากไม่มีอะไรแตกต่างกัน ปัญหาคือว่าการประมาณการไม่เสถียรเลย ฉันลองใช้องศาอิสระดังต่อไปนี้และอย่างที่คุณเห็นคำศัพท์เกี่ยวกับพารามิเตอร์จะเด้งไปมาอย่างดุเดือด: DF: Parametric Estimate: 1 -0.76903 2 -0.56308 3 -0.47103 4 -0.43631 5 -0.33108 6 -0.1495 7 0.0743 8 0.33459 9 0.62413 10 …

1
ปรับการเติบโตตามฤดูกาลในแต่ละเดือนโดยอิงตามฤดูกาลรายสัปดาห์
เป็นงานอดิเรกด้านฉันได้รับการสำรวจชุดเวลาการพยากรณ์ (โดยเฉพาะอย่างยิ่งการใช้ R) สำหรับข้อมูลของฉันฉันมีจำนวนการเข้าชมต่อวันสำหรับทุกวันย้อนกลับไปเกือบ 4 ปี ในข้อมูลนี้มีรูปแบบที่แตกต่างกัน: วันจันทร์ถึงวันศุกร์มีการเข้าชมจำนวนมาก (สูงสุดในวันจันทร์ / อังคาร) แต่มีน้อยกว่าในวันเสาร์ - อาทิตย์ บางครั้งของปีลดลง (เช่นการเข้าชมน้อยกว่ามากในช่วงวันหยุดของสหรัฐอเมริกาในช่วงฤดูร้อนแสดงการเติบโตน้อยลง) การเติบโตที่สำคัญปีต่อปี มันเป็นเรื่องดีที่จะสามารถคาดการณ์ปีที่จะมาถึงของข้อมูลนี้และใช้เพื่อปรับปรุงการเติบโตแบบเดือนต่อเดือน สิ่งสำคัญที่ทำให้ฉันมีมุมมองรายเดือนคือ: บางเดือนจะมีจันทร์ / อังคารมากกว่าเดือนอื่น ๆ (ซึ่งไม่สอดคล้องกันในช่วงหลายปีที่ผ่านมา) ดังนั้นเดือนที่เกิดขึ้นกับวันธรรมดาจะต้องมีการปรับตาม การสำรวจสัปดาห์ก็ดูเหมือนยากเนื่องจากระบบการกำหนดหมายเลขสัปดาห์เปลี่ยนจาก 52-53 ขึ้นอยู่กับปีและดูเหมือนว่าtsจะไม่จัดการเรื่องนั้น ฉันไตร่ตรองโดยเฉลี่ยในวันธรรมดาของเดือน แต่หน่วยผลลัพธ์นั้นค่อนข้างแปลก (การเติบโตในอัตราเฉลี่ยการเข้าชมวันทำงาน) และนั่นจะเป็นการทิ้งข้อมูลที่ถูกต้อง ฉันรู้สึกว่าข้อมูลประเภทนี้จะเป็นเรื่องธรรมดาในอนุกรมเวลา (เช่นการใช้ไฟฟ้าในอาคารสำนักงานอาจเป็นแบบนี้) ทุกคนมีคำแนะนำเกี่ยวกับวิธีการสร้างแบบจำลองโดยเฉพาะใน R? ข้อมูลที่ฉันทำงานด้วยนั้นค่อนข้างตรงไปตรงมามันเริ่มต้นจาก: [,1] 2008-10-05 17607 2008-10-06 36368 2008-10-07 40250 2008-10-08 39631 2008-10-09 40870 2008-10-10 35706 …

4
วิธีจัดการกับ gaps / NaNs ในข้อมูลอนุกรมเวลาเมื่อใช้ Matlab สำหรับ autocorrelation และ neural Networks
ฉันมีอนุกรมเวลาของการวัด (ซีรีย์ความสูงหนึ่งมิติ) ในช่วงเวลาการสังเกตกระบวนการวัดลงไปบางจุด ดังนั้นข้อมูลที่ได้คือเวกเตอร์ที่มี NaNs ซึ่งมีช่องว่างในข้อมูล การใช้ MATLAB ทำให้ฉันมีปัญหาเมื่อคำนวณค่าความสัมพันธ์อัตโนมัติ ( autocorr) และการใช้เครือข่ายประสาท ( nnstart) Gaps / NaN เหล่านี้ควรถูกจัดการอย่างไร? ฉันควรนำสิ่งเหล่านี้ออกจากเวกเตอร์หรือไม่ หรือแทนที่รายการของพวกเขาด้วยค่าที่แก้ไขแล้ว? (ถ้าเป็นเช่นนั้นใน MATLAB)

1
จะรวมการพยากรณ์ได้อย่างไรเมื่อตัวแปรตอบสนองในตัวแบบการพยากรณ์แตกต่างกันอย่างไร
บทนำ ในการรวมการคาดการณ์หนึ่งในโซลูชั่นยอดนิยมขึ้นอยู่กับการประยุกต์ใช้เกณฑ์ข้อมูลบางอย่าง การยกตัวอย่างเช่น Akaike เกณฑ์โดยประมาณสำหรับรุ่นหนึ่งสามารถคำนวณความแตกต่างของจากแล้วRP_j = E ^ {(AIC ^ * - AIC_j) / 2}อาจจะตีความว่าเป็น ความน่าจะเป็นแบบสัมพัทธ์ของ model jเป็นค่าจริง น้ำหนักนั้นถูกกำหนดเป็นAICjAICjAIC_jjjjAICjAICjAIC_jAIC∗=minjAICjAIC∗=minjAICjAIC^* = \min_j{AIC_j}RPj=e(AIC∗−AICj)/2RPj=e(AIC∗−AICj)/2RP_j = e^{(AIC^*-AIC_j)/2}jjj wj=RPj∑jRPjwj=RPj∑jRPjw_j = \frac{RP_j}{\sum_j RP_j} ปัญหา ความยากลำบากที่ฉันพยายามเอาชนะคือแบบจำลองนั้นประมาณจากตัวแปรตอบสนอง (ภายนอก) ที่แปรเปลี่ยนไป ตัวอย่างเช่นบางรุ่นขึ้นอยู่กับอัตราการเติบโตประจำปีและอีกรุ่น - จากอัตราการเติบโตรายไตรมาส ดังนั้นค่าAIC_j ที่แยกออกมาAICjAICjAIC_jจะไม่สามารถเปรียบเทียบกันได้โดยตรง พยายามแก้ปัญหา เนื่องจากสิ่งที่สำคัญคือความแตกต่างของAICAICAICที่สามารถใช้AICของโมเดลพื้นฐานAICAICAIC(ตัวอย่างเช่นฉันพยายามแยกlm(y~-1)โมเดลโดยไม่มีพารามิเตอร์ใด ๆ ) ที่ไม่แปรเปลี่ยนไปจากการตอบสนองการแปลงตัวแปรการตอบสนองแล้วเปรียบเทียบความแตกต่างระหว่างโมเดลjjj th และ ฐานรูปแบบAICAICAICAICนี่ แต่มันดูเหมือนว่ายังคงเป็นจุดที่อ่อนแอ - ความแตกต่างเป็นผลกระทบจากการเปลี่ยนแปลงของตัวแปรการตอบสนอง สรุปข้อสังเกต หมายเหตุตัวเลือกเช่น "ประมาณโมเดลทั้งหมดในตัวแปรตอบกลับเดียวกัน" …

2
ฉันสามารถเชื่อถือการถดถอยได้หรือไม่หากตัวแปรเกี่ยวข้องอัตโนมัติ
ตัวแปรทั้งสอง (ขึ้นอยู่กับและเป็นอิสระ) แสดงผลของความสัมพันธ์อัตโนมัติ ข้อมูลเป็นอนุกรมเวลาและเครื่องเขียน เมื่อฉันเรียกใช้ส่วนที่เหลือถดถอยจะไม่สัมพันธ์ สถิติ Durbin-Watson ของฉันมีค่ามากกว่าค่าวิกฤตที่สำคัญดังนั้นจึงมีหลักฐานว่าข้อผิดพลาดไม่มีความสัมพันธ์เชิงบวก เมื่อฉันพล็อต ACF เพื่อหาข้อผิดพลาดดูเหมือนว่าไม่มีความสัมพันธ์กันและสถิติ Ljung-Box นั้นเล็กกว่าค่าวิกฤต ฉันสามารถไว้วางใจผลลัพธ์การถดถอยของฉันได้หรือไม่สถิติ t- เชื่อถือได้หรือไม่

2
วิธีการที่ทันสมัยเพื่อค้นหาศูนย์ค่าเฉลี่ยส่วนของอนุกรมเวลา
ฉันมีอนุกรมเวลาที่มีเสียงดังซึ่งฉันต้องแบ่งส่วนออกเป็นส่วน ๆ ด้วยค่าเฉลี่ยเป็นศูนย์และส่วนที่ไม่มีค่าเฉลี่ยเป็นศูนย์ การค้นหาขอบเขตอย่างแม่นยำที่สุดเท่าที่จะเป็นไปได้มีความสำคัญ (ชัดเจนว่าขอบเขตอยู่ตรงไหนเป็นเรื่องส่วนตัว) ฉันคิดว่าตัวแปร cusum สามารถปรับให้ทำเช่นนี้ได้ แต่เนื่องจาก cusum เป็นหลักเกี่ยวกับการค้นหาการเปลี่ยนแปลงเดียวที่ทำให้กลยุทธ์การแบ่งกลุ่มทั้งหมดไม่ได้รับการแก้ไขอย่างสมบูรณ์ ฉันแน่ใจว่ามีการทำวิจัยเป็นจำนวนมากเกี่ยวกับปัญหานี้ แต่ไม่สามารถหาได้ ป.ล. จำนวนข้อมูลในอนุกรมเวลาเหล่านี้ค่อนข้างมากตัวอย่างมากถึงหลายร้อยล้านตัวอย่างและแต่ละตัวอย่างสามารถเป็นเวกเตอร์ที่มีองค์ประกอบสองร้อยชิ้นดังนั้นวิธีที่สามารถคำนวณได้อย่างรวดเร็วเป็นปัจจัยสำคัญ . PPS ไม่มีแท็กการแบ่งกลุ่มดังนั้นแท็กการจัดหมวดหมู่

1
การคำนวณด้วยตนเอง PACF
ฉันกำลังพยายามจำลองการคำนวณที่ SAS และ SPSS ทำเพื่อฟังก์ชั่นความสัมพันธ์อัตโนมัติบางส่วน (PACF) ใน SAS นั้นผลิตผ่าน Proc Arima ค่า PACF เป็นค่าสัมประสิทธิ์ของการตอบกลับอัตโนมัติของชุดดอกเบี้ยบนค่าที่ล่าช้าของชุดข้อมูล ตัวแปรที่ฉันสนใจคือการขายดังนั้นฉันจึงคำนวณ lag1, lag2 ... lag12 และฉันใช้การถดถอย OLS ต่อไปนี้: Yt=a0+a1Yt−1+a2Yt−2+a3Yt−3+…+a12Yt−12.Yt=a0+a1Yt−1+a2Yt−2+a3Yt−3+…+a12Yt−12.Y_t=a_0+a_1Y_{t-1}+a_2Y_{t-2}+a_3Y_{t-3}+\ldots+a_{12}Y_{t-12}. น่าเสียดายที่ค่าสัมประสิทธิ์ที่ฉันได้รับนั้นไม่ใกล้เคียงกับ PACF (ล่าช้า 1 ถึง 12) ที่ SAS หรือ SPSS ให้ ข้อเสนอแนะใด ๆ มีอะไรผิดปกติหรือเปล่า? สิ่งที่อยู่ในใจของฉันคือการประมาณกำลังสองน้อยที่สุดของแบบจำลองนี้อาจไม่เหมาะสมและอาจใช้เทคนิคการประมาณแบบอื่น ขอบคุณล่วงหน้า.


1
เส้นประในพล็อต ACF ใน R
ฉันกำลังอ่านหนังสือ 'Introductory Time Series with R' โดย Cowpertwait และ Metcalfe ในหน้า 36 ของมันกล่าวว่าเส้นอยู่ที่:{n} ผมเคยอ่านที่นี่ฟอรั่ม Rว่าสายอยู่ที่{n} - 1 / n ± 2 /n--√−1/n±2/n-1/n \pm 2/\sqrt{n}± 1.96 /n--√±1.96/n\pm 1.96/\sqrt{n} ฉันรันรหัสต่อไปนี้: b = c(3,1,4,1) acf(b) และผมเห็นว่าเส้นที่มีลักษณะที่จะปรากฏเป็นที่{4} เห็นได้ชัดว่าหนังสือผิด หรือฉันกำลังอ่านสิ่งที่เขียนผิด? ผู้เขียนกำลังพูดถึงสิ่งที่แตกต่างกันเล็กน้อยหรือไม่?± 1.96 /4-√±1.96/4\pm 1.96/\sqrt{4} * หมายเหตุฉันไม่สนใจข้อแตกต่างของรายละเอียดเล็กน้อย 1.96 กับ 2 ฉันคิดว่านี่เป็นเพียงผู้เขียนที่ใช้กฏของ thumb ของ 2 sd เทียบกับ …
9 r  time-series 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.