คำถามติดแท็ก forecasting

การทำนายเหตุการณ์ในอนาคต มันเป็นกรณีพิเศษของ [การทำนาย] ในบริบทของ [อนุกรมเวลา]

1
เมื่อใดจึงต้องใช้ Exponential Smoothing vs ARIMA?
เมื่อไม่นานมานี้ฉันได้รับการฟื้นฟูความรู้ที่คาดการณ์ของฉันในขณะที่ทำงานกับการคาดการณ์รายเดือนในที่ทำงานและการอ่านหนังสือของ Rob Hyndman แต่ที่เดียวที่ฉันกำลังดิ้นรนคือเมื่อใช้แบบจำลองการทำให้เรียบชี้แจงแทน มีกฎง่ายๆที่คุณควรใช้วิธีการหนึ่งเทียบกับวิธีอื่นหรือไม่ นอกจากนี้เนื่องจากคุณไม่สามารถใช้ AIC เพื่อเปรียบเทียบทั้งสองคุณเพียงแค่ต้องไปโดย RMSE, MAE เป็นต้น? ขณะนี้ฉันเพิ่งสร้างแต่ละไม่กี่และเปรียบเทียบมาตรการข้อผิดพลาด แต่ฉันไม่แน่ใจว่ามีวิธีที่ดีกว่าที่จะใช้

3
การพัฒนารูปแบบอนุกรมเวลาที่เหมาะสมเพื่อทำนายยอดขายตามบันทึกเดือนที่ผ่านมา
ตอนนี้ฉันดำเนินธุรกิจออนไลน์มาสองปีติดต่อกันดังนั้นฉันจึงมีข้อมูลการขายรายเดือนเป็นเวลาประมาณสองปี ธุรกิจของฉันทุกเดือนได้รับผลกระทบอย่างแน่นอนจากการเปลี่ยนแปลงตามฤดูกาล (ทำได้ดีกว่าในวันคริสต์มาสเป็นต้น) และอาจมีปัจจัยอื่น ๆ ที่ฉันไม่ทราบ เพื่อที่จะทำนายยอดขายในอนาคตได้ดีขึ้นและเพื่อวัดประสิทธิภาพของแคมเปญการขายของฉันหรือผลกระทบของคู่แข่งรายใหม่ฉันต้องการที่จะพัฒนารูปแบบอนุกรมเวลาที่เหมาะสมเพื่อคาดการณ์ข้อมูลการขายปัจจุบันของฉันในอนาคต นี่คือเมื่อฉันเปรียบเทียบผลลัพธ์ของการทำนายของฉันกับผลลัพธ์จริงฉันสามารถทดสอบประสิทธิภาพของแคมเปญการขายของฉันหรือผลกระทบของคู่แข่ง คำถามของฉันคือเมื่อฉันมีข้อมูลการขาย 2 ปีมีอยู่แล้วฉันสามารถกำหนดรูปแบบอนุกรมเวลาทำนายสำหรับสิ่งนี้ได้หรือไม่ หมายเหตุ: ฉันสนใจแนวคิดพื้นหลังและทฤษฎีมากกว่าเครื่องมือกล่องดำ พูดถึงเครื่องมือฉันมี mathematica, matlab, R, Excel, Google Spreadsheet .... คุณตั้งชื่อมัน

2
การพยากรณ์อนุกรมเวลารายชั่วโมงโดยมีรายวันรายสัปดาห์และรายปี
การแก้ไขที่สำคัญ: ฉันต้องการจะพูดขอบคุณมากสำหรับเดฟและนิคจนถึงตอนนี้สำหรับคำตอบของพวกเขา ข่าวดีก็คือฉันได้วนไปทำงาน (หลักการยืมมาจากโพสต์ของศ. Hydnman ในการพยากรณ์ชุด) ในการรวมการสืบค้นที่คงค้าง: a) ฉันจะเพิ่มจำนวนการทำซ้ำสูงสุดสำหรับ auto.arima ได้อย่างไร - ดูเหมือนว่ามีตัวแปรภายนอกจำนวนมาก auto.arima กำลังกดปุ่มการทำซ้ำสูงสุดก่อนที่จะมาบรรจบกับรุ่นสุดท้าย โปรดแก้ไขฉันหากฉันเข้าใจผิด b) หนึ่งคำตอบจาก Nick เน้นว่าการคาดคะเนของฉันสำหรับช่วงเวลารายชั่วโมงนั้นมาจากช่วงเวลารายชั่วโมงเท่านั้นและไม่ได้รับอิทธิพลจากเหตุการณ์ที่เกิดขึ้นก่อนหน้านี้ในวันนั้น สัญชาตญาณของฉันจากการจัดการกับข้อมูลนี้บอกฉันว่าสิ่งนี้ไม่ควรทำให้เกิดปัญหาสำคัญ แต่ฉันเปิดรับข้อเสนอแนะเกี่ยวกับวิธีจัดการกับสิ่งนี้ c) เดฟชี้ให้เห็นว่าฉันต้องการวิธีการที่ซับซ้อนกว่านี้ในการระบุเวลารอคอย / เวลาล่าช้าโดยรอบตัวแปรตัวทำนายของฉัน ใครบ้างมีประสบการณ์กับวิธีการเขียนโปรแกรมนี้ใน R? ฉันคาดหวังว่าจะมีข้อ จำกัด แต่ฉันต้องการใช้โครงการนี้ให้ไกลที่สุดเท่าที่จะทำได้และฉันไม่สงสัยเลยว่าสิ่งนี้จะต้องใช้กับผู้อื่นที่นี่เช่นกัน d) แบบสอบถามใหม่ แต่เกี่ยวข้องกับงานที่ทำโดยอัตโนมัติ - auto.arima พิจารณาผู้จดทะเบียนเมื่อเลือกคำสั่งซื้อหรือไม่ ฉันพยายามที่จะคาดการณ์การเข้าชมร้านค้า ฉันต้องการความสามารถในการบัญชีสำหรับวันหยุดที่เคลื่อนไหวปีอธิกสุรทินและกิจกรรมประปราย บนพื้นฐานนี้ฉันรวบรวมว่า ARIMAX เป็นทางออกที่ดีที่สุดของฉันโดยใช้ตัวแปรภายนอกเพื่อลองและจำลองแบบฤดูกาลตามฤดูกาลรวมถึงปัจจัยต่างๆดังกล่าวข้างต้น ข้อมูลจะถูกบันทึกตลอด 24 ชั่วโมงทุก ๆ ชั่วโมง นี่เป็นการพิสูจน์ว่าเป็นปัญหาเนื่องจากจำนวนศูนย์ในข้อมูลของฉันโดยเฉพาะอย่างยิ่งในช่วงเวลาของวันที่เห็นปริมาณการเข้าชมต่ำมากบางครั้งก็ไม่มีเลยเมื่อเปิดร้าน นอกจากนี้เวลาเปิดทำการค่อนข้างไม่แน่นอน นอกจากนี้เวลาในการคำนวณยังมีขนาดใหญ่มากเมื่อทำการคาดการณ์ว่าเป็นอนุกรมเวลาที่สมบูรณ์หนึ่งชุดที่มีข้อมูลย้อนหลัง …

1
การวิเคราะห์ปัจจัยแบบไดนามิกเทียบกับแบบจำลองพื้นที่ของรัฐ
แพ็คเกจ MARSS ใน R เสนอฟังก์ชันสำหรับการวิเคราะห์ตัวประกอบแบบไดนามิก ในแพคเกจนี้ตัวแบบไดนามิกแฟคเตอร์ถูกเขียนเป็นรูปแบบพิเศษของแบบจำลองพื้นที่รัฐและพวกเขาคิดว่าแนวโน้มทั่วไปเป็นไปตามกระบวนการ AR (1) เนื่องจากฉันไม่คุ้นเคยกับสองวิธีนี้ฉันจึงมาพร้อมกับคำถามสองข้อ: การวิเคราะห์ปัจจัยแบบไดนามิกเป็นรูปแบบพิเศษของแบบจำลองพื้นที่ของรัฐหรือไม่ ความแตกต่างระหว่างสองวิธีคืออะไร? นอกจากนี้การวิเคราะห์ปัจจัยแบบไดนามิกไม่จำเป็นต้องถือว่าแนวโน้มทั่วไปเป็นกระบวนการ AR (1) มีแพ็คเกจใดบ้างที่อนุญาตให้มีแนวโน้มทั่วไปว่าเป็น ARIMA ตามฤดูกาล (หรือบางอย่าง) กระบวนการ?

2
รุ่นอนุกรมเวลาของความแตกต่างของบันทึกดีกว่าอัตราการเติบโตหรือไม่
บ่อยครั้งที่ฉันเห็นผู้เขียนประเมินโมเดล "ความแตกต่างของบันทึก" เช่น log(yt)−log(yt−1)=log(yt/yt−1)=α+βxtlog⁡(yt)−log⁡(yt−1)=log⁡(yt/yt−1)=α+βxt\log (y_t)-\log(y_{t-1}) = \log(y_t/y_{t-1}) = \alpha + \beta x_t ฉันเห็นนี้มีความเหมาะสมที่จะเกี่ยวข้องกับไปสู่การเปลี่ยนแปลงในอัตราร้อยละขณะที่คือ(1)y t log ( y t ) I ( 1 )xtxtx_tytyty_tlog(yt)log⁡(yt)\log (y_t)I(1)I(1)I(1) แต่ความแตกต่างของบันทึกคือการประมาณและดูเหมือนว่าเราสามารถประมาณโมเดลได้โดยไม่ต้องมีการแปลงบันทึกเช่น yt/yt−1−1=(yt−yt−1)/yt−1=α+βxtyt/yt−1−1=(yt−yt−1)/yt−1=α+βxty_t/y_{t-1} -1 = (y_t - y_{t-1}) / y_{t-1}=\alpha+\beta x_t ยิ่งไปกว่านั้นอัตราการเติบโตจะอธิบายการเปลี่ยนแปลงเปอร์เซ็นต์อย่างแม่นยำในขณะที่ความแตกต่างของบันทึกจะประมาณการเปลี่ยนแปลงเปอร์เซ็นต์เท่านั้น อย่างไรก็ตามฉันพบว่าวิธีการบันทึกความแตกต่างถูกใช้บ่อยกว่ามาก ในความเป็นจริงแล้วการใช้อัตราการเติบโตดูเหมือนว่าเหมาะสมที่จะจัดการกับความคงที่ของความแตกต่างแรก ในความเป็นจริงฉันได้พบว่าการคาดการณ์กลายเป็นแบบเอนเอียง (บางครั้งเรียกว่าปัญหาการส่งข้อมูลย้อนกลับในวรรณกรรม) เมื่อเปลี่ยนตัวแปรบันทึกกลับไปเป็นข้อมูลระดับyt/yt−1yt/yt−1y_t/y_{t-1} ประโยชน์ของการใช้ความแตกต่างของบันทึกเปรียบเทียบกับอัตราการเติบโตคืออะไร มีปัญหาใด ๆ กับการเปลี่ยนแปลงอัตราการเติบโตหรือไม่? ฉันเดาว่าฉันขาดอะไรไปไม่งั้นก็ดูเหมือนว่าจะใช้วิธีนี้บ่อยขึ้น

3
ฉันจะจัดการกับข้อมูลที่ไม่มีอยู่หรือหายไปได้อย่างไร
ฉันลองวิธีการพยากรณ์และต้องการตรวจสอบว่าวิธีการของฉันถูกต้องหรือไม่ การศึกษาของฉันเปรียบเทียบกองทุนรวมประเภทต่าง ๆ ฉันต้องการใช้ดัชนี GCC เป็นเกณฑ์มาตรฐานสำหรับหนึ่งในนั้น แต่ปัญหาคือดัชนี GCC หยุดในเดือนกันยายน 2011 และการศึกษาของฉันอยู่ระหว่างมกราคม 2546 ถึงกรกฎาคม 2557 ดังนั้นฉันจึงพยายามใช้ดัชนีอื่นดัชนี MSCI เพื่อสร้างการถดถอยเชิงเส้น แต่ปัญหาคือว่าดัชนี MSCI ขาดข้อมูลตั้งแต่เดือนกันยายน 2010 เพื่อหลีกเลี่ยงสิ่งนี้ฉันได้ทำสิ่งต่อไปนี้ ขั้นตอนเหล่านี้ใช้ได้หรือไม่ ดัชนี MSCI ไม่มีข้อมูลสำหรับเดือนกันยายน 2010 ถึงกรกฎาคม 2012 ฉัน "ให้" โดยการใช้ค่าเฉลี่ยเคลื่อนที่สำหรับการสังเกตห้าครั้ง วิธีนี้ใช้ได้หรือไม่ ถ้าเป็นเช่นนั้นฉันควรใช้การสังเกตกี่ครั้ง หลังจากประเมินข้อมูลที่ขาดหายไปฉันทำการถดถอยของดัชนี GCC (เป็นตัวแปรตาม) กับดัชนี MSCI (เป็นตัวแปรอิสระ) สำหรับช่วงเวลาที่ใช้ร่วมกันได้ (ตั้งแต่มกราคม 2550 ถึงกันยายน 2554) จากนั้นแก้ไขโมเดลจากปัญหาทั้งหมด ในแต่ละเดือนฉันจะแทนที่ x ด้วยข้อมูลจากดัชนี MSCI …

1
เมื่อใดที่ฉันจะหยุดมองหานางแบบ?
ฉันกำลังมองหาแบบจำลองระหว่างการสะสมพลังงานและสภาพอากาศ ฉันมีราคา MWatt ที่ซื้อระหว่างประเทศในยุโรปและมีค่ามากมายในสภาพอากาศ (ไฟล์ Grib) แต่ละชั่วโมงในระยะเวลา 5 ปี (2554-2558) ราคา / วัน นี่คือต่อวันเป็นเวลาหนึ่งปี ฉันมีสิ่งนี้ต่อชั่วโมงใน 5 ปี ตัวอย่างของสภาพอากาศ 3Dscatterplot ในเคลวินเป็นเวลาหนึ่งชั่วโมง ฉันมี 1,000 ค่าต่อข้อมูลต่อชั่วโมงและ 200 ข้อมูลเช่น klevin, ลม, geopential ฯลฯ ฉันพยายามที่จะคาดการณ์ราคาเฉลี่ยต่อชั่วโมงของ Mwatt ข้อมูลของฉันบนอากาศมีความหนาแน่นสูงมากค่ามากกว่า 10,000 ค่า / ชั่วโมงและมีความสัมพันธ์สูง มันเป็นปัญหาของข้อมูลขนาดใหญ่ระยะสั้น ฉันได้ลองใช้วิธี Lasso, Ridge และ SVR ด้วยราคาเฉลี่ยของ MWatt ตามผลลัพธ์และข้อมูลสภาพอากาศของฉันเป็นรายได้ ฉันใช้ข้อมูลการฝึกอบรม 70% และทดสอบ 30% หากข้อมูลการทดสอบของฉันไม่ได้คาดการณ์ …

1
ฉันควรทำอย่างไรเมื่อค่าของ AIC ต่ำและใกล้เคียงกัน?
Chris Chatfield ซึ่งมีหนังสือและเอกสารคุณภาพมากมายที่ฉันชอบอ่านใน (1) ให้คำแนะนำต่อไปนี้: ตัวอย่างเช่นควรเลือกตัวเลือกระหว่างรุ่นอนุกรมเวลาของ ARIMA ที่มีค่า AIC ต่ำและประมาณเท่ากันโดยไม่เกิดขึ้นกับ AIC ขั้นต่ำ แต่จะให้การคาดการณ์ที่ดีที่สุดสำหรับข้อมูลล่าสุดของปีที่ผ่านมา เหตุผลสำหรับคำแนะนำดังกล่าวคืออะไร? หากเป็นเสียงเหตุใดการคาดการณ์ :: auto.arima และรูทีนการพยากรณ์อื่นจึงไม่ทำตาม ยังไม่ได้ใช้งาน? มันได้รับการกล่าวถึงที่นี่ว่าจะมองหารูปแบบที่เกิดขึ้นเพียงเพื่อให้ขั้นต่ำ AIC อาจจะไม่ได้เป็นความคิดที่ดี เหตุใดตัวเลือกในการมีโมเดล ARIMA ที่มีค่าต่ำ แต่ประมาณเท่ากัน (เช่นภายใน 1 หรือ 2 ค่าของ AIC ขั้นต่ำ) ไม่ได้เป็นค่าเริ่มต้นในซอฟต์แวร์การพยากรณ์อนุกรมเวลาส่วนใหญ่n≥1n≥1n\ge1 (1) Chatfield, C. (1991) หลีกเลี่ยงข้อผิดพลาดทางสถิติ วิทยาศาสตร์สถิติ, 6 (3), 240–252 ออนไลน์ที่มีอยู่ URL: https://projecteuclid.org/euclid.ss/1177011686

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
การปรับการคาดการณ์ (การถดถอยเชิงเส้น)
การเปิดเผยอย่างเต็มรูปแบบ: ฉันไม่ใช่นักสถิติและฉันไม่ได้อ้างว่าเป็น ฉันเป็นผู้ดูแลระบบไอทีต่ำต้อย กรุณาเล่นอ่อนโยนกับฉัน :) ฉันมีหน้าที่รับผิดชอบในการรวบรวมและพยากรณ์การใช้ที่เก็บข้อมูลดิสก์สำหรับองค์กรของเรา เรารวบรวมที่เก็บข้อมูลของเราใช้เป็นรายเดือนและใช้การถดถอยเชิงเส้นแบบง่าย ๆ สิบสองเดือนสำหรับการคาดการณ์ เราใช้ข้อมูลนี้สำหรับการจัดสรรและการวางแผนค่าใช้จ่ายทุนเช่น "ตามโมเดลนี้เราจะต้องซื้อจำนวน x หากพื้นที่เก็บข้อมูลในเดือน y เพื่อตอบสนองความต้องการของเรา" ทั้งหมดนี้ทำงานได้ดีพอที่จะตอบสนองความต้องการของเรา เรามีการเคลื่อนไหวครั้งเดียวจำนวนมากในตัวเลขของเราซึ่งทำให้การคาดการณ์ไม่เป็นไปตามปกติ ตัวอย่างเช่นมีคนพบการสำรองข้อมูลเก่า 500GB ซึ่งไม่จำเป็นอีกต่อไปและลบทิ้ง ดีสำหรับพวกเขาในการเรียกคืนพื้นที่! อย่างไรก็ตามการคาดการณ์ของเราในขณะนี้ลดลงอย่างมากจากการลดลงครั้งใหญ่ในหนึ่งเดือน เรายอมรับเสมอว่าการลดลงเช่นนี้ใช้เวลา 9-10 เดือนในการสร้างแบบจำลอง แต่อาจใช้เวลานานมากหากเราเข้าสู่ฤดูการวางแผนค่าใช้จ่ายทุน ฉันสงสัยว่ามีวิธีจัดการความแปรปรวนแบบครั้งเดียวเหล่านี้หรือไม่ว่าค่าที่คาดการณ์จะไม่ได้รับผลกระทบมากนัก (เช่นความชันของเส้นไม่เปลี่ยนแปลงอย่างมาก) แต่จะนำมาพิจารณาด้วย (เช่น การเปลี่ยนแปลงครั้งเดียวในค่า y ที่เกี่ยวข้องกับจุดเฉพาะในเวลา) ความพยายามครั้งแรกของเราในการแก้ปัญหานี้ทำให้ได้ผลลัพธ์ที่น่าเกลียด (เช่นเส้นโค้งการเติบโตแบบเลขชี้กำลัง) เราทำการประมวลผลทั้งหมดของเราใน SQL Server หากมีความสำคัญ

4
การประเมินความสามารถคาดการณ์ของอนุกรมเวลา
สมมติว่าฉันมีซีรี่ส์เวลารายเดือนมากกว่า 20,000 รายการที่ครอบคลุมตั้งแต่ Jan'05 ถึง Dec'11 แต่ละเหล่านี้แสดงข้อมูลการขายทั่วโลกสำหรับผลิตภัณฑ์ที่แตกต่างกัน ถ้าหากฉันคำนวณการคาดการณ์สำหรับแต่ละคนฉันต้องการเน้นเฉพาะผลิตภัณฑ์จำนวนเล็กน้อยที่ "สำคัญ" จริงหรือไม่ ฉันสามารถจัดอันดับผลิตภัณฑ์เหล่านั้นตามรายได้รวมต่อปีและตัดรายการโดยใช้ Pareto แบบดั้งเดิม ถึงกระนั้นฉันก็ดูเหมือนว่าแม้ว่าพวกเขาจะไม่ได้มีส่วนช่วยอะไรมาก แต่ผลิตภัณฑ์บางอย่างนั้นง่ายที่จะคาดการณ์ว่าการปล่อยพวกเขาออกไปจะเป็นการตัดสินที่ไม่ดี ผลิตภัณฑ์ที่ขายมูลค่า 50 ดอลลาร์ในแต่ละเดือนในช่วง 10 ปีที่ผ่านมาอาจไม่ฟังดูมากนัก แต่มันต้องใช้ความพยายามเพียงเล็กน้อยในการสร้างการคาดการณ์เกี่ยวกับยอดขายในอนาคตที่ฉันอาจทำได้เช่นกัน สมมุติว่าฉันแบ่งผลิตภัณฑ์ออกเป็นสี่หมวดหมู่: รายได้สูง / ง่ายต่อการคาดการณ์ - รายได้ต่ำ / ง่ายต่อการคาดการณ์ - รายได้สูง / ยากต่อการคาดการณ์ - รายได้ต่ำ / ยากต่อการคาดการณ์ ฉันคิดว่ามันสมเหตุสมผลที่จะทิ้งไว้ข้างหลังเฉพาะซีรี่ส์เวลาที่เป็นของกลุ่มที่สี่ แต่ฉันจะประเมิน "การคาดการณ์" ได้อย่างไร ค่าสัมประสิทธิ์ของความแปรปรวนดูเหมือนจะเป็นจุดเริ่มต้นที่ดี แต่จะเกิดอะไรขึ้นถ้าอนุกรมเวลาของฉันแสดงฤดูกาล / การเลื่อนระดับ / เอฟเฟกต์ปฏิทิน / แนวโน้มที่แข็งแกร่ง ฉันคิดว่าฉันควรประเมินจากการสุ่มส่วนประกอบเท่านั้นและไม่ใช่หนึ่งในข้อมูล …

1
คำว่า "กระจัดกระจายก่อน" หมายถึงอะไร (FBProphet Paper)?
การอ่านกระดาษ "การพยากรณ์ในระดับ" (เครื่องมือพยากรณ์ FBProphet ให้ดูที่https://peerj.com/preprints/3190.pdf ) ฉันเจอคำว่า "กระจัดกระจายมาก่อน" ผู้เขียนอธิบายว่าพวกเขากำลังใช้ "กระจัดกระจายก่อน" ในการสร้างแบบจำลองเวกเตอร์ของอัตราการเบี่ยงเบนจากอัตราสเกลาบางซึ่งเป็นพารามิเตอร์แบบจำลองในแบบจำลองการเติบโตโลจิสติกδδ\mathbf{\delta}kkk เนื่องจากพวกเขาระบุว่าฉันเข้าใจอย่างถูกต้องหรือไม่ว่า "sparse" หมายถึงเวกเตอร์ที่มีองค์ประกอบใกล้เคียงกับศูนย์ถ้าพารามิเตอร์มีขนาดเล็ก? ฉันสับสนเพราะฉันคิดว่าองค์ประกอบเวกเตอร์ทั้งหมดจำเป็นต้องเป็นพารามิเตอร์ของการถดถอย แต่การกำหนดพวกมันแบบนั้นทำให้พารามิเตอร์และเป็นพารามิเตอร์โมเดลฟรีเท่านั้นใช่ไหมδJ∼ Laplace ( 0 , τ)δJ~Laplace(0,τ)\delta_j \sim\text{Laplace}(0,\tau)ττ\taukkkττ\tau นอกจากนี้ยังมีการใช้การกระจาย Laplace เพื่อสร้างสิ่งที่พบบ่อยก่อน ฉันไม่เข้าใจว่าทำไมจึงเป็นที่ต้องการมากกว่าเช่นการกระจายปกติ

5
วิธีแก้ไขค่าผิดปกติที่ตรวจพบเมื่อทำการพยากรณ์ข้อมูลอนุกรมเวลา?
ฉันพยายามหาวิธีแก้ไขค่าผิดปกติเมื่อฉันค้นหา / ตรวจจับพวกมันในข้อมูลอนุกรมเวลา วิธีการบางอย่างเช่น nnetar ใน R ให้ข้อผิดพลาดบางประการสำหรับอนุกรมเวลาที่มีค่าผิดปกติจำนวนมาก / มาก ฉันจัดการเพื่อแก้ไขค่าที่หายไปแล้ว แต่ผู้นอกองค์กรยังคงสร้างความเสียหายต่อการคาดการณ์ของฉัน ...

1
การตีความการสลายตัวของอนุกรมเวลาโดยใช้ TBATS จากแพ็คเกจพยากรณ์
ฉันต้องการที่จะแยกข้อมูลอนุกรมเวลาต่อไปนี้ออกเป็นฤดูกาลแนวโน้มและส่วนประกอบที่เหลือ ข้อมูลนี้เป็นข้อมูลการระบายความร้อนพลังงานทุกชั่วโมงจากอาคารพาณิชย์: TotalCoolingForDecompose.ts <- ts(TotalCoolingForDecompose, start=c(2012,3,18), freq=8765.81) plot(TotalCoolingForDecompose.ts) มีผลกระทบตามฤดูกาลรายวันและรายสัปดาห์ที่ชัดเจนดังนั้นจึงขึ้นอยู่กับคำแนะนำจาก: วิธีการสลายอนุกรมเวลาที่มีองค์ประกอบตามฤดูกาลหลายรายการ? ฉันใช้tbatsฟังก์ชั่นจากforecastแพ็คเกจ: TotalCooling.tbats <- tbats(TotalCoolingForDecompose.ts, seasonal.periods=c(24,168), use.trend=TRUE, use.parallel=TRUE) plot(TotalCooling.tbats) ซึ่งผลลัพธ์ใน: อะไรlevelและslopeส่วนประกอบของรุ่นนี้อธิบายอะไร ฉันจะได้รับtrendและremainderส่วนประกอบคล้ายกับกระดาษที่อ้างอิงโดยแพคเกจนี้ ( De Livera, Hyndman และ Snyder (JASA, 2011) )

1
การถดถอยป่าแบบสุ่มสำหรับการทำนายอนุกรมเวลา
ฉันพยายามใช้การถดถอยแบบ RF เพื่อคาดการณ์ประสิทธิภาพของโรงสีกระดาษ ฉันมีข้อมูลแบบนาทีต่อนาทีสำหรับอินพุต (อัตราและปริมาณของเยื่อไม้ที่เข้ามาใน ฯลฯ .. ) รวมถึงประสิทธิภาพของเครื่อง (กระดาษที่ผลิตพลังงานจากเครื่อง) และกำลังคาดการณ์ 10 นาที ล่วงหน้าเกี่ยวกับตัวแปรประสิทธิภาพ ฉันมีข้อมูล 12 เดือนดังนั้นได้แยกเป็นชุดฝึกอบรม 11 เดือนและเดือนสุดท้ายสำหรับการทดสอบ จนถึงตอนนี้ฉันได้สร้างคุณสมบัติใหม่ 10 รายการซึ่งมีค่าความล่าช้า 1-10 นาทีสำหรับตัวแปรประสิทธิภาพแต่ละตัวและใช้สิ่งเหล่านี้รวมทั้งอินพุตเพื่อทำการคาดการณ์ ประสิทธิภาพของชุดทดสอบค่อนข้างดี (ระบบสามารถคาดเดาได้ค่อนข้างมาก) แต่ฉันกังวลว่าฉันขาดอะไรบางอย่างในการเข้าใกล้ ตัวอย่างเช่นในบทความนี้ผู้เขียนระบุวิธีการของพวกเขาในการทดสอบความสามารถในการทำนายของรูปแบบป่าสุ่ม การจำลองดำเนินการโดยเพิ่มสัปดาห์ใหม่ของข้อมูลฝึกอบรมโมเดลใหม่โดยใช้ข้อมูลที่อัปเดตและคาดการณ์จำนวนการระบาดของสัปดาห์ถัดไป สิ่งนี้แตกต่างจากการใช้ข้อมูล 'ภายหลัง' ในอนุกรมเวลาเป็นการทดสอบอย่างไร ฉันควรตรวจสอบความถูกต้องของแบบจำลองการถดถอย RF ด้วยวิธีนี้เช่นเดียวกับชุดข้อมูลการทดสอบหรือไม่ นอกจากนี้วิธีการ 'autoregressive' แบบสุ่มเพื่อการถดถอยป่าแบบนี้ใช้ได้กับอนุกรมเวลาและฉันจำเป็นต้องสร้างตัวแปรที่ล้าหลังจำนวนมากหรือไม่ถ้าฉันสนใจการทำนาย 10 นาทีในอนาคต?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.