คำถามติดแท็ก forecasting

การทำนายเหตุการณ์ในอนาคต มันเป็นกรณีพิเศษของ [การทำนาย] ในบริบทของ [อนุกรมเวลา]

3
จะรู้ได้อย่างไรว่าปัญหาการเรียนรู้เครื่องของคุณสิ้นหวัง?
ลองนึกภาพสถานการณ์การเรียนรู้ของเครื่องมาตรฐาน: คุณกำลังเผชิญหน้ากับชุดข้อมูลหลายตัวแปรขนาดใหญ่และคุณมีความเข้าใจที่ไม่ชัดเจน สิ่งที่คุณต้องทำคือการคาดเดาเกี่ยวกับตัวแปรตามสิ่งที่คุณมี ตามปกติคุณจะต้องล้างข้อมูลดูสถิติเชิงพรรณนาเรียกใช้บางรุ่นตรวจสอบความถูกต้องของข้อมูลเป็นต้น แต่หลังจากผ่านไปหลายครั้งพยายามกลับไปกลับมาและลองใช้แบบจำลองหลาย ๆ แบบซึ่งดูเหมือนว่าจะไม่มีอะไรเกิดขึ้น คุณสามารถใช้เวลาหลายชั่วโมงหลายวันหรือหลายสัปดาห์สำหรับปัญหาดังกล่าว ... คำถามคือเมื่อจะหยุด? คุณจะรู้ได้อย่างไรว่าข้อมูลของคุณสิ้นหวังจริง ๆ และโมเดลแฟนซีทั้งหมดจะไม่ทำให้คุณดีไปกว่าการคาดการณ์ผลลัพธ์เฉลี่ยสำหรับทุกกรณีหรือวิธีแก้ปัญหาเล็กน้อยอื่น ๆ แน่นอนว่านี่เป็นปัญหาการคาดการณ์ แต่เท่าที่ฉันรู้มันยากที่จะประเมินการคาดการณ์สำหรับข้อมูลหลายตัวแปรก่อนที่จะลองทำบางสิ่ง หรือฉันผิด คำเตือน:คำถามนี้ได้รับแรงบันดาลใจจากคำถามนี้ เมื่อไหร่ที่ฉันจะหยุดหานางแบบ? ที่ไม่ดึงดูดความสนใจมาก มันจะดีที่มีคำตอบรายละเอียดสำหรับคำถามดังกล่าวสำหรับการอ้างอิง

1
จะใช้เครือข่ายประสาทกับการพยากรณ์อนุกรมเวลาได้อย่างไร
ฉันยังใหม่กับการเรียนรู้ของเครื่องและฉันพยายามหาวิธีใช้เครือข่ายประสาทเทียมกับการพยากรณ์อนุกรมเวลา ฉันพบทรัพยากรที่เกี่ยวข้องกับข้อความค้นหาของฉัน แต่ดูเหมือนว่าจะหายไปเล็กน้อย ฉันคิดว่าคำอธิบายพื้นฐานที่ไม่มีรายละเอียดมากเกินไปจะช่วยได้ สมมติว่าฉันมีค่าราคาสำหรับแต่ละเดือนในช่วงสองสามปีที่ผ่านมาและฉันต้องการทำนายราคาใหม่ ฉันสามารถรับรายการราคาในช่วงสองสามเดือนที่ผ่านมาและลองหาแนวโน้มที่คล้ายกันในอดีตโดยใช้ K-ใกล้เคียงที่สุด - เพื่อนบ้าน ฉันสามารถใช้อัตราการเปลี่ยนแปลงหรือคุณสมบัติอื่น ๆ ของแนวโน้มในอดีตเพื่อลองและคาดการณ์ราคาใหม่ ฉันจะใช้เครือข่ายประสาทเทียมกับปัญหาเดียวกันนี้ได้อย่างไรคือสิ่งที่ฉันพยายามค้นหา

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

10
เกิดอะไรขึ้นกับการคาดการณ์?
ฉันจำได้ว่านั่งอยู่ในหลักสูตรสถิติเนื่องจากการได้ยินในระดับปริญญาตรีว่าทำไมการคาดการณ์จึงเป็นความคิดที่ไม่ดี นอกจากนี้ยังมีแหล่งข้อมูลออนไลน์ที่หลากหลายซึ่งแสดงความคิดเห็นเกี่ยวกับเรื่องนี้ นอกจากนี้ยังมีการพูดถึงมันที่นี่นี่ ใครสามารถช่วยฉันเข้าใจว่าทำไมการอนุมานจึงเป็นความคิดที่ไม่ดี ถ้าเป็นเช่นนั้นเทคนิคการพยากรณ์ว่าไม่ถูกต้องทางสถิติอย่างไร

3
AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - ฉันสามารถใช้มันแทนกันได้หรือไม่?
บนหน้า 34 ของPRNN Brian Ripley ให้ความเห็นว่า "The AIC ได้รับการตั้งชื่อโดย Akaike (1974) ว่าเป็น 'An Information Criterion' ถึงแม้ว่าดูเหมือนว่าโดยทั่วไปเชื่อว่า A ย่อมาจาก Akaike" แน่นอนเมื่อแนะนำสถิติ AIC, Akaike (1974, p.719) อธิบายว่า "IC stands for information criterion and A is added so that similar statistics, BIC, DIC etc may follow". พิจารณาใบเสนอราคานี้เป็นคำทำนายที่ทำในปี 1974 เป็นที่น่าสนใจที่จะทราบว่าในเวลาเพียงสี่ปีสองประเภทของสถิติ BIC (Bayesian IC) ถูกเสนอโดย …

2
มันผิดปกติหรือไม่ที่ MEAN จะทำได้ดีกว่า ARIMA?
ฉันเพิ่งใช้วิธีการพยากรณ์หลายแบบ (MEAN, RWF, ETS, ARIMA และ MLPs) และพบว่า MEAN ทำได้ดีอย่างน่าประหลาดใจ (หมายถึง: ที่การคาดการณ์ในอนาคตทั้งหมดถูกคาดการณ์ว่าเท่ากับค่าเฉลี่ยเลขคณิตของค่าที่สังเกต) MEAN ยิ่งกว่า ARIMA ในสามชุดที่ฉันใช้ สิ่งที่ฉันอยากรู้คือถ้ามันผิดปกติ? นี่หมายความว่าไทม์สที่ฉันใช้แปลกหรือเปล่า? หรือสิ่งนี้บ่งชี้ว่าฉันได้ตั้งบางสิ่งผิดปกติหรือไม่?

4
ความแตกต่างระหว่างการพยากรณ์และการทำนาย?
ฉันสงสัยว่าความแตกต่างและความสัมพันธ์ระหว่างการพยากรณ์และการทำนายคืออะไร โดยเฉพาะในอนุกรมเวลาและการถดถอย ตัวอย่างเช่นฉันแก้ไขให้ถูกต้อง: ในอนุกรมเวลาการคาดการณ์ดูเหมือนว่าจะหมายถึงการประเมินค่าในอนาคตที่กำหนดให้ค่าที่ผ่านมาของอนุกรมเวลา ในการถดถอยการคาดคะเนดูเหมือนจะหมายถึงการประมาณค่าว่าเป็นข้อมูลในอนาคตปัจจุบันหรือในอดีตของข้อมูลที่ได้รับ ขอบคุณและขอแสดงความนับถือ!

6
วิธีที่ดีที่สุดสำหรับช่วงเวลาสั้น ๆ
ฉันมีคำถามที่เกี่ยวข้องกับการสร้างแบบจำลองชุดเวลาสั้น ๆ มันไม่ได้เป็นคำถามว่าจะสร้างแบบจำลองแต่ได้อย่างไร คุณจะแนะนำวิธีใดในการสร้างแบบจำลอง (มาก) ช่วงเวลาสั้น ๆ (พูดถึงความยาว ) โดย "ดีที่สุด" ฉันหมายถึงที่นี่ว่าแข็งแกร่งที่สุดนั่นคือโอกาสที่จะเกิดข้อผิดพลาดน้อยที่สุดเนื่องจากการสังเกตจำนวน จำกัด ด้วยการสังเกตแบบสั้นชุดเดียวอาจมีผลต่อการคาดการณ์ดังนั้นวิธีการนี้ควรให้การประมาณข้อผิดพลาดที่รอบคอบและความแปรปรวนที่อาจเกิดขึ้นซึ่งเชื่อมต่อกับการคาดการณ์ โดยทั่วไปฉันสนใจชุดเวลา univariate แต่ก็น่าสนใจที่จะรู้เกี่ยวกับวิธีการอื่นT≤20T≤20T \leq 20

1
การตรวจจับค่าผิดปกติในอนุกรมเวลา (LS / AO / TC) โดยใช้แพ็คเกจ tsoutliers ใน R จะแสดงค่าผิดปกติในรูปแบบสมการได้อย่างไร
ความคิดเห็นที่: ประการแรกผมอยากจะบอกว่าใหญ่ขอบคุณไปยังผู้เขียนของใหม่tsoutliersแพคเกจซึ่งดำเนินเฉินและหลิวการตรวจสอบอนุกรมเวลาค่าผิดปกติซึ่งได้รับการตีพิมพ์ในวารสารของสมาคมอเมริกันสถิติในปี 1993 อยู่ในซอฟต์แวร์โอเพนซอร์สRRRR แพ็คเกจตรวจจับค่าผิดปกติ 5 ประเภทที่ซ้ำกันในข้อมูลอนุกรมเวลา: สารเติมแต่ง (AO) นวัตกรรมล้ำหน้า (IO) Level Shift (LS) การเปลี่ยนแปลงชั่วคราว (TC) การเลื่อนระดับตามฤดูกาล (SLS) สิ่งที่ดียิ่งกว่าคือแพคเกจนี้ใช้ auto.arima จากแพ็คเกจพยากรณ์เพื่อตรวจจับค่าผิดปกติได้อย่างราบรื่น นอกจากนี้แพ็กเกจยังสร้างพล็อตที่ดีเพื่อความเข้าใจที่ดีขึ้นของข้อมูลอนุกรมเวลา ด้านล่างเป็นคำถามของฉัน: ฉันลองใช้งานตัวอย่างโดยใช้แพ็คเกจนี้และมันก็ใช้งานได้ดี ค่าผิดปกติเพิ่มเติมและการเลื่อนระดับนั้นใช้งานง่าย อย่างไรก็ตามฉันมีคำถาม 2 ข้อเกี่ยวกับการส่งค่าผิดปกติชั่วคราวและค่าผิดปกติทางนวัตกรรมซึ่งฉันไม่สามารถเข้าใจได้ ตัวอย่างการเปลี่ยนแปลงค่าผิดพลาดชั่วคราว: ลองพิจารณาตัวอย่างต่อไปนี้: library(tsoutliers) library(expsmooth) library(fma) outlier.chicken <- tsoutliers::tso(chicken,types = c("AO","LS","TC"),maxit.iloop=10) outlier.chicken plot(outlier.chicken) โปรแกรมตรวจพบการเลื่อนระดับอย่างถูกต้องและการเปลี่ยนแปลงชั่วคราวที่ตำแหน่งต่อไปนี้ Outliers: type ind time coefhat tstat 1 LS 12 …

9
ทำไมต้องใช้โมเดลการแก้ไขข้อผิดพลาดเวกเตอร์
ฉันสับสนเกี่ยวกับรูปแบบการแก้ไขข้อผิดพลาดของเวกเตอร์ ( VECM ) พื้นหลังทางเทคนิค: VECMนำเสนอความเป็นไปได้ในการใช้Vector Autoregressive Model ( VAR ) กับอนุกรมเวลาหลายตัวแปรในตัว ในตำราเรียนพวกเขาตั้งชื่อปัญหาบางอย่างในการใช้VARกับอนุกรมเวลาแบบบูรณาการสิ่งสำคัญที่สุดคือการถดถอยแบบเผด็จการ กระบวนการประเมินVECMประกอบด้วยขั้นตอนสามขั้นตอนต่อไปนี้ซึ่งเป็นขั้นตอนที่สับสนสำหรับฉันขั้นตอนแรก: ข้อมูลจำเพาะและการประมาณค่าของโมเดลVARสำหรับอนุกรมเวลาหลายตัวแปรรวม คำนวณการทดสอบอัตราส่วนความน่าจะเป็นเพื่อกำหนดจำนวนความสัมพันธ์ของการมีส่วนร่วม หลังจากกำหนดจำนวน cointegrations ให้ประเมินVECM ในขั้นตอนแรกหนึ่งประมาณการแบบจำลองVAR ที่มีจำนวนของความล่าช้าที่เหมาะสม (ใช้ความดีปกติของเกณฑ์พอดี) และตรวจสอบว่าส่วนที่เหลือสอดคล้องกับสมมติฐานของแบบจำลองหรือไม่นั่นคือการไม่มีความสัมพันธ์แบบอนุกรมและความสัมพันธ์แบบ heteroscedasticity . ดังนั้นหนึ่งการตรวจสอบว่ารูปแบบVARอย่างเหมาะสมอธิบายอนุกรมเวลาหลายตัวแปรและหนึ่งดำเนินการเพื่อขั้นตอนต่อไปถ้ามันเป็นเท่านั้น และตอนนี้สำหรับคำถามของฉัน: ถ้าแบบจำลองVARอธิบายข้อมูลได้ดีทำไมฉันต้องใช้VECMเลย? หากเป้าหมายของฉันคือการสร้างการคาดการณ์มันไม่เพียงพอที่จะประเมินVARและตรวจสอบสมมติฐานและถ้าพวกเขาบรรลุเป้าหมายเพียงใช้โมเดลนี้

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
เมื่อใดจึงเหมาะสมที่จะใช้กฎการให้คะแนนที่ไม่เหมาะสม
Merkle & Steyvers (2013) เขียน: อย่างเป็นทางการกำหนดกฎการให้คะแนนที่เหมาะสมให้จะคาดการณ์ความน่าจะเป็นของการทดลอง Bernoulliกับความสำเร็จที่แท้จริงน่าจะเป็นพีกฎการให้คะแนนตัวชี้วัดที่เหมาะสมที่มีค่าคาดว่าจะลดลงถ้าPฉฉfdddพีพีpฉ= pฉ=พีf = p ฉันเข้าใจว่าสิ่งนี้เป็นสิ่งที่ดีเพราะเราต้องการสนับสนุนนักพยากรณ์ให้สร้างการคาดการณ์ที่สะท้อนความเชื่อที่แท้จริงของพวกเขาอย่างซื่อสัตย์และไม่ต้องการให้พวกเขามีแรงจูงใจที่ผิดปกติให้ทำอย่างอื่น มีตัวอย่างของโลกแห่งความจริงที่ควรใช้กฎการให้คะแนนที่ไม่เหมาะสมหรือไม่? การอ้างอิง Merkle, EC, & Steyvers, M. (2013) การเลือกกฎการให้คะแนนที่เหมาะสมอย่างเคร่งครัด การวิเคราะห์การตัดสินใจ, 10 (4), 292-304

4
เมื่อใดที่จะเข้าสู่การแปลงอนุกรมเวลาก่อนที่จะติดตั้งแบบจำลอง ARIMA
ก่อนหน้านี้ฉันเคยใช้โปรแกรมพยากรณ์อากาศเพื่อคาดการณ์อนุกรมเวลาที่ไม่เปลี่ยนแปลง แต่ฉันเปลี่ยนเวิร์กโฟลว์ของฉันไปเป็น R แพ็คเกจพยากรณ์สำหรับ R มีฟังก์ชั่นที่มีประโยชน์มากมาย แต่สิ่งหนึ่งที่มันไม่ได้ทำคือการแปลงข้อมูลชนิดใด ๆ .arima () ในบางกรณีการคาดการณ์โปรตัดสินใจที่จะเข้าสู่ระบบการแปลงข้อมูลก่อนที่จะทำการคาดการณ์ แต่ฉันยังไม่ได้หาสาเหตุ ดังนั้นคำถามของฉันคือ: เมื่อใดที่ฉันควรเปลี่ยนชุดเวลาของฉันก่อนที่จะลองใช้วิธี ARIMA กับมัน / แก้ไข: หลังจากอ่านคำตอบของคุณฉันจะใช้สิ่งนี้โดยที่ x คืออนุกรมเวลาของฉัน: library(lmtest) if ((gqtest(x~1)$p.value < 0.10) { x<-log(x) } มันสมเหตุสมผลหรือไม่

1
คำอธิบายของ Nate Silver ที่พูดถึงเหลือง
ในคำถามที่ฉันถามเมื่อเร็ว ๆ นี้ฉันได้รับการบอกว่ามันเป็นเรื่องใหญ่ "ไม่ห้าม" ในการคาดการณ์ด้วยเหลือง แต่ในบทความล่าสุดของ Nate Silver ใน FiveThirtyEight.comเขาได้พูดคุยกันโดยใช้คำทำนายการเลือกตั้ง เขากำลังพูดถึงลักษณะเฉพาะของการคาดการณ์ที่ก้าวร้าวและอนุรักษ์นิยมกับดินเหลือง แต่ฉันอยากรู้ว่าความถูกต้องของการคาดการณ์ในอนาคตจะเป็นอย่างไร ฉันยังสนใจในการสนทนานี้และมีทางเลือกอื่นที่อาจมีประโยชน์คล้ายกับเหลือง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.