สถิติและข้อมูลขนาดใหญ่ forecasting

3

ฉันจะเลือกเมตริกที่ดีที่สุดในการวัดการสอบเทียบได้อย่างไร

ฉันเขียนโปรแกรมและทำการพัฒนาโดยอาศัยการทดสอบ หลังจากที่ฉันทำการเปลี่ยนแปลงรหัสของฉันฉันเรียกใช้การทดสอบของฉัน บางครั้งพวกเขาประสบความสำเร็จและบางครั้งพวกเขาก็ล้มเหลว ก่อนที่ฉันจะทำการทดสอบฉันจะเขียนตัวเลขจาก 0.01 ถึง 0.99 เพื่อให้แน่ใจว่าการทดสอบจะสำเร็จ ฉันต้องการทราบว่าฉันปรับปรุงในการทำนายว่าการทดสอบของฉันจะสำเร็จหรือล้มเหลว มันจะดีถ้าฉันสามารถติดตามว่าฉันดีกว่าที่ทำนายว่าการทดสอบจะประสบความสำเร็จในวันจันทร์หรือวันศุกร์ หากความสามารถในการทำนายความสำเร็จในการทดสอบมีความสัมพันธ์กับตัวชี้วัดอื่นที่ฉันติดตามฉันต้องการทราบ นั่นทำให้ฉันมีหน้าที่เลือกเมตริกที่ถูกต้อง ใน Superforcasting Philip Tetlock เสนอให้ใช้คะแนน Brierในการวัดว่าผู้เชี่ยวชาญสอบเทียบได้ดีเพียงใด ตัวชี้วัดที่ได้รับการเสนอชื่อในวรรณคดีก็คือกฎการให้คะแนนลอการิทึม นอกจากนี้ยังมีผู้สมัครอื่น ๆ ฉันจะตัดสินใจได้อย่างไรว่าจะใช้เมตริกใด มีการโต้เถียงกันหรือไม่ที่จะสนับสนุนกฎการให้คะแนนหนึ่งกฎเหนือกฎอื่น ๆ ?

10 forecasting decision-theory calibration scoring-rules

1

เหตุใดการพยากรณ์โมเดล ARMA จึงดำเนินการโดยตัวกรองคาลมาน

อะไรคือข้อดีของการแสดงแบบจำลอง ARMA เป็นแบบจำลองพื้นที่รัฐและการพยากรณ์โดยใช้ตัวกรองคาลมาน วิธีการนี้เป็นตัวอย่างที่ใช้ในการใช้งาน SARIMAX ของ python-statsmodels: https://github.com/statsmodels/statsmodels/tree/master/statsmodels/tsa/statespace

10 forecasting arma kalman-filter state-space-models statsmodels

2

วิธีตรวจสอบการคาดการณ์ของอนุกรมเวลา

หนึ่งในประเด็นสำคัญที่นักพยากรณ์ประสบคือถ้าซีรีส์ที่กำหนด สามารถคาดการณ์ได้หรือไม่? ฉันสะดุดกับบทความเรื่อง " เอนโทรปีในฐานะตัวบ่งชี้การพยากรณ์ของ Priori " โดย Peter Catt ที่ใช้Entropimate Entropy (ApEn) เป็นตัวชี้วัดที่สัมพันธ์กันเพื่อกำหนดชุดเวลาที่กำหนด บทความกล่าวว่า "ค่า ApEn ที่เล็กลงบ่งชี้ว่ามีโอกาสมากขึ้นที่ชุดข้อมูลจะตามด้วยข้อมูลที่คล้ายกัน (ความเป็นปกติ) ในทางกลับกันค่าที่ใหญ่กว่าของ ApEn บ่งชี้ว่าโอกาสที่ข้อมูลที่คล้ายกันซ้ำกันจะลดลง การสุ่มและความซับซ้อนของระบบ " และตามด้วยสูตรทางคณิตศาสตร์สำหรับการคำนวณ ApEn นี่เป็นวิธีการที่น่าสนใจเพราะให้ค่าตัวเลขที่สามารถใช้ในการประเมินความคาดการณ์ในแง่ที่เกี่ยวข้อง ฉันไม่รู้ว่า Entropy หมายถึงอะไรฉันกำลังอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้ มีแพคเกจที่เรียกว่าเป็นpracmaในRที่ช่วยให้คุณคำนวณ Apen เพื่อวัตถุประสงค์ในการอธิบายฉันใช้อนุกรมเวลา 3 แบบและคำนวณตัวเลข ApEn อันดับ 1:ซีรี่ส์เวลาของ AirPassenger ที่มีชื่อเสียง - ถูกกำหนดไว้สูงและเราควรคาดการณ์ได้ง่าย Series 2: Sunspot Time Series - ถูกกำหนดไว้อย่างดี แต่ควรคาดการณ์ได้น้อยกว่า …

10 time-series forecasting entropy maximum-entropy forecastability

4

การพยากรณ์อนุกรมเวลา R ด้วยเครือข่ายประสาทเทียม auto.arima และ ets

ฉันได้ยินมาบ้างเกี่ยวกับการใช้โครงข่ายประสาทเทียมในการทำนายอนุกรมเวลา ฉันจะเปรียบเทียบวิธีการพยากรณ์อนุกรมเวลาของฉัน (ข้อมูลการค้าปลีกรายวัน) ได้ดีกว่า: auto.arima (x), ets (x) หรือ nnetar (x) ฉันสามารถเปรียบเทียบ auto.arima กับ ets โดย AIC หรือ BIC แต่ฉันจะเปรียบเทียบกับเครือข่ายประสาทได้อย่างไร ตัวอย่างเช่น: > dput(x) c(1774, 1706, 1288, 1276, 2350, 1821, 1712, 1654, 1680, 1451, 1275, 2140, 1747, 1749, 1770, 1797, 1485, 1299, 2330, 1822, 1627, 1847, 1797, 1452, 1328, 2363, 1998, …

10 r neural-networks forecasting arima exponential-smoothing

3

การพยากรณ์ฟังก์ชันความหนาแน่น

ฉันกำลังทำการวิจัยเกี่ยวกับการทำนายอนุกรมเวลาของฟังก์ชันความหนาแน่นของความน่าจะเป็น เรากำลังตั้งเป้าที่จะคาดการณ์ PDF ที่ได้รับจากการสังเกตในอดีต (ปกติแล้วโดยประมาณ) PDF วิธีการพยากรณ์ที่เรากำลังพัฒนานั้นทำได้ค่อนข้างดีในการศึกษาแบบจำลอง อย่างไรก็ตามฉันต้องการตัวอย่างตัวเลขจากแอปพลิเคชันจริงเพื่อแสดงวิธีการของเราเพิ่มเติม ดังนั้นมีตัวอย่างที่เหมาะสมในแอปพลิเคชัน (การเงินเศรษฐศาสตร์ชีววิทยาวิศวกรรม ฯลฯ ) ที่มีการรวบรวมอนุกรมเวลาของ PDF และเป็นสิ่งสำคัญและยากที่จะคาดเดาชุดเวลาดังกล่าวหรือไม่

10 time-series forecasting functional-data-analysis

1

ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร

ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

2

การตีความฤดูกาลตาม ACF และ PACF

ฉันมีชุดข้อมูลที่สัญชาตญาณเชิงประจักษ์บอกว่าฉันควรคาดหวังว่าจะมีฤดูกาลประจำสัปดาห์ (เช่นพฤติกรรมในวันเสาร์และวันอาทิตย์นั้นแตกต่างจากส่วนที่เหลือของสัปดาห์) หลักฐานนี้ควรเป็นจริงกราฟกราฟความสัมพันธ์แบบอัตโนมัติไม่ควรให้ฉันระเบิดที่ความล่าช้าทวีคูณของ 7 หรือไม่? นี่คือตัวอย่างของข้อมูล: data = TemporalData[{{{2012, 09, 28}, 19160768}, {{2012, 09, 19}, 19607936}, {{2012, 09, 08}, 7867456}, {{2012, 09, 15}, 11245024}, {{2012, 09, 04}, 0}, {{2012, 09, 21}, 24314496}, {{2012, 09, 12}, 11233632}, {{2012, 09, 03}, 9886496}, {{2012, 09, 09}, 9122272}, {{2012, 09, 24}, 23103456}, {{2012, 09, …

10 time-series autocorrelation forecasting

1

ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM

ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

3

วิธีการคาดการณ์ขึ้นอยู่กับข้อมูลรวมในช่วงเวลาที่ผิดปกติ?

ฉันพยายามที่จะคาดการณ์ยอดขายของผลิตภัณฑ์ในเครื่องขายแสตมป์อัตโนมัติ ปัญหาคือเครื่องถูกเติมเต็มในช่วงเวลาที่ผิดปกติและในทุกการเติมเราสามารถบันทึกยอดขายรวมตั้งแต่การเติมครั้งสุดท้ายของเครื่อง (เช่นเราไม่มีข้อมูลการขายรายวัน) ดังนั้นโดยทั่วไปเรามีข้อมูลสำหรับยอดขายรวมในช่วงเวลาที่ไม่สม่ำเสมอ ช่วงเวลาปกติอยู่ระหว่าง 2 วันถึง 3 สัปดาห์ นี่คือข้อมูลตัวอย่างสำหรับเครื่องขายแสตมป์อัตโนมัติหนึ่งเครื่องและผลิตภัณฑ์หนึ่งรายการ: 27/02/2012 48 17/02/2012 24 09/02/2012 16 02/02/2012 7 25/01/2012 12 16/01/2012 16 05/01/2012 16 23/12/2011 4 16/12/2011 14 09/12/2011 4 02/12/2011 2 อัลกอริทึมไร้เดียงสาปัจจุบันของเราคือการคำนวณยอดขายเฉลี่ยต่อวันโดยการหารปริมาณทั้งหมดที่ขายในช่วง 90 วันที่ผ่านมา 90 คุณมีความคิดวิธีปรับปรุงการคาดการณ์ยอดขายต่อวันหรือไม่? ฉันต้องคาดการณ์สิ่งที่จะขายในการเยี่ยมชมครั้งต่อไปของเครื่อง เป็นไปได้ไหมที่จะใช้อัลกอริธึมการทำให้เรียบแบบเอกซ์โพเนนเชียลของธรรมชาติของข้อมูลของเรา? ขอบคุณล่วงหน้า! อัปเดต: ขอบคุณมากสำหรับคำตอบและความคิดเห็นทั้งหมด ให้ฉันลองเพิ่มบริบทหน่อย (กรณีธุรกิจที่อยู่เบื้องหลังคำถาม - ง่ายมากแน่นอน) เรามีตู้จำหน่ายสินค้าอัตโนมัติหลายร้อยเครื่อง ทุกวันเราต้องตัดสินใจว่าพวกเขา 20 คนไปเยี่ยมชมเพื่อเติมเงิน …

10 time-series forecasting

1

แนวปฏิบัติที่ดีเมื่อทำการพยากรณ์อนุกรมเวลา

ฉันทำงานมาหลายเดือนแล้วเกี่ยวกับการพยากรณ์โหลดระยะสั้นและการใช้ข้อมูลสภาพอากาศ / สภาพอากาศเพื่อปรับปรุงความแม่นยำ ฉันมีพื้นฐานด้านวิทยาศาสตร์คอมพิวเตอร์และด้วยเหตุนี้ฉันจึงพยายามที่จะไม่ทำผิดพลาดใหญ่ ๆ และทำการเปรียบเทียบที่ไม่เป็นธรรมกับเครื่องมือสถิติเช่นแบบจำลอง ARIMA ฉันต้องการทราบความคิดเห็นของคุณเกี่ยวกับสองสิ่ง: ฉันใช้ทั้งสองรุ่น (S) ARIMA และ (S) ARIMAX เพื่อตรวจสอบผลกระทบของข้อมูลสภาพอากาศในการพยากรณ์คุณคิดว่าจำเป็นหรือไม่ที่จะต้องใช้วิธีการปรับให้เรียบแบบเอ็กซ์โปเนนเชียล มีอนุกรมเวลา 300 ตัวอย่างรายวันฉันเริ่มจากสองสัปดาห์แรกและฉันทำการพยากรณ์ล่วงหน้า 5 วันโดยใช้รุ่นที่สร้างขึ้นด้วยฟังก์ชั่น auto.arima R (แพ็คเกจการคาดการณ์) จากนั้นฉันเพิ่มตัวอย่างอีกชุดข้อมูลของฉันและฉันสอบเทียบโมเดลอีกครั้งและฉันทำการพยากรณ์อีก 5 วันและต่อไปเรื่อย ๆ จนกว่าจะสิ้นสุดข้อมูลที่มี คุณคิดว่าวิธีการทำงานนี้ถูกต้องหรือไม่? ขอบคุณสำหรับคำแนะนำของคุณถึงแม้ว่าเป้าหมายการทำงานของเราคือบทความในวารสารวิศวกรรมศาสตร์ แต่ฉันต้องการทำงานอย่างเข้มงวดที่สุดเท่าที่จะเป็นไปได้จากมุมมองทางสถิติ

10 time-series forecasting arima

8

อัลกอริทึมใดที่สามารถใช้ในการทำนายการใช้วัสดุสิ้นเปลืองที่ได้รับข้อมูลจากการซื้อในอดีต

คิดเกี่ยวกับปัญหาที่เรียบง่าย แต่น่าสนใจฉันต้องการเขียนโค้ดบางอย่างเพื่อคาดการณ์วัสดุสิ้นเปลืองฉันจะต้องใช้ในอนาคตอันใกล้นี้เนื่องจากมีประวัติการซื้อที่ผ่านมาอย่างสมบูรณ์ ฉันแน่ใจว่าปัญหาประเภทนี้มีคำจำกัดความทั่วไปและศึกษาดีกว่า (มีคนแนะนำว่านี่เกี่ยวข้องกับแนวคิดบางอย่างในระบบ ERP และอื่น ๆ ) ข้อมูลที่ฉันมีคือประวัติการซื้อที่ผ่านมาอย่างสมบูรณ์ สมมติว่าฉันกำลังดูวัสดุกระดาษข้อมูลของฉันดูเหมือน (วันที่แผ่น): 2007-05-10 500 2007-11-11 1000 2007-12-18 1000 2008-03-25 500 2008-05-28 2000 2008-10-31 1500 2009-03-20 1500 2009-06-30 1000 2009-09-29 500 2009-12-16 1500 2010-05-31 500 2010-06-30 500 2010-09-30 1500 2011-05-31 1000 มันไม่ 'สุ่มตัวอย่าง' ในช่วงเวลาปกติดังนั้นฉันคิดว่ามันไม่มีคุณสมบัติเป็นข้อมูลอนุกรมเวลา ฉันไม่มีข้อมูลเกี่ยวกับระดับหุ้นจริงทุกครั้ง ฉันต้องการใช้ข้อมูลที่เรียบง่ายและ จำกัด นี้เพื่อคาดการณ์จำนวนกระดาษที่ฉันต้องการใน (ตัวอย่าง) 3,6,12 เดือน จนถึงตอนนี้ฉันก็รู้ว่าสิ่งที่ฉันกำลังมองหาเรียกว่าการคาดการณ์และไม่มาก …

10 time-series machine-learning forecasting

3

รวมสองชุดเวลาโดยเฉลี่ยจุดข้อมูล

ฉันต้องการรวมการคาดการณ์และการย้อนกลับ (กล่าวคือค่าที่ผ่านมาที่คาดการณ์) ของข้อมูลอนุกรมเวลาที่ตั้งค่าไว้ในอนุกรมเวลาหนึ่งโดยลดข้อผิดพลาดการคาดคะเนค่าเฉลี่ยกำลังสองลง สมมติว่าฉันมีอนุกรมเวลาตั้งแต่ 2001-2010 โดยมีช่องว่างสำหรับปี 2550 ฉันสามารถคาดการณ์ปี 2007 โดยใช้ข้อมูล 2001-2007 (เส้นสีแดง - เรียกว่า ) และกลับโดยใช้ข้อมูล 2008-2009 (สีน้ำเงินอ่อน) สาย - เรียกมันว่า )Y bYfYfY_fYbYbY_b ฉันต้องการรวมจุดข้อมูลของและเป็นจุดข้อมูลที่ระบุ Y_i ในแต่ละเดือน จะเป็นการดีที่ฉันต้องการที่จะได้รับน้ำหนักดังกล่าวว่าจะช่วยลดข้อผิดพลาดในการทำนาย Mean Squared (MSPE) ของY_iหากเป็นไปไม่ได้ฉันจะหาค่าเฉลี่ยระหว่างจุดข้อมูลของอนุกรมเวลาสองชุดได้อย่างไรY b w Y iYfYfY_fYbYbY_bwwwYiYiY_i Yi=w⋅Yf+(1−w)⋅YbYi=w⋅Yf+(1−w)⋅YbY_i = w\cdot Y_f + (1-w)\cdot Y_b เป็นตัวอย่างรวดเร็ว: tt_f <- ts(1:12, start = 2007, freq …

10 r time-series forecasting data-imputation

1

จัดทำเป็นเอกสาร / ตัวอย่างที่จำลองได้ของการประยุกต์ใช้วิธีเศรษฐมิติที่ประสบความสำเร็จในโลกแห่งความจริง?

คำถามนี้อาจฟังดูกว้างมาก แต่นี่คือสิ่งที่ฉันกำลังมองหา ฉันรู้ว่ามีหนังสือที่ยอดเยี่ยมมากมายเกี่ยวกับวิธีเศรษฐมิติและบทความเกี่ยวกับเทคนิคเศรษฐมิติที่ยอดเยี่ยมมากมาย นอกจากนี้ที่ดีเยี่ยมแม้ทำซ้ำตัวอย่างของเศรษฐที่อธิบายไว้ใน CrossValidated นี้คำถาม อันที่จริงตัวอย่างในคำถามนี้มาใกล้กับสิ่งที่ฉันกำลังมองหา สิ่งเดียวที่ขาดหายไปในตัวอย่างเหล่านั้นคือการที่พวกเขาเป็นเพียงการวิจัยรายงานโดยไม่ต้องเอ่ยถึงว่าผลของการศึกษาที่มีอาการในใด ๆการประยุกต์ใช้จริงในโลก สิ่งที่ฉันกำลังมองหาคือเอกสาร / ตัวอย่างที่สามารถจำลองได้ของการประยุกต์ใช้ทฤษฎีทางเศรษฐมิติในโลกแห่งความเป็นจริงซึ่งมีลักษณะดังต่อไปนี้: พวกเขาควรจะทำซ้ำเช่นมีคำอธิบายรายละเอียดของ (และตัวชี้ไปยัง) ข้อมูลเทคนิคทางเศรษฐมิติและรหัส นึกคิดรหัสจะเป็นภาษา R ควรมีเอกสารรายละเอียดแสดงให้เห็นว่าเทคนิคที่ประสบความสำเร็จในโลกแห่งความเป็นจริงตามการวัดที่ดีของความสำเร็จ (เช่น "เทคนิคที่ช่วยเพิ่มรายได้เพราะมันเปิดใช้การคาดการณ์ความต้องการที่ดีขึ้นและนี่คือตัวเลขที่เกี่ยวข้อง") ฉันใช้ระยะทางเศรษฐมิติค่อนข้างกว้างที่นี่ - ผมหมายถึงใด ๆ เรียงลำดับของการทำเหมืองข้อมูล , สถิติวิเคราะห์ข้อมูล , predictiion , การคาดการณ์หรือเครื่องเรียนรู้เทคนิค ปัญหาหนึ่งในการค้นหาตัวอย่างเช่น: การประยุกต์ใช้เศรษฐมิติที่ประสบความสำเร็จในการตั้งค่าเพื่อผลกำไรและเป็นกรรมสิทธิ์ดังนั้นหากเทคนิคทำงานได้ดีมันอาจจะไม่ถูกเผยแพร่ (นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งในกรณีของการซื้อขายแบบกรรมสิทธิ์ กลยุทธ์) แต่ฉันหวังว่าจะมีตัวอย่างที่เผยแพร่ซึ่งมีคุณสมบัติอย่างน้อย (2) ข้างต้นหากไม่ใช่ทั้ง (1) และ (2)

10 r machine-learning forecasting data-mining econometrics

3

การรวมอนุกรมเวลาเพื่อทำให้ดูมีความหมายมากขึ้นหรือไม่

คำถามอื่นเกี่ยวกับอนุกรมเวลาจากฉัน ฉันมีชุดข้อมูลที่ให้บันทึกรายวันของเหตุการณ์รุนแรงในโรงพยาบาลจิตเวชเป็นเวลาสามปี ด้วยความช่วยเหลือจากคำถามก่อนหน้านี้ฉันเล่นซอกับมันและมีความสุขมากขึ้นในตอนนี้ สิ่งที่ฉันมีตอนนี้คือซีรี่ส์รายวันมีเสียงดังมาก มันผันผวนอย่างรุนแรงขึ้น ๆ ลง ๆ จาก 0 ถึง 20 เท่าการใช้พล็อตเหลืองและแพ็คเกจพยากรณ์ (ซึ่งฉันสามารถแนะนำสำหรับมือใหม่อย่างฉัน) ฉันเพิ่งได้รับเส้นแบนโดยสิ้นเชิงด้วยความมั่นใจอย่างมากจากการคาดการณ์ อย่างไรก็ตามการรวมข้อมูลรายสัปดาห์หรือรายเดือนทำให้รู้สึกมากขึ้น พวกเขากวาดลงจากจุดเริ่มต้นของซีรีส์แล้วเพิ่มอีกครั้งในกลาง การวางแผนและแพ็คเกจการคาดการณ์จะสร้างสิ่งที่ดูมีความหมายมากขึ้น มันรู้สึกเหมือนโกงอยู่นิดหน่อย ฉันแค่ชอบรุ่นรวมเพราะดูดีโดยไม่มีเหตุผลจริงหรือไม่ หรือมันจะดีกว่าที่จะคำนวณค่าเฉลี่ยเคลื่อนที่และใช้เป็นพื้นฐาน? ฉันกลัวว่าฉันไม่เข้าใจทฤษฎีเบื้องหลังทั้งหมดนี้ดีพอที่จะมั่นใจในสิ่งที่ยอมรับได้

10 time-series forecasting

1

การทำนายอนุกรมเวลาโดยใช้ ARIMA กับ LSTM

ปัญหาที่ฉันจัดการคือการทำนายค่าอนุกรมเวลา ฉันกำลังดูซีรีส์ครั้งเดียวในแต่ละครั้งและตามตัวอย่างเช่น 15% ของข้อมูลอินพุตฉันต้องการทำนายค่าในอนาคต จนถึงตอนนี้ฉันเจอสองรุ่น: LSTM (หน่วยความจำระยะสั้นระยะยาวคลาสของเครือข่ายประสาทที่เกิดขึ้นอีก) ARIMA ฉันลองทั้งสองและอ่านบทความเกี่ยวกับพวกเขา ตอนนี้ฉันพยายามทำความเข้าใจให้ดีขึ้นเกี่ยวกับวิธีเปรียบเทียบทั้งสอง สิ่งที่ฉันได้พบจนถึง: LSTM ทำงานได้ดีขึ้นถ้าเราจัดการกับข้อมูลจำนวนมากและมีข้อมูลการฝึกอบรมเพียงพอในขณะที่ ARIMA จะดีกว่าสำหรับชุดข้อมูลขนาดเล็ก (ถูกต้องหรือไม่?) ARIMA ต้องการชุดพารามิเตอร์(p,q,d)ที่ต้องคำนวณตามข้อมูลในขณะที่ LSTM ไม่ต้องการตั้งค่าพารามิเตอร์ดังกล่าว อย่างไรก็ตามมีพารามิเตอร์หลายอย่างที่เราต้องปรับแต่งสำหรับ LSTM นอกเหนือจากคุณสมบัติที่กล่าวถึงข้างต้นฉันไม่สามารถหาจุดหรือข้อเท็จจริงอื่นใดที่จะช่วยให้ฉันเลือกโมเดลที่ดีที่สุดได้ ฉันจะขอบคุณจริง ๆ ถ้ามีคนช่วยฉันค้นหาบทความเอกสารหรือสิ่งอื่น ๆ (ไม่มีโชคจนถึงตอนนี้มีเพียงความคิดเห็นทั่วไปบางส่วนที่นี่และที่นั่นและไม่มีอะไรจากการทดลอง) ฉันต้องพูดถึงว่าตอนแรกฉันจัดการกับข้อมูลสตรีมมิ่ง แต่ตอนนี้ฉันกำลังใช้ชุดข้อมูล NABซึ่งรวมถึง 50 ชุดข้อมูลที่มีขนาดสูงสุด 20k จุดข้อมูล

10 time-series forecasting references arima lstm

คำถามติดแท็ก forecasting