สถิติและข้อมูลขนาดใหญ่ time-series

1

การถดถอยป่าแบบสุ่มสำหรับการทำนายอนุกรมเวลา

ฉันพยายามใช้การถดถอยแบบ RF เพื่อคาดการณ์ประสิทธิภาพของโรงสีกระดาษ ฉันมีข้อมูลแบบนาทีต่อนาทีสำหรับอินพุต (อัตราและปริมาณของเยื่อไม้ที่เข้ามาใน ฯลฯ .. ) รวมถึงประสิทธิภาพของเครื่อง (กระดาษที่ผลิตพลังงานจากเครื่อง) และกำลังคาดการณ์ 10 นาที ล่วงหน้าเกี่ยวกับตัวแปรประสิทธิภาพ ฉันมีข้อมูล 12 เดือนดังนั้นได้แยกเป็นชุดฝึกอบรม 11 เดือนและเดือนสุดท้ายสำหรับการทดสอบ จนถึงตอนนี้ฉันได้สร้างคุณสมบัติใหม่ 10 รายการซึ่งมีค่าความล่าช้า 1-10 นาทีสำหรับตัวแปรประสิทธิภาพแต่ละตัวและใช้สิ่งเหล่านี้รวมทั้งอินพุตเพื่อทำการคาดการณ์ ประสิทธิภาพของชุดทดสอบค่อนข้างดี (ระบบสามารถคาดเดาได้ค่อนข้างมาก) แต่ฉันกังวลว่าฉันขาดอะไรบางอย่างในการเข้าใกล้ ตัวอย่างเช่นในบทความนี้ผู้เขียนระบุวิธีการของพวกเขาในการทดสอบความสามารถในการทำนายของรูปแบบป่าสุ่ม การจำลองดำเนินการโดยเพิ่มสัปดาห์ใหม่ของข้อมูลฝึกอบรมโมเดลใหม่โดยใช้ข้อมูลที่อัปเดตและคาดการณ์จำนวนการระบาดของสัปดาห์ถัดไป สิ่งนี้แตกต่างจากการใช้ข้อมูล 'ภายหลัง' ในอนุกรมเวลาเป็นการทดสอบอย่างไร ฉันควรตรวจสอบความถูกต้องของแบบจำลองการถดถอย RF ด้วยวิธีนี้เช่นเดียวกับชุดข้อมูลการทดสอบหรือไม่ นอกจากนี้วิธีการ 'autoregressive' แบบสุ่มเพื่อการถดถอยป่าแบบนี้ใช้ได้กับอนุกรมเวลาและฉันจำเป็นต้องสร้างตัวแปรที่ล้าหลังจำนวนมากหรือไม่ถ้าฉันสนใจการทำนาย 10 นาทีในอนาคต?

10 time-series forecasting cross-validation random-forest autoregressive

1

การพล็อตค่าที่คาดการณ์ไว้ในอนุกรมเวลา ARIMA ใน R

มีความเป็นไปได้มากกว่าหนึ่งความเข้าใจผิดที่ร้ายแรงในคำถามนี้ แต่มันไม่ได้หมายถึงการได้รับการคำนวณที่ถูกต้อง แต่เพื่อกระตุ้นการเรียนรู้ของอนุกรมเวลาที่มีความสำคัญในใจ ในการพยายามที่จะเข้าใจการประยุกต์ใช้อนุกรมเวลาดูเหมือนว่าการตัดแนวโน้มข้อมูลทำให้การคาดการณ์ค่าในอนาคตไม่น่าเชื่อถือ ตัวอย่างเช่นgtempอนุกรมเวลาจากastsaแพ็คเกจมีลักษณะดังนี้: แนวโน้มสูงขึ้นในทศวรรษที่ผ่านมาจะต้องมีการแยกตัวประกอบในเมื่อวางแผนการทำนายค่าในอนาคต อย่างไรก็ตามเพื่อประเมินความผันผวนของอนุกรมเวลาข้อมูลจำเป็นต้องถูกแปลงเป็นอนุกรมเวลาคงที่ ถ้าผมรูปแบบมันเป็นกระบวนการ ARIMA กับ differencing (ฉันเดานี้จะดำเนินการเพราะของกลาง1ในorder = c(-, 1, -)) เช่น: require(tseries); require(astsa) fit = arima(gtemp, order = c(4, 1, 1)) แล้วพยายามทำนายค่าในอนาคต ( ปี) ฉันคิดถึงองค์ประกอบแนวโน้มสูงขึ้น:505050 pred = predict(fit, n.ahead = 50) ts.plot(gtemp, pred$pred, lty = c(1,3), col=c(5,2)) โดยไม่จำเป็นต้องสัมผัสกับการเพิ่มประสิทธิภาพที่แท้จริงของพารามิเตอร์ ARIMA โดยเฉพาะ ฉันจะกู้คืนแนวโน้มขาขึ้นในส่วนที่คาดการณ์ของพล็อตได้อย่างไร ฉันสงสัยว่าจะมี "ซ่อน" ของ …

10 r time-series data-visualization

1

เส้นโค้งเป็นระยะเพื่อให้พอดีกับข้อมูลเป็นระยะ

ในความคิดเห็นสำหรับคำถามนี้ผู้ใช้ @whuber อ้างถึงความเป็นไปได้ของการใช้เส้นโค้งรุ่นเป็นระยะเพื่อให้พอดีกับข้อมูลเป็นระยะ ฉันต้องการทราบเพิ่มเติมเกี่ยวกับวิธีนี้โดยเฉพาะอย่างยิ่งสมการที่กำหนดเส้นโค้งและวิธีการนำไปใช้ในทางปฏิบัติ (ส่วนใหญ่ฉันเป็นRผู้ใช้ แต่ฉันสามารถทำกับ MATLAB หรือ Python หากจำเป็นต้องเกิดขึ้น) นอกจากนี้ แต่นี่เป็น "ดีที่มี" มันจะเป็นการดีที่ได้ทราบเกี่ยวกับข้อดี / ข้อเสียที่เป็นไปได้เกี่ยวกับการปรับพอดีตรีโกณมิติเกี่ยวกับวิชาตรีโกณมิติซึ่งเป็นวิธีที่ฉันมักจะจัดการกับข้อมูลประเภทนี้ (เว้นแต่การตอบสนองจะไม่ราบรื่นมาก ในกรณีนี้ฉันสลับไปใช้กระบวนการ Gaussian ด้วยเคอร์เนลเป็นระยะ)

10 regression time-series seasonality splines

2

ข้อกำหนดเบื้องต้นทางคณิตศาสตร์และสถิติเพื่อทำความเข้าใจตัวกรองอนุภาค?

ฉันกำลังพยายามทำความเข้าใจกับตัวกรองอนุภาคและการใช้งานที่เป็นไปได้ในด้านการเงินและฉันกำลังดิ้นรนไม่น้อย สิ่งที่จำเป็นต้องมีทางคณิตศาสตร์และสถิติที่ฉันควรกลับมา (มาจากพื้นหลังในด้านการเงินเชิงปริมาณ) เพื่อ (i) ทำให้พื้นฐานของตัวกรองอนุภาคสามารถเข้าถึงได้และ (ii) เข้าใจในภายหลังอย่างละเอียด? ฉันมีความรู้ที่ดีเกี่ยวกับเศรษฐมิติอนุกรมเวลาระดับบัณฑิตศึกษายกเว้นโมเดลอวกาศของรัฐซึ่งฉันยังไม่ได้ครอบคลุม คำแนะนำใด ๆ ที่ชื่นชมมาก!

10 time-series particle-filter

1

การสร้างแบบจำลองอนุกรมเวลาไบนารีที่สัมพันธ์กันโดยอัตโนมัติ

อะไรคือวิธีปกติในการสร้างแบบจำลองอนุกรมเวลาไบนารี? มีกระดาษหรือหนังสือที่มีการรักษาไหม? ฉันคิดว่ากระบวนการแบบไบนารีที่มีความสัมพันธ์แบบอัตโนมัติที่แข็งแกร่ง บางอย่างเช่นสัญลักษณ์ของกระบวนการ AR (1) เริ่มต้นที่ศูนย์ Sayและ มีสัญญาณรบกวนสีขาว\ epsilon_t จากนั้นอนุกรมเวลาแบบไบนารี่(Y_t) _ {t \ ge 0} ที่กำหนดโดย Y_t = \ text {sign} (X_t) จะแสดงความสัมพันธ์อัตโนมัติซึ่งฉันต้องการแสดงด้วยรหัสต่อไปนี้X0= 0X0=0X_0 = 0Xt + 1= β1Xเสื้อ+ ϵเสื้อ,Xt+1=β1Xt+ϵt, X_{t+1} = \beta_1 X_t + \epsilon_t, εเสื้อϵt\epsilon_t( Yเสื้อ)t ≥ 0(Yt)t≥0(Y_t)_{t \ge 0}Yเสื้อ= sign ( Xเสื้อ)Yt=sign(Xt) Y_t = \text{sign}(X_t) set.seed(1) …

10 regression time-series logistic binary-data autoregressive

3

การทดสอบทางสถิติเพื่อตรวจสอบเมื่ออนุกรมเวลาสองชุดที่คล้ายกันเริ่มแตก

จากชื่อฉันต้องการทราบว่ามีการทดสอบทางสถิติที่สามารถช่วยฉันระบุความแตกต่างที่สำคัญระหว่างอนุกรมเวลาสองชุดที่คล้ายกันได้หรือไม่ โดยเฉพาะเมื่อดูรูปด้านล่างฉันต้องการตรวจสอบว่าซีรีย์เริ่มเบี่ยงเบนเวลา t1 คือเมื่อความแตกต่างระหว่างพวกเขาเริ่มมีนัยสำคัญ ยิ่งกว่านั้นฉันจะตรวจจับเมื่อความแตกต่างระหว่างซีรีย์กลับมามีความหมายไม่มาก มีการทดสอบทางสถิติที่มีประโยชน์ในการทำเช่นนี้หรือไม่?

10 time-series statistical-significance variance convergence trend

2

การวิเคราะห์องค์ประกอบหลักสามารถนำมาใช้กับราคาหุ้น / ข้อมูลที่ไม่คงที่ได้หรือไม่?

ฉันอ่านตัวอย่างที่กำหนดในหนังสือเครื่องเรียนรู้สำหรับแฮกเกอร์ ฉันจะทำอย่างละเอียดในตัวอย่างก่อนแล้วพูดคุยเกี่ยวกับคำถามของฉัน ตัวอย่าง : ใช้ชุดข้อมูลเป็นเวลา 10 ปีของราคาหุ้น 25 ใช้ PCA ในราคาหุ้น 25 เปรียบเทียบองค์ประกอบหลักกับดัชนี Dow Jones สังเกตความคล้ายคลึงกันที่แข็งแกร่งระหว่าง PC และ DJI! จากสิ่งที่ฉันเข้าใจตัวอย่างเป็นเหมือนของเล่นที่ช่วยให้มือใหม่อย่างฉันเข้าใจว่าเครื่องมือ PCA นั้นมีประสิทธิภาพเพียงใด! อย่างไรก็ตามการอ่านจากแหล่งข้อมูลอื่นฉันเห็นว่าราคาหุ้นไม่คงที่และใช้ PCA ในราคาหุ้นนั้นเป็นเรื่องไร้สาระ แหล่งที่มาจากที่ฉันอ่านเยาะเย้ยความคิดทั้งหมดของการคำนวณความแปรปรวนร่วมและ PCA สำหรับราคาหุ้น คำถาม : ตัวอย่างทำงานได้ดีอย่างไร PCA ของราคาหุ้นและ DJI นั้นใกล้กันมาก และข้อมูลนั้นเป็นข้อมูลจริงจากราคาหุ้น 2545-2554 ใครบางคนสามารถบอกให้ฉันทราบถึงแหล่งข้อมูลที่ดีสำหรับการอ่านข้อมูลที่อยู่กับที่ / ไม่อยู่นิ่ง ฉันเป็นโปรแกรมเมอร์ ฉันมีพื้นฐานคณิตศาสตร์ที่ดี แต่ฉันไม่ได้ทำคณิตศาสตร์อย่างจริงจังเป็นเวลา 3 ปี ฉันเริ่มอ่านอีกครั้งเกี่ยวกับสิ่งต่าง ๆ เช่นการเดินแบบสุ่ม ฯลฯ

10 time-series pca references covariance stationarity

2

ทำไมต้องใช้ Durbin-Watson แทนการทดสอบความสัมพันธ์อัตโนมัติ

การทดสอบ Durbin-Watson จะทดสอบความสัมพันธ์แบบอัตโนมัติของส่วนที่เหลือที่ล่าช้า 1 แต่จะทำการทดสอบความสัมพันธ์แบบอัตโนมัติที่ความล่าช้า 1 โดยตรง นอกจากนี้คุณสามารถทดสอบความสัมพันธ์อัตโนมัติที่ lag 2,3,4 และมีการทดสอบ portmanteau ที่ดีสำหรับการ autocorrelation ที่ความล่าช้าหลายครั้งและรับกราฟที่ดีและตีความง่าย [เช่นฟังก์ชัน acf () ใน R] Durbin-Watson นั้นไม่เข้าใจง่ายและมักให้ผลลัพธ์ที่สรุปไม่ได้ ดังนั้นทำไมจึงใช้ นี่เป็นแรงบันดาลใจจากคำถามนี้เกี่ยวกับความไม่ลงรอยกันของการทดสอบ Durbin-Watson บางอย่าง แต่แยกออกจากกันอย่างชัดเจน

10 time-series autocorrelation

1

แยกแยะระหว่างเอฟเฟกต์ระยะสั้นและระยะยาว

ฉันอ่านบทความต่อไปนี้ในกระดาษ: ความจริงที่ว่ามีความแตกต่างระหว่างค่าสัมประสิทธิ์ระยะสั้นและระยะยาวเป็นผลมาจากข้อกำหนดของเราซึ่งรวมถึงตัวแปรภายนอกที่ล่าช้า พวกเขาใช้การถดถอยในความแตกต่างแรกและรวมถึงความล่าช้าของตัวแปรตาม ตอนนี้พวกเขาโต้แย้งว่าถ้าคุณดูการประมาณค่า (เช่นเรียกการประมาณนี้ว่า ) จากผลลัพธ์นั่นคือผลระยะสั้นของต่อตัวแปรตาม นอกจากนี้พวกเขายืนยันว่าการดูที่ / (1 - การประเมินความล่าช้า) ให้ผลระยะยาวของ p กับตัวแปรตามพีพีpพีพีpพีพีp สามารถดูเอกสารได้ที่: https://www.ecb.europa.eu/pub/pdf/scpwps/ecbwp1328.pdfและการอภิปรายเกี่ยวกับผลกระทบระยะสั้น / ยาวในหน้า 20 ในเชิงอรรถ 23 ฉันไม่เข้าใจว่าทำไมคุณสามารถแยกแยะความแตกต่างระหว่างเอฟเฟ็กต์ระยะสั้นและระยะยาวของกับตัวแปรตาม หากมีคนอธิบายความคิดของพวกเขาให้ละเอียดยิ่งขึ้นมันก็จะมีประโยชน์มากพีพีp

10 regression time-series lags

1

วิธีทดสอบว่า“ สถานะก่อนหน้า” มีอิทธิพลต่อ“ สถานะต่อมา” ใน R หรือไม่

ลองนึกภาพสถานการณ์: เรามีบันทึกทางประวัติศาสตร์ (20 ปี) จากเหมืองสามแห่ง การมีเงินอยู่เพิ่มความน่าจะเป็นในการค้นหาทองคำในปีหน้าหรือไม่? วิธีทดสอบคำถามดังกล่าว นี่คือข้อมูลตัวอย่าง: mine_A <- c("silver","rock","gold","gold","gold","gold","gold", "rock","rock","rock","rock","silver","rock","rock", "rock","rock","rock","silver","rock","rock") mine_B <- c("rock","rock","rock","rock","silver","rock","rock", "silver","gold","gold","gold","gold","gold","rock", "silver","rock","rock","rock","rock","rock") mine_C <- c("rock","rock","silver","rock","rock","rock","rock", "rock","silver","rock","rock","rock","rock","silver", "gold","gold","gold","gold","gold","gold") time <- seq(from = 1, to = 20, by = 1)

10 r time-series hypothesis-testing stochastic-processes

2

มีใครเคยพบข้อมูลที่รุ่นของ ARCH และ GARCH ทำงานหรือไม่

ฉันเป็นนักวิเคราะห์ในสาขาการเงินและการประกันภัยและเมื่อใดก็ตามที่ฉันพยายามปรับให้เข้ากับแบบจำลองความผันผวนฉันได้รับผลลัพธ์ที่น่ากลัว: ส่วนที่เหลือมักจะไม่คงที่ (ในแง่ของหน่วย) และ heteroskedastic รุ่น ARCH / GARCH ทำงานกับข้อมูลประเภทอื่นได้หรือไม่? แก้ไขเมื่อวันที่ 17/4/2558 15:07 เพื่อชี้แจงบางประเด็น

10 time-series garch volatility-forecasting arch

1

การถดถอยด้วยความถี่ที่แตกต่างกัน

ฉันพยายามเรียกใช้การถดถอยอย่างง่าย แต่พบว่าตัวแปร Y ของฉันเป็นความถี่รายเดือนและตัวแปร x ถูกพบในความถี่รายปี ฉันจะขอบคุณคำแนะนำบางอย่างเกี่ยวกับวิธีการที่เหมาะสมซึ่งอาจใช้สำหรับการถดถอยด้วยความถี่ที่แตกต่างกัน ขอบคุณมาก

10 regression time-series

2

อะไรคือวิธี Box-Jenkins สำหรับกระบวนการ ARIMA

วิกิพีเดียหน้าบอกว่ากล่องเจนกินส์เป็นวิธีการที่เหมาะสมรูปแบบ ARIMA ชุดเวลา ตอนนี้ถ้าฉันต้องการให้พอดีกับแบบจำลอง ARIMA กับอนุกรมเวลาฉันจะเปิด SAS, โทรproc ARIMA, จัดหาพารามิเตอร์และ SAS จะให้ค่าสัมประสิทธิ์ AR และ MA ตอนนี้ฉันสามารถลองชุดค่าผสมของp , d , qและ SAS ที่แตกต่างกันจะให้ค่าสัมประสิทธิ์ในแต่ละกรณี ฉันเลือกชุดที่มีเกณฑ์ข้อมูล Akaike ต่ำสุดP , d, qพี,d,Qp,d,qP , d, qพี,d,Qp,d,q คำถามของฉันคือ: ฉันใช้ Box-Jenkins ในกระบวนการข้างต้นได้ที่ไหน ฉันควรจะใช้ Box-Jenkins เพื่อหาค่าประมาณหรือไม่ หรือ SAS ใช้ภายในอย่างใด?P , d, qพี,d,Qp,d,q

10 time-series arima sas aic box-jenkins

3

อนุกรมเวลาตามฤดูกาลหมายถึงอนุกรมเวลาที่อยู่กับที่หรือหยุดนิ่ง

หากฉันมีอนุกรมเวลาที่มีฤดูกาลนี่จะทำให้ซีรีส์หยุดโดยอัตโนมัติหรือไม่? สัญชาตญาณของฉัน (อาจปิด) คือมันไม่ได้ ฤดูกาลหมายถึงซีรีส์ขึ้นและลงรอบค่าคงที่ .... บางอย่างเช่นคลื่นไซน์ ดังนั้นตรรกะนี้อนุกรมเวลาที่มีฤดูกาลคือซีรีย์นิ่ง (อ่อน) (ค่าเฉลี่ยคงที่) มันผิดหรือเปล่า? ทำไม?

10 time-series stationarity seasonality

3

การวิเคราะห์อนุกรมเวลากับการเรียนรู้ของเครื่อง?

แค่คำถามทั่วไป หากคุณมีข้อมูลอนุกรมเวลาจะใช้เทคนิคอนุกรมเวลา (aka ARCH, GARCH และอื่น ๆ ) ได้อย่างไรเมื่อใช้เทคนิคการเรียนรู้ด้วยเครื่อง / สถิติ (KNN, การถดถอย) หากมีคำถามที่คล้ายกันที่มีอยู่ในการประเมินค่าข้ามจุดโปรดชี้ฉันไปทางนั้น - มองแล้วไม่สามารถหาคำถามได้

10 time-series machine-learning

คำถามติดแท็ก time-series