คำถามติดแท็ก time-series

อนุกรมเวลาเป็นข้อมูลที่สังเกตได้ตลอดเวลา

14
หนังสือสำหรับการวิเคราะห์อนุกรมเวลาด้วยตนเอง
ฉันเริ่มต้นด้วยการวิเคราะห์อนุกรมเวลาโดยแฮมิลตัน แต่ฉันหมดหวังอย่างสิ้นหวัง หนังสือเล่มนี้เป็นทฤษฎีจริงเกินไปที่ฉันจะเรียนรู้ด้วยตนเอง ใครบ้างมีคำแนะนำสำหรับหนังสือเรียนเกี่ยวกับการวิเคราะห์อนุกรมเวลาที่เหมาะสำหรับการศึกษาด้วยตนเอง

10
เหตุใดอนุกรมเวลาจึงต้องหยุดนิ่ง
ฉันเข้าใจว่าอนุกรมเวลาที่อยู่กับที่เป็นค่าคงที่และความแปรปรวนคงที่ตลอดเวลา มีใครช่วยอธิบายหน่อยได้ไหมว่าทำไมเราต้องทำให้แน่ใจว่าชุดข้อมูลของเราอยู่กับที่ก่อนที่เราจะสามารถเรียกใช้โมเดล ARIMA หรือ ARM ที่แตกต่างกันได้ สิ่งนี้ยังนำไปใช้กับโมเดลการถดถอยปกติที่ความสัมพันธ์อัตโนมัติและ / หรือเวลาไม่ใช่ปัจจัยหรือไม่?

14
อัลกอริทึมง่าย ๆ สำหรับการตรวจหาค่าผิดปกติทางออนไลน์ของอนุกรมเวลาทั่วไป
ฉันทำงานกับอนุกรมเวลาจำนวนมาก อนุกรมเวลาเหล่านี้โดยทั่วไปแล้วการวัดเครือข่ายมาทุก ๆ 10 นาทีและบางส่วนนั้นเป็นระยะ (เช่นแบนด์วิดท์) ในขณะที่บางส่วนไม่ได้เป็น (เช่นปริมาณการรับส่งข้อมูลเส้นทาง) ฉันต้องการอัลกอริทึมง่าย ๆ สำหรับการทำแบบออนไลน์ โดยทั่วไปฉันต้องการเก็บไว้ในหน่วยความจำ (หรือบนดิสก์) ข้อมูลประวัติทั้งหมดสำหรับแต่ละชุดเวลาและฉันต้องการตรวจสอบค่าผิดปกติใด ๆ ในสถานการณ์สด (ทุกครั้งที่มีการสุ่มตัวอย่างใหม่) วิธีที่ดีที่สุดในการบรรลุผลลัพธ์เหล่านี้คืออะไร? ฉันกำลังใช้ค่าเฉลี่ยเคลื่อนที่เพื่อลบเสียงรบกวน แต่แล้วจะทำอย่างไรต่อไป สิ่งที่เรียบง่ายเช่นค่าเบี่ยงเบนมาตรฐาน, บ้า, ... กับชุดข้อมูลทั้งหมดทำงานได้ไม่ดี (ฉันไม่สามารถคิดว่าอนุกรมเวลาคงที่) และฉันต้องการบางสิ่งที่ "แม่นยำ" ยิ่งกว่าเดิมกล่องดำแบบ: double outlier_detection (double * vector, double value); โดยที่ vector คืออาร์เรย์ของ double ที่มีข้อมูลประวัติและค่าส่งคืนคือคะแนนความผิดปกติสำหรับ "value" ตัวอย่างใหม่

1
จะใช้เครือข่ายประสาทกับการพยากรณ์อนุกรมเวลาได้อย่างไร
ฉันยังใหม่กับการเรียนรู้ของเครื่องและฉันพยายามหาวิธีใช้เครือข่ายประสาทเทียมกับการพยากรณ์อนุกรมเวลา ฉันพบทรัพยากรที่เกี่ยวข้องกับข้อความค้นหาของฉัน แต่ดูเหมือนว่าจะหายไปเล็กน้อย ฉันคิดว่าคำอธิบายพื้นฐานที่ไม่มีรายละเอียดมากเกินไปจะช่วยได้ สมมติว่าฉันมีค่าราคาสำหรับแต่ละเดือนในช่วงสองสามปีที่ผ่านมาและฉันต้องการทำนายราคาใหม่ ฉันสามารถรับรายการราคาในช่วงสองสามเดือนที่ผ่านมาและลองหาแนวโน้มที่คล้ายกันในอดีตโดยใช้ K-ใกล้เคียงที่สุด - เพื่อนบ้าน ฉันสามารถใช้อัตราการเปลี่ยนแปลงหรือคุณสมบัติอื่น ๆ ของแนวโน้มในอดีตเพื่อลองและคาดการณ์ราคาใหม่ ฉันจะใช้เครือข่ายประสาทเทียมกับปัญหาเดียวกันนี้ได้อย่างไรคือสิ่งที่ฉันพยายามค้นหา

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

8
สร้างตัวแปรสุ่มที่มีความสัมพันธ์ที่กำหนดไว้กับตัวแปรที่มีอยู่
สำหรับการศึกษาการจำลองฉันต้องสร้างตัวแปรสุ่มที่แสดง prefined (ประชากร) ความสัมพันธ์กับตัวแปรที่มีอยู่YYYY ฉันดูในRแพ็คเกจcopulaและCDVineสามารถสร้างการแจกแจงหลายตัวแปรแบบสุ่มด้วยโครงสร้างการพึ่งพาที่กำหนด อย่างไรก็ตามเป็นไปไม่ได้ที่จะแก้ไขหนึ่งในตัวแปรที่เป็นผลลัพธ์ของตัวแปรที่มีอยู่ ความคิดและลิงก์ไปยังฟังก์ชั่นที่มีอยู่นั้นได้รับการชื่นชม! สรุป: คำตอบที่ถูกต้องสองคำขึ้นมาพร้อมกับโซลูชันที่แตกต่าง: R สคริปต์โดย Caracal ซึ่งจะคำนวณตัวแปรสุ่มกับที่แน่นอน (ตัวอย่าง) ความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า R ฟังก์ชั่นฉันพบตัวเองซึ่งจะคำนวณตัวแปรสุ่มที่มีการกำหนดประชากรความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า [@ttnphns 'นอกจากนี้: ฉันใช้เสรีภาพในการขยายชื่อคำถามจากกรณีตัวแปรคงที่เดียวเป็นจำนวนคงที่ของตัวแปรคงที่; เช่นวิธีการสร้างตัวแปรที่มีคอร์เรชั่นที่กำหนดไว้ล่วงหน้าพร้อมกับตัวแปรคงที่บางตัวที่มีอยู่]

5
การใช้การตรวจสอบความถูกต้องข้ามของ k-fold สำหรับการเลือกรุ่นของอนุกรมเวลา
คำถาม: ฉันต้องการความมั่นใจในบางสิ่งบางอย่างการใช้การตรวจสอบความถูกต้องข้ามของ k-fold กับอนุกรมเวลานั้นตรงไปตรงมาหรือไม่หรือเราจำเป็นต้องให้ความสนใจเป็นพิเศษก่อนใช้งานหรือไม่ แบ็คกราวน์: ฉันกำลังสร้างโมเดลอนุกรมเวลา 6 ปี (ที่มีลูกโซ่กึ่งมาร์คอฟ) โดยมีตัวอย่างข้อมูลทุก 5 นาที ในการเปรียบเทียบหลายรุ่นฉันใช้การตรวจสอบข้ามแบบ 6 เท่าโดยแยกข้อมูลใน 6 ปีดังนั้นชุดฝึกอบรมของฉัน (เพื่อคำนวณพารามิเตอร์) มีความยาว 5 ปีและชุดทดสอบมีความยาว 1 ปี. ฉันไม่ได้คำนึงถึงลำดับเวลาดังนั้นชุดที่แตกต่างของฉันคือ: พับ 1: ฝึก [1 2 3 4 5] ทดสอบ [6] เท่าที่ 2: การฝึก [1 2 3 4 6] ทดสอบ [5] เท่า 3: การฝึก [1 2 3 …

9
ฉันควรใช้อัลกอริทึมใดในการตรวจจับความผิดปกติในอนุกรมเวลา
พื้นหลัง ฉันทำงานในศูนย์ปฏิบัติการเครือข่ายเราตรวจสอบระบบคอมพิวเตอร์และประสิทธิภาพของระบบ หนึ่งในตัวชี้วัดหลักในการตรวจสอบคือจำนวนผู้เยี่ยมชม \ ลูกค้าที่เชื่อมต่อกับเซิร์ฟเวอร์ของเราในปัจจุบัน เพื่อให้มองเห็นได้เรา (ทีม Ops) รวบรวมตัวชี้วัดเช่นข้อมูลอนุกรมเวลาและวาดกราฟ กราไฟต์ช่วยให้เราสามารถทำมันได้มี API ที่สวยงามซึ่งฉันใช้ในการสร้างระบบการแจ้งเตือนเพื่อแจ้งทีมของเราหากมีการลดลงอย่างกะทันหัน (ส่วนใหญ่) และการเปลี่ยนแปลงอื่น ๆ เกิดขึ้น สำหรับตอนนี้ฉันได้ตั้งค่าสแตติกแบบคงที่ตามค่าเฉลี่ยของ AVG แต่มันใช้งานไม่ได้ดี (มีจำนวนบวกเท็จ) เนื่องจากการโหลดที่แตกต่างกันในระหว่างวันและสัปดาห์ (ปัจจัยด้านฤดูกาล) ดูเหมือนว่านี้: ข้อมูลจริง (ตัวอย่างสำหรับหนึ่งตัวชี้วัด, ช่วงเวลา 15 นาที, หมายเลขแรกคือจำนวนผู้ใช้, การประทับครั้งที่สอง): [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, …

10
เกิดอะไรขึ้นกับการคาดการณ์?
ฉันจำได้ว่านั่งอยู่ในหลักสูตรสถิติเนื่องจากการได้ยินในระดับปริญญาตรีว่าทำไมการคาดการณ์จึงเป็นความคิดที่ไม่ดี นอกจากนี้ยังมีแหล่งข้อมูลออนไลน์ที่หลากหลายซึ่งแสดงความคิดเห็นเกี่ยวกับเรื่องนี้ นอกจากนี้ยังมีการพูดถึงมันที่นี่นี่ ใครสามารถช่วยฉันเข้าใจว่าทำไมการอนุมานจึงเป็นความคิดที่ไม่ดี ถ้าเป็นเช่นนั้นเทคนิคการพยากรณ์ว่าไม่ถูกต้องทางสถิติอย่างไร

3
วิธีที่เหมาะสมในการใช้เครือข่ายประสาทกำเริบสำหรับการวิเคราะห์อนุกรมเวลา
เครือข่ายประสาทที่เกิดขึ้นอีกนั้นแตกต่างจากคน "ปกติ" โดยข้อเท็จจริงที่ว่าพวกเขามี "หน่วยความจำ" เลเยอร์ เนื่องจากเลเยอร์นี้เอ็นเอ็นที่กำเริบจึงควรจะมีประโยชน์ในการสร้างแบบจำลองอนุกรมเวลา อย่างไรก็ตามฉันไม่แน่ใจว่าฉันเข้าใจวิธีการใช้อย่างถูกต้อง สมมติว่าฉันมีอนุกรมเวลาต่อไปนี้ (จากซ้ายไปขวา): [0, 1, 2, 3, 4, 5, 6, 7]เป้าหมายของฉันคือการทำนายiจุดที่ -th โดยใช้จุดi-1และi-2เป็นอินพุต (สำหรับแต่ละรายการi>2) ใน "ปกติ" ANN ที่ไม่เกิดซ้ำฉันจะดำเนินการกับข้อมูลดังต่อไปนี้: target| input 2| 1 0 3| 2 1 4| 3 2 5| 4 3 6| 5 4 7| 6 5 ฉันจะสร้างเน็ตที่มีสองอินพุตและหนึ่งเอาต์พุตโหนดและฝึกกับข้อมูลข้างต้น เราจำเป็นต้องเปลี่ยนแปลงกระบวนการนี้อย่างไร (ถ้ามี) ในกรณีของเครือข่ายที่เกิดซ้ำ

6
วิธีใดที่สามารถใช้เพื่อตรวจสอบฤดูกาลในข้อมูล
ฉันต้องการตรวจสอบฤดูกาลตามข้อมูลที่ฉันได้รับ มีวิธีการบางอย่างที่ฉันพบเช่นพล็อตย่อยตามฤดูกาลและพล็อตออโต้คอร์เรชั่น แต่สิ่งที่ฉันไม่เข้าใจวิธีการอ่านกราฟทุกคนสามารถช่วยได้หรือไม่ อีกวิธีคือมีวิธีอื่นในการตรวจสอบฤดูกาลที่มีหรือไม่มีผลสุดท้ายในกราฟ?

5
ใช้การเรียนรู้เชิงลึกสำหรับการทำนายอนุกรมเวลา
ฉันใหม่ในด้านการเรียนรู้อย่างลึกซึ้งและสำหรับฉันขั้นตอนแรกคือการอ่านบทความที่น่าสนใจจากเว็บไซต์ deeplearning.net ในเอกสารเกี่ยวกับการเรียนรู้อย่างลึกซึ้งฮินตันและคนอื่น ๆ ส่วนใหญ่พูดถึงการใช้มันกับปัญหาภาพ ใครบางคนพยายามที่จะตอบฉันว่ามันสามารถนำไปใช้กับปัญหาของการทำนายค่าอนุกรมเวลา (การเงินการจราจรทางอินเทอร์เน็ต ... ) และสิ่งที่สำคัญที่ฉันควรมุ่งเน้นถ้าเป็นไปได้?

2
ตัวอย่างชีวิตจริงของกระบวนการเฉลี่ยเคลื่อนที่
คุณสามารถให้ตัวอย่างชีวิตจริงของอนุกรมเวลาที่กระบวนการเฉลี่ยเคลื่อนที่ที่เป็นระเบียบของได้เช่น มีเหตุผลเบื้องต้นในการเป็นแบบอย่างที่ดีหรือไม่? อย่างน้อยสำหรับฉันกระบวนการตอบโต้อัตโนมัติดูเหมือนจะค่อนข้างง่ายที่จะเข้าใจโดยสังหรณ์ใจในขณะที่กระบวนการ MA ไม่ได้ดูเป็นธรรมชาติตั้งแต่แรกเห็น โปรดทราบว่าฉันไม่สนใจผลลัพธ์ทางทฤษฎีที่นี่ (เช่นทฤษฎีบทของ Woldหรือการกลับหัว)qqqyt=∑i=1qθiεt−i+εt, where εt∼N(0,σ2)yt=∑i=1qθiεt−i+εt, where εt∼N(0,σ2) y_t = \sum_{i=1}^q \theta_i \varepsilon_{t-i} + \varepsilon_t, \text{ where } \varepsilon_t \sim \mathcal{N}(0, \sigma^2) ในฐานะที่เป็นตัวอย่างของสิ่งที่ฉันกำลังมองหาสมมติว่าคุณมีผลตอบแทนหุ้นประจำวัน2) จากนั้นผลตอบแทนหุ้นรายสัปดาห์เฉลี่ยจะมีโครงสร้าง MA (4) เป็นสิ่งประดิษฐ์ทางสถิติอย่างหมดจดrt∼IID(0,σ2)rt∼IID(0,σ2)r_t \sim \text{IID}(0, \sigma^2)

6
การถดถอยเชิงเส้นออนไลน์ที่มีประสิทธิภาพ
ฉันกำลังวิเคราะห์ข้อมูลบางอย่างที่ฉันต้องการทำการถดถอยเชิงเส้นปกติ แต่เป็นไปไม่ได้เมื่อฉันจัดการกับการตั้งค่าออนไลน์ด้วยการป้อนข้อมูลต่อเนื่อง (ซึ่งจะใหญ่เกินไปสำหรับหน่วยความจำ) และต้องการ เพื่ออัปเดตการประมาณการพารามิเตอร์ขณะนี้กำลังถูกใช้ไป เช่นฉันไม่สามารถโหลดทั้งหมดลงในหน่วยความจำและทำการถดถอยเชิงเส้นในชุดข้อมูลทั้งหมด ฉันสมมติว่าตัวแบบการถดถอยเชิงเส้นหลายตัวแปรเชิงเส้นคือ y=Ax+b+ey=Ax+b+e\mathbf y = \mathbf A\mathbf x + \mathbf b + \mathbf e อัลกอริทึมที่ดีที่สุดสำหรับการสร้างการประเมินการอัปเดตอย่างต่อเนื่องของพารามิเตอร์การถดถอยเชิงเส้นและคืออะไร?ขAA\mathbf Abb\mathbf b จะเป็นการดี: ฉันต้องการอัลกอริทึมที่มีพื้นที่ว่างและเวลามากที่สุดต่อการอัปเดตโดยที่คือขนาดของตัวแปรอิสระ ( ) และคือขนาดของตัวแปรตาม ( )N x M yO(N⋅M)O(N⋅M)\mathcal O(N\cdot M)NNNxx\mathbf xMMMyy\mathbf y ฉันต้องการที่จะสามารถระบุพารามิเตอร์บางอย่างเพื่อกำหนดจำนวนพารามิเตอร์ที่มีการปรับปรุงโดยตัวอย่างใหม่แต่ละตัวอย่างเช่น 0.000001 จะหมายความว่าตัวอย่างต่อไปจะให้หนึ่งในล้านของการประมาณค่าพารามิเตอร์ สิ่งนี้จะทำให้การสลายตัวแบบเลขชี้กำลังสำหรับผลกระทบของกลุ่มตัวอย่างในอดีตอันไกลโพ้น

5
อะไรคือข้อเสียของตัวแบบพื้นที่รัฐและตัวกรองคาลมานสำหรับการสร้างแบบจำลองอนุกรมเวลา?
จากคุณสมบัติที่ดีทั้งหมดของแบบจำลองพื้นที่รัฐและ KF ฉันสงสัยว่าอะไรคือข้อเสียของการสร้างแบบจำลองพื้นที่ของรัฐและการใช้ตัวกรองคาลมาน (หรือ EKF, UKF หรือตัวกรองอนุภาค) สำหรับการประเมิน? เอาเป็นว่าสมมุติฐานของวิธีการทั่วไปเช่นวิธี ARIMA, VAR หรือ ad-hoc / heuristic พวกเขายากที่จะสอบเทียบ? พวกเขาซับซ้อนและยากหรือไม่ที่จะเห็นว่าการเปลี่ยนแปลงโครงสร้างของแบบจำลองจะส่งผลกระทบต่อการทำนายอย่างไร หรือกล่าวอีกนัยหนึ่ง - ข้อดีของ ARIMA ทั่วไปคืออะไร VAR สำหรับรุ่นของรัฐ ฉันสามารถคิดได้เฉพาะข้อดีของแบบจำลองพื้นที่รัฐ: มันสามารถจัดการการแตกโครงสร้างการกะพารามิเตอร์ที่แปรผันตามเวลาของแบบจำลองบางแบบได้อย่างง่ายดายเพียงแค่ทำให้พารามิเตอร์เหล่านั้นเป็นสถานะแบบไดนามิกของแบบจำลองพื้นที่รัฐและตัวแบบจะปรับให้เข้ากับการเปลี่ยนแปลงใด ๆ ในพารามิเตอร์โดยอัตโนมัติ มันจัดการข้อมูลที่ขาดหายไปอย่างเป็นธรรมชาติเพียงแค่ทำขั้นตอนการเปลี่ยนแปลงของ KF และไม่ทำขั้นตอนการอัปเดต มันช่วยให้สามารถเปลี่ยนพารามิเตอร์ on-a-fly ของแบบจำลองพื้นที่ของรัฐเอง (โควาเรียสของเสียงและเมทริกซ์การเปลี่ยนผ่าน / การสังเกต) ดังนั้นหากการสังเกตปัจจุบันของคุณมาจากแหล่งที่แตกต่างกันเล็กน้อยกว่าอื่น ๆ - คุณสามารถรวม มีอะไรพิเศษไหม; การใช้คุณสมบัติด้านบนช่วยให้สามารถจัดการข้อมูลที่เว้นระยะไม่สม่ำเสมอได้ง่าย: เปลี่ยนโมเดลในแต่ละครั้งตามช่วงเวลาระหว่างการสังเกตหรือใช้ช่วงเวลาปกติและจัดการช่วงเวลาโดยไม่ต้องสังเกตว่าเป็นข้อมูลที่ขาดหายไป อนุญาตให้ใช้ข้อมูลจากแหล่งต่าง ๆ พร้อมกันในรูปแบบเดียวกันเพื่อประมาณปริมาณหนึ่งพื้นฐาน จะช่วยให้การสร้างแบบจำลองจากหลายinterpretableส่วนประกอบแบบไดนามิกสำรวจและประเมินพวกเขา; โมเดล ARIMA …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.