คำถามติดแท็ก time-series

อนุกรมเวลาเป็นข้อมูลที่สังเกตได้ตลอดเวลา

6
วิธีที่ดีที่สุดสำหรับช่วงเวลาสั้น ๆ
ฉันมีคำถามที่เกี่ยวข้องกับการสร้างแบบจำลองชุดเวลาสั้น ๆ มันไม่ได้เป็นคำถามว่าจะสร้างแบบจำลองแต่ได้อย่างไร คุณจะแนะนำวิธีใดในการสร้างแบบจำลอง (มาก) ช่วงเวลาสั้น ๆ (พูดถึงความยาว ) โดย "ดีที่สุด" ฉันหมายถึงที่นี่ว่าแข็งแกร่งที่สุดนั่นคือโอกาสที่จะเกิดข้อผิดพลาดน้อยที่สุดเนื่องจากการสังเกตจำนวน จำกัด ด้วยการสังเกตแบบสั้นชุดเดียวอาจมีผลต่อการคาดการณ์ดังนั้นวิธีการนี้ควรให้การประมาณข้อผิดพลาดที่รอบคอบและความแปรปรวนที่อาจเกิดขึ้นซึ่งเชื่อมต่อกับการคาดการณ์ โดยทั่วไปฉันสนใจชุดเวลา univariate แต่ก็น่าสนใจที่จะรู้เกี่ยวกับวิธีการอื่นT≤20T≤20T \leq 20

5
การทดสอบความสัมพันธ์อัตโนมัติ: Ljung-Box กับ Breusch-Godfrey
ฉันเคยเห็นการทดสอบ Ljung-Box ใช้ค่อนข้างบ่อยสำหรับการทดสอบความสัมพันธ์อัตโนมัติในข้อมูลดิบหรือในแบบจำลองที่เหลือ ฉันเกือบลืมไปแล้วว่ามีการทดสอบความสัมพันธ์แบบอัตโนมัติอีกครั้งหนึ่งนั่นคือการทดสอบ Breusch-Godfrey คำถาม:อะไรคือความแตกต่างที่สำคัญและความเหมือนกันของการทดสอบ Ljung-Box และ Breusch-Godfrey และเมื่อใดที่หนึ่งจะได้รับความนิยมมากกว่าอื่น ๆ ? (ยินดีต้อนรับการอ้างอิงอย่างใดฉันไม่สามารถหาการเปรียบเทียบใด ๆของการทดสอบทั้งสองแม้ว่าฉันจะดูในหนังสือสองสามเล่มและค้นหาเนื้อหาออนไลน์ฉันสามารถหาคำอธิบายของการทดสอบแต่ละครั้งแยกกันแต่สิ่งที่ฉันสนใจคือ การเปรียบเทียบของทั้งสอง)

1
การตรวจจับค่าผิดปกติในอนุกรมเวลา (LS / AO / TC) โดยใช้แพ็คเกจ tsoutliers ใน R จะแสดงค่าผิดปกติในรูปแบบสมการได้อย่างไร
ความคิดเห็นที่: ประการแรกผมอยากจะบอกว่าใหญ่ขอบคุณไปยังผู้เขียนของใหม่tsoutliersแพคเกจซึ่งดำเนินเฉินและหลิวการตรวจสอบอนุกรมเวลาค่าผิดปกติซึ่งได้รับการตีพิมพ์ในวารสารของสมาคมอเมริกันสถิติในปี 1993 อยู่ในซอฟต์แวร์โอเพนซอร์สRRRR แพ็คเกจตรวจจับค่าผิดปกติ 5 ประเภทที่ซ้ำกันในข้อมูลอนุกรมเวลา: สารเติมแต่ง (AO) นวัตกรรมล้ำหน้า (IO) Level Shift (LS) การเปลี่ยนแปลงชั่วคราว (TC) การเลื่อนระดับตามฤดูกาล (SLS) สิ่งที่ดียิ่งกว่าคือแพคเกจนี้ใช้ auto.arima จากแพ็คเกจพยากรณ์เพื่อตรวจจับค่าผิดปกติได้อย่างราบรื่น นอกจากนี้แพ็กเกจยังสร้างพล็อตที่ดีเพื่อความเข้าใจที่ดีขึ้นของข้อมูลอนุกรมเวลา ด้านล่างเป็นคำถามของฉัน: ฉันลองใช้งานตัวอย่างโดยใช้แพ็คเกจนี้และมันก็ใช้งานได้ดี ค่าผิดปกติเพิ่มเติมและการเลื่อนระดับนั้นใช้งานง่าย อย่างไรก็ตามฉันมีคำถาม 2 ข้อเกี่ยวกับการส่งค่าผิดปกติชั่วคราวและค่าผิดปกติทางนวัตกรรมซึ่งฉันไม่สามารถเข้าใจได้ ตัวอย่างการเปลี่ยนแปลงค่าผิดพลาดชั่วคราว: ลองพิจารณาตัวอย่างต่อไปนี้: library(tsoutliers) library(expsmooth) library(fma) outlier.chicken <- tsoutliers::tso(chicken,types = c("AO","LS","TC"),maxit.iloop=10) outlier.chicken plot(outlier.chicken) โปรแกรมตรวจพบการเลื่อนระดับอย่างถูกต้องและการเปลี่ยนแปลงชั่วคราวที่ตำแหน่งต่อไปนี้ Outliers: type ind time coefhat tstat 1 LS 12 …


4
ข้อมูลมีสองแนวโน้ม วิธีแยกเส้นแนวโน้มอิสระ
ฉันมีชุดข้อมูลที่ไม่ได้เรียงลำดับ แต่อย่างใดเมื่อมีการวางแผนอย่างชัดเจนมีแนวโน้มที่แตกต่างกันสองอย่าง การถดถอยเชิงเส้นอย่างง่ายจะไม่เพียงพอที่นี่เพราะความแตกต่างที่ชัดเจนระหว่างสองชุด มีวิธีง่าย ๆ ในการรับเส้นแนวโน้มเชิงเส้นที่เป็นอิสระหรือไม่ สำหรับบันทึกที่ฉันใช้ Python และฉันรู้สึกสะดวกสบายกับการเขียนโปรแกรมและการวิเคราะห์ข้อมูลรวมถึงการเรียนรู้ของเครื่อง แต่ยินดีที่จะข้ามไปยัง R หากจำเป็นจริงๆ

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
วิธีการพอดีกับรุ่น ARIMAX กับ R
ฉันมีการวัดรายชั่วโมงสี่แบบต่อเนื่อง การใช้ความร้อนภายในบ้าน อุณหภูมิภายนอกบ้าน รังสีดวงอาทิตย์ ความเร็วลม ฉันต้องการที่จะทำนายการใช้ความร้อนภายในบ้าน มีแนวโน้มตามฤดูกาลที่ชัดเจนทั้งรายปีและรายวัน เนื่องจากมีความสัมพันธ์ที่ชัดเจนระหว่างซีรีย์ที่แตกต่างกันฉันต้องการให้พอดีกับพวกเขาโดยใช้โมเดล ARIMAX สิ่งนี้สามารถทำได้ใน R โดยใช้ฟังก์ชั่น arimax จากแพ็คเกจ TSA ฉันพยายามอ่านเอกสารเกี่ยวกับฟังก์ชั่นนี้และอ่านฟังก์ชั่นการถ่ายโอน แต่จนถึงตอนนี้รหัสของฉัน: regParams = ts.union(ts(dayy)) transferParams = ts.union(ts(temp)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams,xtransf=transferParams,transfer=list(c(1,1)) pred10 = predict(model10, newxreg=regParams) ให้ฉัน: โดยที่เส้นสีดำคือข้อมูลจริงที่วัดได้และเส้นสีเขียวเป็นแบบจำลองที่ได้ทำการเปรียบเทียบของฉัน ไม่เพียง แต่เป็นแบบอย่างที่ดีเท่านั้น ฉันจะยอมรับว่าความรู้เกี่ยวกับโมเดล ARIMAX และฟังก์ชั่นการถ่ายโอนมี จำกัด ในฟังก์ชั่น arimax (), (เท่าที่ฉันเข้าใจ), xtransf เป็นอนุกรมเวลาภายนอกที่ฉันต้องการใช้ (โดยใช้ฟังก์ชั่นถ่ายโอน) เพื่อทำนายอนุกรมเวลาหลักของฉัน แต่อะไรคือความแตกต่างระหว่าง xreg และ xtransf …

2
คุณจะทำการ bootstrapping ด้วยข้อมูลอนุกรมเวลาได้อย่างไร
ฉันเพิ่งเรียนรู้เกี่ยวกับการใช้เทคนิคการบูตสต็อกเพื่อคำนวณข้อผิดพลาดมาตรฐานและช่วงความมั่นใจสำหรับผู้ประมาณค่า สิ่งที่ฉันเรียนรู้คือถ้าข้อมูลเป็น IID คุณสามารถปฏิบัติต่อข้อมูลตัวอย่างเป็นประชากรและทำการสุ่มตัวอย่างด้วยการแทนที่และสิ่งนี้จะช่วยให้คุณได้รับการจำลองสถิติการทดสอบหลายครั้ง ในกรณีของอนุกรมเวลาคุณไม่สามารถทำสิ่งนี้ได้อย่างชัดเจนเพราะมีความสัมพันธ์แบบอัตโนมัติ ฉันมีอนุกรมเวลาและต้องการคำนวณค่าเฉลี่ยของข้อมูลก่อนและหลังวันที่กำหนด มีวิธีที่ถูกต้องในการใช้ bootstrapping รุ่นที่แก้ไขหรือไม่

1
เชื่อมโยงการตรวจจับความผิดปกติในเครือข่ายชั่วคราว
ฉันมาข้ามบทความนี้ที่ใช้เชื่อมโยงการตรวจสอบความผิดปกติในการทำนายแนวโน้มหัวข้อและผมพบว่ามันไม่น่าเชื่อที่น่าสนใจ: กระดาษ"การค้นพบหัวข้อที่เกิดขึ้นใหม่ในกระแสสังคมผ่านการเชื่อมโยงความผิดปกติของการตรวจสอบ" ฉันชอบที่จะทำซ้ำในชุดข้อมูลอื่น แต่ฉันไม่คุ้นเคยกับวิธีการที่จะรู้วิธีใช้ สมมติว่าฉันมีชุดของภาพรวมของเครือข่ายของโหนดในช่วงหกเดือน โหนมีการกระจายระดับเทลด์เทอร์มินัลโดยส่วนใหญ่มีการเชื่อมต่อเพียงเล็กน้อย แต่บางอันมีจำนวนมาก โหนดใหม่ปรากฏขึ้นภายในช่วงเวลานี้ ฉันจะใช้การคำนวณความน่าจะเป็นสูงสุดปกติแบบลดตามลำดับที่ใช้ในกระดาษเพื่อตรวจจับลิงก์ผิดปกติที่ฉันคิดว่าอาจเป็นตัวตั้งต้นให้เกิดการระเบิดได้อย่างไร มีวิธีการอื่นที่เหมาะสมกว่าหรือไม่ ฉันถามทั้งในทางทฤษฎีและในทางปฏิบัติ หากใครบางคนชี้ให้ฉันเห็นวิธีการใช้สิ่งนี้ใน python หรือ R นั่นจะเป็นประโยชน์อย่างมาก ใคร? ฉันรู้ว่าคุณสมาร์ทคนมีความคิดเริ่มต้นสำหรับคำตอบ

4
ผลรวมของกระบวนการเสียงสีขาวสองกระบวนการจำเป็นต้องเป็นสัญญาณรบกวนสีขาวหรือไม่
ให้และเป็นกระบวนการประมวลเสียงสีขาว เราสามารถพูดได้หรือไม่ว่านั้นเป็นกระบวนการที่มีเสียงรบกวนสีขาว?b t c t = a t + b tatata_tbtbtb_tct=at+btct=at+bเสื้อc_t=a_t+b_t

9
ทำไมต้องใช้โมเดลการแก้ไขข้อผิดพลาดเวกเตอร์
ฉันสับสนเกี่ยวกับรูปแบบการแก้ไขข้อผิดพลาดของเวกเตอร์ ( VECM ) พื้นหลังทางเทคนิค: VECMนำเสนอความเป็นไปได้ในการใช้Vector Autoregressive Model ( VAR ) กับอนุกรมเวลาหลายตัวแปรในตัว ในตำราเรียนพวกเขาตั้งชื่อปัญหาบางอย่างในการใช้VARกับอนุกรมเวลาแบบบูรณาการสิ่งสำคัญที่สุดคือการถดถอยแบบเผด็จการ กระบวนการประเมินVECMประกอบด้วยขั้นตอนสามขั้นตอนต่อไปนี้ซึ่งเป็นขั้นตอนที่สับสนสำหรับฉันขั้นตอนแรก: ข้อมูลจำเพาะและการประมาณค่าของโมเดลVARสำหรับอนุกรมเวลาหลายตัวแปรรวม คำนวณการทดสอบอัตราส่วนความน่าจะเป็นเพื่อกำหนดจำนวนความสัมพันธ์ของการมีส่วนร่วม หลังจากกำหนดจำนวน cointegrations ให้ประเมินVECM ในขั้นตอนแรกหนึ่งประมาณการแบบจำลองVAR ที่มีจำนวนของความล่าช้าที่เหมาะสม (ใช้ความดีปกติของเกณฑ์พอดี) และตรวจสอบว่าส่วนที่เหลือสอดคล้องกับสมมติฐานของแบบจำลองหรือไม่นั่นคือการไม่มีความสัมพันธ์แบบอนุกรมและความสัมพันธ์แบบ heteroscedasticity . ดังนั้นหนึ่งการตรวจสอบว่ารูปแบบVARอย่างเหมาะสมอธิบายอนุกรมเวลาหลายตัวแปรและหนึ่งดำเนินการเพื่อขั้นตอนต่อไปถ้ามันเป็นเท่านั้น และตอนนี้สำหรับคำถามของฉัน: ถ้าแบบจำลองVARอธิบายข้อมูลได้ดีทำไมฉันต้องใช้VECMเลย? หากเป้าหมายของฉันคือการสร้างการคาดการณ์มันไม่เพียงพอที่จะประเมินVARและตรวจสอบสมมติฐานและถ้าพวกเขาบรรลุเป้าหมายเพียงใช้โมเดลนี้

3
จะทราบได้อย่างไรว่าอนุกรมเวลาอยู่กับที่หรือหยุดนิ่ง?
ผมใช้ R, ฉันค้นหาใน Google และได้เรียนรู้ว่าkpss.test(), PP.test()และadf.test()มีการใช้ความรู้เกี่ยวกับ stationarity ของอนุกรมเวลา แต่ฉันไม่ใช่นักสถิติที่สามารถตีความผลลัพธ์ของพวกเขาได้ > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > kpss.test(b$V1) KPSS Test for Level Stationarity data: b$V1 KPSS Level = 0.0333, Truncation lag parameter = 3, p-value = 0.1 Warning …

7
การวิเคราะห์อนุกรมเวลาคืออะไร
การวิเคราะห์อนุกรมเวลาคืออะไร? มีวิธีการทางสถิติอื่น ๆ อีกมากมายเช่นการถดถอยและการเรียนรู้เครื่องที่มีกรณีการใช้ที่ชัดเจน: การถดถอยสามารถให้ข้อมูลเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรสองตัวในขณะที่การเรียนรู้ของเครื่องดีเยี่ยมสำหรับการทำนาย แต่ในขณะเดียวกันฉันไม่เห็นว่าการวิเคราะห์อนุกรมเวลาเหมาะสำหรับอะไร แน่นอนว่าฉันสามารถใส่แบบจำลอง ARIMA และใช้มันเพื่อการคาดการณ์ได้ แต่สิ่งที่ดีคือเมื่อความมั่นใจในช่วงการคาดการณ์นั้นสูงขึ้นมาก มีเหตุผลที่ไม่มีใครสามารถทำนายตลาดหุ้นได้แม้จะเป็นอุตสาหกรรมที่ขับเคลื่อนด้วยข้อมูลมากที่สุดในประวัติศาสตร์โลก ฉันจะใช้มันเพื่อทำความเข้าใจกระบวนการของฉันต่อไปได้อย่างไร แน่นอนฉันสามารถพล็อต ACF และไป "aha! มีการพึ่งพาอาศัยกัน!" แต่แล้วอะไรนะ? ประเด็นคืออะไร? แน่นอนว่ามีการพึ่งพาอาศัยกันนั่นคือสาเหตุที่คุณทำการวิเคราะห์อนุกรมเวลาเพื่อเริ่มต้น คุณก็รู้แล้วว่ามีการพึ่งพาอาศัยกัน แต่คุณจะใช้มันเพื่ออะไร

4
วิธีง่าย ๆ ในการระบุการขัดขวางในข้อผิดพลาดที่บันทึกไว้
เราต้องการระบบเตือนภัยล่วงหน้า ฉันจัดการกับเซิร์ฟเวอร์ที่ทราบว่ามีปัญหาด้านประสิทธิภาพขณะโหลด ข้อผิดพลาดจะถูกบันทึกในฐานข้อมูลพร้อมกับการประทับเวลา มีขั้นตอนการแทรกแซงด้วยตนเองที่สามารถดำเนินการเพื่อลดภาระของเซิร์ฟเวอร์ แต่เฉพาะเมื่อมีคนตระหนักถึงปัญหา ... ด้วยช่วงเวลาที่เกิดข้อผิดพลาดฉันจะระบุจุดเริ่มต้นของการขัดขวางในข้อผิดพลาดได้อย่างไร (ตามเวลาจริง) เราสามารถคำนวณเป็นระยะหรือในแต่ละข้อผิดพลาดเกิดขึ้น เราไม่สนใจเกี่ยวกับข้อผิดพลาดเป็นครั้งคราว แต่ไม่มีเกณฑ์ที่เฉพาะเจาะจง ฉันสามารถแจ้งใครบางคนได้ตลอดเวลาที่เราได้รับพูดข้อผิดพลาดสามข้อในห้านาที แต่ฉันแน่ใจว่ามีวิธีที่ดีกว่า ... ฉันต้องการที่จะสามารถปรับความไวของอัลกอริทึมตามข้อเสนอแนะจาก sysadmins สำหรับตอนนี้พวกเขาต้องการให้มีความละเอียดอ่อนพอสมควรแม้ว่าเราจะรู้ว่าเราสามารถคาดหวังผลบวกที่ผิดพลาดได้ ฉันไม่ใช่นักสถิติซึ่งฉันแน่ใจว่าชัดเจนและการใช้สิ่งนี้จำเป็นต้องค่อนข้างง่ายด้วยเครื่องมือที่มีอยู่ของเรา: SQL Server และ ASP JScript ของโรงเรียนเก่า ฉันไม่ได้มองหาคำตอบในรหัส แต่ถ้ามันต้องใช้ซอฟต์แวร์เพิ่มเติมมันอาจจะไม่ทำงานสำหรับเรา (แม้ว่าฉันยินดีต้อนรับทางออกที่ไม่เหมาะ แต่เป็นความคิดเห็นสำหรับความอยากรู้อยากเห็นของฉันเอง)

2
การติดตั้งโมเดล ARIMAX ด้วยการทำให้เป็นปกติหรือการลงโทษ (เช่นกับเชือก, ตาข่ายยางยืดหรือการถดถอยสัน)
ฉันใช้ฟังก์ชั่นauto.arima ()ในแพ็คเกจพยากรณ์เพื่อให้พอดีกับรุ่น ARMAX ที่มีตัวแปรหลากหลาย อย่างไรก็ตามฉันมักจะมีตัวแปรจำนวนมากให้เลือกและมักจะจบลงด้วยรูปแบบสุดท้ายที่ทำงานกับชุดย่อยของพวกเขา ฉันไม่ชอบเทคนิค ad-hoc สำหรับการเลือกตัวแปรเพราะฉันเป็นมนุษย์และมีอคติ แต่อนุกรมเวลาการตรวจสอบข้ามเป็นเรื่องยากดังนั้นฉันจึงไม่พบวิธีที่ดีในการลองชุดย่อยที่แตกต่างกันของตัวแปรที่มีอยู่โดยอัตโนมัติและ ฉันกำลังปรับโมเดลของฉันโดยใช้วิจารณญาณที่ดีที่สุดของฉันเอง เมื่อฉันพอดีกับโมเดล glm ฉันสามารถใช้ elastic net หรือ lasso สำหรับการทำให้เป็นปกติและการเลือกตัวแปรผ่านแพ็คเกจglmnet มีชุดเครื่องมือที่มีอยู่ใน R สำหรับใช้ net elastic ในโมเดล ARMAX หรือฉันจะต้องหมุนเอง นี่เป็นความคิดที่ดีใช่ไหม แก้ไข: มันสมเหตุสมผลหรือไม่ที่จะคำนวณเงื่อนไข AR และ MA ด้วยตนเอง (พูดถึง AR5 และ MA5) และใช้ glmnet เพื่อให้พอดีกับโมเดลหรือไม่ แก้ไข 2: ดูเหมือนว่าแพ็กเกจFitARทำให้ฉันเป็นส่วนหนึ่ง แต่ไม่ใช่ทั้งหมดในนั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.