คำถามติดแท็ก time-series

อนุกรมเวลาเป็นข้อมูลที่สังเกตได้ตลอดเวลา

3
ฉันจะจัดการกับข้อมูลที่ไม่มีอยู่หรือหายไปได้อย่างไร
ฉันลองวิธีการพยากรณ์และต้องการตรวจสอบว่าวิธีการของฉันถูกต้องหรือไม่ การศึกษาของฉันเปรียบเทียบกองทุนรวมประเภทต่าง ๆ ฉันต้องการใช้ดัชนี GCC เป็นเกณฑ์มาตรฐานสำหรับหนึ่งในนั้น แต่ปัญหาคือดัชนี GCC หยุดในเดือนกันยายน 2011 และการศึกษาของฉันอยู่ระหว่างมกราคม 2546 ถึงกรกฎาคม 2557 ดังนั้นฉันจึงพยายามใช้ดัชนีอื่นดัชนี MSCI เพื่อสร้างการถดถอยเชิงเส้น แต่ปัญหาคือว่าดัชนี MSCI ขาดข้อมูลตั้งแต่เดือนกันยายน 2010 เพื่อหลีกเลี่ยงสิ่งนี้ฉันได้ทำสิ่งต่อไปนี้ ขั้นตอนเหล่านี้ใช้ได้หรือไม่ ดัชนี MSCI ไม่มีข้อมูลสำหรับเดือนกันยายน 2010 ถึงกรกฎาคม 2012 ฉัน "ให้" โดยการใช้ค่าเฉลี่ยเคลื่อนที่สำหรับการสังเกตห้าครั้ง วิธีนี้ใช้ได้หรือไม่ ถ้าเป็นเช่นนั้นฉันควรใช้การสังเกตกี่ครั้ง หลังจากประเมินข้อมูลที่ขาดหายไปฉันทำการถดถอยของดัชนี GCC (เป็นตัวแปรตาม) กับดัชนี MSCI (เป็นตัวแปรอิสระ) สำหรับช่วงเวลาที่ใช้ร่วมกันได้ (ตั้งแต่มกราคม 2550 ถึงกันยายน 2554) จากนั้นแก้ไขโมเดลจากปัญหาทั้งหมด ในแต่ละเดือนฉันจะแทนที่ x ด้วยข้อมูลจากดัชนี MSCI …

6
การตีความผลลัพธ์ ur.df (การทดสอบรูทยูนิต Dickey-Fuller)
ฉันใช้การทดสอบรูทยูนิตต่อไปนี้ (Dickey-Fuller) ในอนุกรมเวลาโดยใช้ur.df()ฟังก์ชั่นในurcaแพ็คเกจ คำสั่งคือ: summary(ur.df(d.Aus, type = "drift", 6)) ผลลัพธ์คือ: ############################################### # Augmented Dickey-Fuller Test Unit Root Test # ############################################### Test regression drift Call: lm(formula = z.diff ~ z.lag.1 + 1 + z.diff.lag) Residuals: Min 1Q Median 3Q Max -0.266372 -0.036882 -0.002716 0.036644 0.230738 Coefficients: Estimate Std. Error t value …

1
ทางเลือกเพื่อบล็อก bootstrap สำหรับอนุกรมเวลาหลายตัวแปร
ขณะนี้ฉันใช้กระบวนการต่อไปนี้ในการทำการบูตอนุกรมเวลาหลายตัวแปรใน R: กำหนดขนาดบล็อก - เรียกใช้ฟังก์ชันb.starในnpแพ็คเกจที่สร้างขนาดบล็อกสำหรับแต่ละชุด เลือกขนาดบล็อกสูงสุด ทำงานtsbootกับซีรีส์ใดก็ได้โดยใช้ขนาดบล็อกที่เลือก ใช้ดัชนีจากเอาต์พุต bootstrap เพื่อสร้างอนุกรมเวลาหลายตัวแปรอีกครั้ง มีคนแนะนำให้ใช้แพคเกจ meboot เป็นทางเลือกแทน block bootstrap แต่เนื่องจากฉันไม่ได้ใช้ชุดข้อมูลทั้งหมดเพื่อเลือกขนาดบล็อกฉันไม่แน่ใจว่าจะรักษาความสัมพันธ์ระหว่างชุดข้อมูลอย่างไรถ้าฉันใช้ดัชนีที่สร้างขึ้นโดยใช้mebootบน หนึ่งชุด หากใครมีประสบการณ์กับ meboot ในการตั้งค่าหลายตัวแปรฉันจะขอบคุณคำแนะนำในกระบวนการอย่างมาก

1
ปัญหาของการใช้ R-squared ในรุ่นอนุกรมเวลาคืออะไร
ฉันได้อ่านแล้วว่าการใช้ R-squared สำหรับอนุกรมเวลานั้นไม่เหมาะสมเพราะในบริบทของอนุกรมเวลา (ฉันรู้ว่ามีบริบทอื่น ๆ ) R-squared นั้นไม่เหมือนกันอีกต่อไป ทำไมนี้ ฉันพยายามค้นหามัน แต่ฉันไม่พบอะไรเลย โดยทั่วไปแล้วฉันไม่ได้ให้ความสำคัญกับ R-squared (หรือ Adjusted R-Squared) เมื่อฉันประเมินแบบจำลองของฉัน แต่เพื่อนร่วมงานจำนวนมากของฉัน (เช่นวิชาเอกธุรกิจ) นั้นหลงรัก R-Squared และฉันต้องการที่จะ อธิบายกับพวกเขาว่าทำไม R-Squared จึงไม่เหมาะสมในบริบทของอนุกรมเวลา

3
ความแตกต่างระหว่างตัวแบบสมการพร้อมกันและตัวแบบสมการโครงสร้าง
ใครช่วยได้โปรดช่วยให้ฉันเข้าใจว่าอะไรคือความแตกต่างระหว่างแบบจำลองสมการพร้อมกันและแบบจำลองสมการโครงสร้าง (SEM) มันจะดีถ้ามีใครบางคนสามารถมอบวรรณกรรมให้ฉันได้ นอกจากนี้ยังมีวรรณกรรมที่ใช้ SEM ในบริบทของ Timeseries บ้างไหม? วรรณกรรมที่ฉันได้รับส่วนใหญ่จะอธิบาย SEM ในบริบทข้อมูลแบบตัดขวาง ขอบคุณ!

2
การติดตั้งการถดถอยเชิงเส้นหลายเส้นใน R: เศษเหลือที่เกี่ยวข้องโดยอัตโนมัติ
ฉันพยายามประเมินการถดถอยเชิงเส้นแบบหลายค่าใน R ด้วยสมการดังนี้ regr <- lm(rate ~ constant + askings + questions + 0) askings askings <- ts(...)และคำถามที่มีข้อมูลอนุกรมเวลารายไตรมาสสร้างด้วย ปัญหาตอนนี้คือฉันได้รับส่วนที่เหลือโดยอัตโนมัติ ฉันรู้ว่าเป็นไปได้ที่จะปรับให้พอดีกับการถดถอยโดยใช้ฟังก์ชัน gls แต่ฉันไม่รู้วิธีระบุโครงสร้างข้อผิดพลาด AR หรือ ARMA ที่ถูกต้องซึ่งฉันต้องนำไปใช้ในฟังก์ชัน gls ฉันจะลองประเมินอีกครั้งในตอนนี้ด้วย gls(rate ~ constant + askings + questions + 0, correlation=corARMA(p=?,q=?)) แต่น่าเสียดายที่ฉันไม่ใช่ผู้เชี่ยวชาญ R หรือผู้เชี่ยวชาญทางสถิติโดยทั่วไปในการระบุ p และ q ฉันจะพอใจถ้ามีคนให้คำแนะนำที่เป็นประโยชน์กับฉัน ขอบคุณล่วงหน้า! โจ

2
การเป็นตัวแทนของพื้นที่รัฐของ ARMA (p, q) จากแฮมิลตัน
ฉันได้อ่านแฮมิลตันบทที่ 13 และเขามีตัวแทนพื้นที่ของรัฐต่อไปนี้สำหรับ ARMA (p, q) ให้นั้นกระบวนการ ARMA (p, q) จะเป็นดังนี้: \ start {aligned} y_t - \ mu & = \ phi_1 (y_ {t-1} - \ mu) + \ phi_2 (y_ {t-2} - \ mu) + ... + \ phi_3 (y_ {t-3} - \ mu) \\ & + \ epsilon_t …

1
ข้อกำหนด“ ตัดออก” และ“ ตัดออก” เกี่ยวกับฟังก์ชัน ACF, PACF
ฉันพยายามที่จะเข้าใจความหมายของการถูกตัดออกไปและพล็อตตามลำดับเวลาของ ACF และ PACF "Cut off after lag" หมายถึงอะไร เกี่ยวกับขีด จำกัด ? "ก้อยออก" หมายความว่าอะไร? ในตัวอย่างด้านบนหนังสือที่ฉันใช้เพื่อศึกษากล่าวว่าเป็นกระบวนการ AR แต่ฉันไม่สามารถหาความหมายของ "ตัด" และ "ก้อย"

1
วิธีการตีความผลลัพธ์ของรุ่น TBATS และการวิเคราะห์แบบจำลอง
ฉันได้รับข้อมูลความต้องการรายครึ่งชั่วโมงซึ่งเป็นช่วงเวลาตามฤดูกาล ฉันใช้tbatsในforecastแพ็คเกจใน R และได้ผลลัพธ์ดังนี้: TBATS(1, {5,4}, 0.838, {<48,6>, <336,6>, <17520,5>}) หมายความว่าชุดข้อมูลไม่จำเป็นต้องใช้การแปลง Box-Cox หรือไม่และมีข้อผิดพลาดคือ ARMA (5, 4) และคำ 6, 6 และ 5 ใช้เพื่ออธิบายฤดูกาล พารามิเตอร์ที่ทำให้ชื้นคือ 0.8383 หมายความว่ามันคือการแปลงด้วยหรือไม่ ต่อไปนี้เป็นพล็อตการสลายตัวของรุ่น: ฉันสงสัยว่าจะทำอย่างไรlevelและslopeบอกเกี่ยวกับตัวแบบ 'ความชัน' บอกแนวโน้ม แต่จะเป็นlevelอย่างไร วิธีการรับพล็อตที่ชัดเจนสำหรับsession 1และsession 2ซึ่งเป็นฤดูกาลรายวันและรายสัปดาห์ตามลำดับ ฉันยังต้องรู้วิธีการวินิจฉัยแบบจำลองtbatsเพื่อประเมินโมเดลยกเว้นค่า RMSE วิธีปกติคือการตรวจสอบว่าข้อผิดพลาดเป็นสัญญาณรบกวนสีขาว แต่ที่นี่ข้อผิดพลาดควรจะเป็นซีรีส์ ARMA ฉันพล็อตข้อผิดพลาด 'acf' และ 'pacf' และฉันไม่คิดว่ามันจะดูเหมือน ARMA (5,4) หมายความว่าแบบจำลองของฉันไม่ดีหรือไม่? acf(resid(model1),lag.max = 1000) pacf(resid(model1),lag.max=1000) …

1
เมื่อใดที่ฉันจะหยุดมองหานางแบบ?
ฉันกำลังมองหาแบบจำลองระหว่างการสะสมพลังงานและสภาพอากาศ ฉันมีราคา MWatt ที่ซื้อระหว่างประเทศในยุโรปและมีค่ามากมายในสภาพอากาศ (ไฟล์ Grib) แต่ละชั่วโมงในระยะเวลา 5 ปี (2554-2558) ราคา / วัน นี่คือต่อวันเป็นเวลาหนึ่งปี ฉันมีสิ่งนี้ต่อชั่วโมงใน 5 ปี ตัวอย่างของสภาพอากาศ 3Dscatterplot ในเคลวินเป็นเวลาหนึ่งชั่วโมง ฉันมี 1,000 ค่าต่อข้อมูลต่อชั่วโมงและ 200 ข้อมูลเช่น klevin, ลม, geopential ฯลฯ ฉันพยายามที่จะคาดการณ์ราคาเฉลี่ยต่อชั่วโมงของ Mwatt ข้อมูลของฉันบนอากาศมีความหนาแน่นสูงมากค่ามากกว่า 10,000 ค่า / ชั่วโมงและมีความสัมพันธ์สูง มันเป็นปัญหาของข้อมูลขนาดใหญ่ระยะสั้น ฉันได้ลองใช้วิธี Lasso, Ridge และ SVR ด้วยราคาเฉลี่ยของ MWatt ตามผลลัพธ์และข้อมูลสภาพอากาศของฉันเป็นรายได้ ฉันใช้ข้อมูลการฝึกอบรม 70% และทดสอบ 30% หากข้อมูลการทดสอบของฉันไม่ได้คาดการณ์ …

4
การตรวจจับที่ผิดพลาดในอนุกรมเวลา: วิธีลดผลบวกปลอม?
ฉันพยายามที่จะทำงานโดยอัตโนมัติขอบเขตการตรวจสอบในอนุกรมเวลาและฉันใช้การปรับเปลี่ยนของการแก้ปัญหาที่เสนอโดยร็อบ Hyndman ที่นี่ บอกว่าฉันวัดการเข้าชมเว็บไซต์ทุกวันจากหลายประเทศ สำหรับบางประเทศที่การเข้าชมรายวันเป็นสองสามหมื่นหรือหลายพันวิธีการของฉันดูเหมือนจะทำงานได้อย่างสมเหตุสมผล อย่างไรก็ตามในกรณีที่ประเทศหนึ่งนำไปสู่การเยี่ยมชมเพียง 1 หรือ 2 ครั้งต่อวันข้อ จำกัด ของอัลกอริทึมนั้นแคบมาก (เช่น 1 ± 0.001) ดังนั้นการเข้าชม 2 ครั้งจึงถือว่าเป็นค่าที่ผิดปกติ ฉันจะตรวจจับกรณีดังกล่าวโดยอัตโนมัติได้อย่างไรและฉันจะปฏิบัติต่อพวกเขาเพื่อระบุค่าผิดปกติได้อย่างไร ฉันไม่ต้องการตั้งเกณฑ์แบบกำหนดเองเป็น 100 ครั้งต่อวัน ขอบคุณ!

1
คุณจะตรวจสอบการยศาสตร์ของกระบวนการสุ่มจากเส้นทางตัวอย่างได้อย่างไร?
คุณจะตรวจสอบความถูกต้องตามหลักสรีรศาสตร์ของกระบวนการสโตแคสติกที่อยู่กับที่จากฐานตัวอย่างได้อย่างไร เราสามารถตรวจสอบการยศาสตร์จากเส้นทางตัวอย่างเดียวได้หรือไม่? หรือเราต้องการตัวอย่างหลายเส้นทาง? แรงจูงใจหนึ่งในการตรวจสอบความถูกต้องตามหลักสรีรศาสตร์คือในอนุกรมเวลาเพื่อให้แน่ใจว่าคุณสามารถใช้ค่าเฉลี่ยของเส้นทางตัวอย่างเมื่อเวลาผ่านไปอย่างปลอดภัยตามค่าประมาณของประชากรโดยเฉลี่ย

2
การจำแนกอนุกรมเวลา - ผลลัพธ์ที่แย่มาก
ฉันกำลังทำงานเกี่ยวกับปัญหาการจำแนกอนุกรมเวลาที่อินพุตเป็นข้อมูลการใช้เสียงอนุกรมเวลา (เป็นวินาที) สำหรับ 21 วันแรกของบัญชีโทรศัพท์มือถือ ตัวแปรเป้าหมายที่สอดคล้องกันคือยกเลิกบัญชีนั้นในช่วง 35-45 วันหรือไม่ ดังนั้นมันจึงเป็นปัญหาการจำแนกเลขฐานสอง ฉันได้รับผลลัพธ์ที่แย่มากจากวิธีการทั้งหมดที่ฉันได้ลองมา (จนถึงระดับที่แตกต่างกัน) ก่อนอื่นฉันลองจำแนก k-NN (ด้วยการดัดแปลงต่าง ๆ ) และได้ผลลัพธ์ที่แย่มาก สิ่งนี้นำฉันไปสู่การแยกคุณลักษณะต่างๆจากอนุกรมเวลา - นั่นคือค่าเฉลี่ยความแปรปรวนค่าสูงสุดนาทีค่าศูนย์รวมจำนวนวันที่เป็นศูนย์ทั้งหมดความแตกต่างระหว่างค่าเฉลี่ยครึ่งปีแรกและค่าเฉลี่ยครึ่งปีหลังเป็นต้น วันเป็นศูนย์และศูนย์วันทั้งหมดต่อท้าย (โดยใช้อัลกอริทึมการจำแนกประเภทต่างๆ) สิ่งนี้ทำได้ดีที่สุด แต่ประสิทธิภาพก็ยังไม่ดีนัก กลยุทธ์ต่อไปของฉันคือการใช้งานอินสแตนซ์เชิงลบในชุดการฝึกอบรมของฉันเนื่องจากมีจำนวนน้อยมาก สิ่งนี้ส่งผลให้การทำนายการยกเลิกถูกต้องมากขึ้น ฉันเริ่มคิดว่าบางทีข้อมูลการใช้อนุกรมเวลาอาจไม่สามารถคาดการณ์ได้มากนัก (แม้ว่าสามัญสำนึกบอกว่าควรจะเป็น) บางทีอาจมีตัวแปรแฝงที่ฉันไม่ได้พิจารณา การดูข้อมูลยังแสดงพฤติกรรมแปลก ๆ นั่นคือตัวอย่างบางส่วนแสดงการใช้งานน้อยมากหรือลดลง (หรือบางครั้งไม่มีเลย) และอย่ายกเลิกและบางคนแสดงการใช้งานที่เพิ่มขึ้นซึ่งยกเลิก บางทีพฤติกรรมที่ขัดแย้งนี้ไม่ได้สร้างขอบเขตการตัดสินใจที่ชัดเจนมากสำหรับตัวจําแนก แหล่งที่มาที่เป็นไปได้สำหรับข้อผิดพลาดคือข้อเท็จจริงที่ว่าตัวอย่างการฝึกอบรมจำนวนมากกระจัดกระจายมาก (เช่นหลายวันที่มีการใช้งาน 0 ครั้ง) แนวคิดหนึ่งที่ฉันยังไม่ได้ลองคือการแบ่งซีรีย์เวลาออกเป็นเซ็กเมนต์และสร้างคุณลักษณะบางอย่างในแบบนั้น แต่ฉันไม่มีความหวังสูง

1
ความแปรปรวนของผลตอบแทนประจำปีขึ้นอยู่กับความแปรปรวนของผลตอบแทนรายเดือน
ฉันพยายามที่จะเข้าใจความแตกต่างทั้งหมด / ข้อผิดพลาดมาตรฐานของชุดเวลาของผลตอบแทนทางการเงินและฉันคิดว่าฉันติดอยู่ ฉันมีชุดข้อมูลการส่งคืนสินค้ารายเดือน (เรียกว่า ) ซึ่งคาดว่ามีค่า 1.00795 และผลต่าง 0.000228 (std. dev คือ 0.01512) ฉันพยายามคำนวณกรณีเลวร้ายที่สุดของผลตอบแทนรายปี (สมมุติว่ามูลค่าที่คาดหวังลบด้วยข้อผิดพลาดมาตรฐานสองเท่า) วิธีไหนเป็นวิธีที่ดีที่สุดที่จะทำ? ก . คำนวณเป็นเดือนเดียว ( ) แล้วคูณด้วยตัวมันเอง 12 ครั้ง (= 0.7630 ) ข . สมมติว่าเดือนมีความเป็นอิสระกำหนด 12 ครั้งพบว่าเป็นค่าที่คาดหวังXXX μX−2⋅σX=0.977μX−2⋅σX=0.977\mu_X-2\cdot \sigma_X=0.977 Y=X⋅X⋅...⋅XY=X⋅X⋅...⋅XY=X\cdot X\cdot ...\cdot XE[Y]=(E[X])12E[Y]=(E[X])12E[Y]=(E[X])^{12}) และความแปรปรวน{12} สำหรับการพัฒนามาตรฐานในกรณีนี้คือ 0.0572 และค่าที่คาดหวังลบสองมาตรฐาน. dev เป็น0.9853 . ซี . คูณมาตรฐานรายเดือน. dev …

2
ความสัมพันธ์อัตโนมัติเชิงพื้นที่สำหรับข้อมูลอนุกรมเวลา
ฉันมีชุดข้อมูล 20 ปีของการนับจำนวนปีของสายพันธุ์ที่อุดมสมบูรณ์สำหรับชุดรูปหลายเหลี่ยม (~ 200 รูปหลายเหลี่ยมที่ต่อเนื่องและมีรูปร่างไม่สม่ำเสมอ) ฉันใช้การวิเคราะห์การถดถอยเพื่ออนุมานแนวโน้ม (การเปลี่ยนแปลงจำนวนต่อปี) สำหรับรูปหลายเหลี่ยมแต่ละรูปรวมถึงการรวมข้อมูลรูปหลายเหลี่ยมตามขอบเขตการจัดการ ฉันแน่ใจว่ามีข้อมูลเชิงพื้นที่สัมพันธ์อัตโนมัติซึ่งแน่นอนว่าจะส่งผลกระทบต่อการวิเคราะห์การถดถอยสำหรับข้อมูลรวม คำถามของฉันคือ - ฉันจะรันการทดสอบ SAC สำหรับข้อมูลอนุกรมเวลาได้อย่างไร ฉันต้องดู SAC ​​ของส่วนที่เหลือจากการถดถอยของฉันในแต่ละปี (โมแรนระดับโลกของฉัน) หรือไม่? หรือฉันสามารถทำการทดสอบหนึ่งครั้งกับทุกปีได้หรือไม่? เมื่อฉันทดสอบว่าใช่มี SAC มีวิธีง่าย ๆ ในการจัดการเรื่องนี้หรือไม่? พื้นหลังสถิติของฉันมีน้อยและทุกอย่างที่ฉันได้อ่านในการสร้างแบบจำลองเชิงพื้นที่มีความซับซ้อนมาก ฉันรู้ว่า R มีฟังก์ชั่น autocovariate ทางไกล - นี่ใช้ง่ายไหม? ฉันค่อนข้างสับสนในการประเมิน / addess SAC สำหรับปัญหานี้และจะขอบคุณคำแนะนำลิงก์หรือการอ้างอิงใด ๆ ขอบคุณล่วงหน้า!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.