คำถามติดแท็ก trend

รูปแบบที่สังเกตได้ในข้อมูล


2
แนวโน้ม STL ของอนุกรมเวลาโดยใช้ R
ฉันยังใหม่กับ R และการวิเคราะห์อนุกรมเวลา ฉันพยายามค้นหาแนวโน้มของอนุกรมเวลาอุณหภูมิรายวัน (40 ปี) ที่ยาวนานและพยายามประมาณที่แตกต่างกัน อันแรกเป็นเพียงการถดถอยเชิงเส้นอย่างง่ายและอันที่สองคือการสลายตัวตามฤดูกาลของอนุกรมเวลาโดย Loess ในระยะหลังปรากฏว่าองค์ประกอบตามฤดูกาลมากกว่าแนวโน้ม แต่ฉันจะหาแนวโน้มได้อย่างไร ฉันต้องการตัวเลขที่บอกว่าแนวโน้มนั้นแข็งแกร่งเพียงใด Call: stl(x = tsdata, s.window = "periodic") Time.series components: seasonal trend remainder Min. :-8.482470191 Min. :20.76670 Min. :-11.863290365 1st Qu.:-5.799037090 1st Qu.:22.17939 1st Qu.: -1.661246674 Median :-0.756729578 Median :22.56694 Median : 0.026579468 Mean :-0.005442784 Mean :22.53063 Mean : …
27 r  time-series  trend 

1
เกณฑ์การตั้งค่า STL s.window width
ใช้Rเพื่อทำการแยกสลาย STL s.windowควบคุมความรวดเร็วขององค์ประกอบตามฤดูกาลที่สามารถเปลี่ยนแปลงได้ ค่าขนาดเล็กช่วยให้การเปลี่ยนแปลงรวดเร็วยิ่งขึ้น การตั้งค่าหน้าต่างตามฤดูกาลให้เป็นอนันต์เทียบเท่ากับการบังคับให้ส่วนประกอบตามฤดูกาลเป็นคาบ (กล่าวคือเหมือนกันทุกปี) คำถามของฉัน: ถ้าผมมีเวลาแบบรายเดือน (ที่มีความถี่เท่ากับ ) สิ่งที่เกณฑ์ควรจะใช้ชุด?121212s.window มีการเชื่อมโยงระหว่างความถี่นั้นกับอนุกรมเวลาหรือไม่

2
อนุกรมเวลาและการตรวจจับความผิดปกติ
ฉันต้องการติดตั้งอัลกอริทึมสำหรับตรวจจับความผิดปกติในอนุกรมเวลาและฉันวางแผนที่จะใช้การทำคลัสเตอร์สำหรับสิ่งนั้น เหตุใดฉันจึงควรใช้เมทริกซ์ระยะทางสำหรับการจัดกลุ่มและไม่ใช่ข้อมูลอนุกรมเวลา สำหรับการตรวจจับความผิดปกติฉันจะใช้การจัดกลุ่มตามความหนาแน่นอัลกอริธึมเป็น DBscan ดังนั้นกรณีนี้จะใช้ได้หรือไม่ มีเวอร์ชั่นออนไลน์สำหรับการสตรีมข้อมูลหรือไม่ ฉันต้องการตรวจจับความผิดปกติก่อนที่จะเกิดขึ้นดังนั้นการใช้อัลกอริธึมการตรวจจับแนวโน้ม (ARIMA) เป็นทางเลือกที่ดีหรือไม่?

2
ทำความเข้าใจกับความล่าช้าในการทดสอบเพิ่ม Dickey Fuller ของ R
ฉันเล่นรอบ ๆ ด้วยการทดสอบรูทยูนิตใน R และฉันไม่แน่ใจว่าจะทำอย่างไรกับพารามิเตอร์ k lag ฉันใช้การทดสอบเพิ่มDickey FullerและการทดสอบPhilipps Perronจากแพ็คเกจtseries เห็นได้ชัดว่าพารามิเตอร์เริ่มต้น(สำหรับ) ขึ้นอยู่กับความยาวของซีรีส์เท่านั้น ถ้าฉันเลือกk- ค่าต่างกันฉันจะได้ผลลัพธ์ที่แตกต่างกันมาก ปฏิเสธโมฆะ:kkkadf.testkkk Dickey-Fuller = -3.9828, Lag order = 4, p-value = 0.01272 alternative hypothesis: stationary # 103^(1/3)=k=4 Dickey-Fuller = -2.7776, Lag order = 0, p-value = 0.2543 alternative hypothesis: stationary # k=0 Dickey-Fuller = -2.5365, Lag order …
15 r  time-series  trend 

3
เหตุใดจึงถูกต้องเพื่อทำให้เสียเวลาอนุกรมด้วยการถดถอย
มันอาจเป็นคำถามแปลก ๆ เลย แต่ในฐานะที่เป็นสามเณรในเรื่องที่ฉันสงสัยว่าทำไมเราถึงใช้การถดถอยเพื่อทำให้เป็นอนุกรมเวลาถ้าหนึ่งในสมมติฐานของการถดถอยคือข้อมูลที่ควรใช้ในขณะที่ข้อมูลที่ใช้ในการถดถอยนั้น ไม่ใช่ id

1
เมื่อใดที่จำเป็นต้องรวมความล่าช้าของตัวแปรตามในแบบจำลองการถดถอยและความล่าช้าใด
ข้อมูลที่เราต้องการใช้เป็นตัวแปรตามจะมีลักษณะเช่นนี้ (นับเป็นข้อมูล) เรากลัวว่าเนื่องจากมันมีองค์ประกอบวงจรและโครงสร้างแนวโน้มการถดถอยจึงกลายเป็นลำเอียงอย่างใด เราจะใช้การถดถอยแบบทวินามเชิงลบในกรณีที่มันช่วย ข้อมูลเป็นพาเนลที่สมดุลหนึ่งจำลองต่อบุคคล (รัฐ) ภาพที่แสดงแสดงผลรวมของตัวแปรตามสำหรับทุกรัฐ แต่รัฐส่วนใหญ่เพียงอย่างเดียวมีพฤติกรรมที่คล้ายกัน เรากำลังพิจารณาโมเดลเอฟเฟกต์คงที่ ตัวแปรตามไม่ได้มีความสัมพันธ์กันอย่างมากส่วนหนึ่งของการวิจัยคือการหาความสัมพันธ์ที่ไม่คาดคิดระหว่างตัวแปรนี้ดังนั้นความสัมพันธ์ที่อ่อนแอจึงเป็นสิ่งที่ดี อะไรคือภัยที่แน่นอนของการไม่รวมตัวแปรล่าช้าของตัวแปรตาม? หากมีความจำเป็นที่จะต้องรวมหนึ่งจะมีการทดสอบที่จะรู้ว่าหนึ่ง (s)? มีการนำไปใช้งานใน R หมายเหตุ : ฉันได้อ่านโพสต์นี้แต่ไม่ได้ช่วยแก้ไขปัญหาของเรา

6
วิธีการเปลี่ยนลักษณะอย่างกะทันหัน?
คำถามนี้อาจง่ายเกินไป สำหรับแนวโน้มชั่วคราวของข้อมูลฉันต้องการค้นหาจุดที่การเปลี่ยนแปลง "ฉับพลัน" เกิดขึ้น ตัวอย่างเช่นในรูปแรกที่แสดงด้านล่างฉันต้องการค้นหาจุดเปลี่ยนแปลงโดยใช้วิธีการทางสถิติ และฉันต้องการที่จะใช้วิธีการดังกล่าวกับข้อมูลอื่น ๆ ที่จุดเปลี่ยนไม่ชัดเจน (เช่นรูปที่ 2) ดังนั้นจึงมีวิธีการร่วมกันสำหรับวัตถุประสงค์ดังกล่าวหรือไม่

1
ความแตกต่างระหว่างซีรีย์ดริฟท์และซีรีย์ที่มีเทรนด์
ชุดมีดริฟท์สามารถจำลองเป็น ที่เป็นดริฟท์ (คงที่) และ 1 Yเสื้อ= c + ϕ yt - 1+ εเสื้อYเสื้อ=ค+φYเสื้อ-1+εเสื้อy_t = c + \phi y_{t-1} + \varepsilon_tคคcϕ = 1φ=1\phi=1 ชุดที่มีแนวโน้มสามารถจำลองเป็นที่เป็นดริฟท์ (คงที่),เป็นแนวโน้มเวลาที่กำหนดและ 1Yเสื้อ= c + δt + ϕ yt - 1+ εเสื้อYเสื้อ=ค+δเสื้อ+φYเสื้อ-1+εเสื้อy_t = c + \delta t + \phi y_{t-1} + \varepsilon_tคคcδเสื้อδเสื้อ\delta tφ= 1φ=1\phi=1 ทั้งสองซีรี่ส์เป็นและฉันคิดว่าทั้งคู่แสดงพฤติกรรมที่เพิ่มขึ้นผม( 1 )ผม(1)I(1) หากฉันมีซีรี่ส์ใหม่ที่แสดงพฤติกรรมที่เพิ่มขึ้นฉันจะรู้ได้อย่างไรว่าซีรี่ส์นี้เป็นซีรี่ส์ที่มีการดริฟท์หรือมีแนวโน้ม …

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
การทดสอบทางสถิติเพื่อตรวจสอบเมื่ออนุกรมเวลาสองชุดที่คล้ายกันเริ่มแตก
จากชื่อฉันต้องการทราบว่ามีการทดสอบทางสถิติที่สามารถช่วยฉันระบุความแตกต่างที่สำคัญระหว่างอนุกรมเวลาสองชุดที่คล้ายกันได้หรือไม่ โดยเฉพาะเมื่อดูรูปด้านล่างฉันต้องการตรวจสอบว่าซีรีย์เริ่มเบี่ยงเบนเวลา t1 คือเมื่อความแตกต่างระหว่างพวกเขาเริ่มมีนัยสำคัญ ยิ่งกว่านั้นฉันจะตรวจจับเมื่อความแตกต่างระหว่างซีรีย์กลับมามีความหมายไม่มาก มีการทดสอบทางสถิติที่มีประโยชน์ในการทำเช่นนี้หรือไม่?

2
การเปรียบเทียบชุดอนุกรมเวลา
ฉันมีข้อมูลอนุกรมเวลาสามชุดที่ฉันต้องการเปรียบเทียบ พวกเขาถูกถ่าย 3 ช่วงเวลาแยกกันประมาณ 12 วัน เป็นค่าเฉลี่ยหัวสูงสุดและต่ำสุดของการนับหัวในห้องสมุดวิทยาลัยในช่วงสัปดาห์สุดท้าย ฉันต้องทำค่าเฉลี่ยสูงสุดและต่ำสุดเนื่องจากจำนวนหัวต่อชั่วโมงนั้นไม่ต่อเนื่อง (ดูช่องว่างข้อมูลปกติในอนุกรมเวลา ) ตอนนี้ชุดข้อมูลมีลักษณะเช่นนี้ มีจุดข้อมูลหนึ่งจุด (เฉลี่ยสูงสุดหรือต่ำสุด) ต่อเย็นเป็นเวลา 12 ค่ำ มีข้อมูล 3 ภาคการศึกษาดำเนินการเฉพาะในช่วงเวลา 12 วันของความกังวล ตัวอย่างเช่น Spring 2010, Fall 2010 และ May 2011 แต่ละชุดมี 12 คะแนน นี่คือแผนภูมิตัวอย่าง: ฉันได้เทอมเทเลเทอร์เพราะฉันต้องการที่จะดูว่ารูปแบบการเปลี่ยนแปลงจากภาคการศึกษาเพื่อภาคการศึกษา อย่างไรก็ตามตามที่ฉันได้รับแจ้งในเธรดที่เชื่อมโยงคุณไม่ควรตบท้ายเทอมหางเนื่องจากไม่มีข้อมูลในระหว่างนั้น คำถามคือแล้ว: ฉันสามารถใช้เทคนิคทางคณิตศาสตร์อะไรเพื่อเปรียบเทียบรูปแบบการเข้าเรียนสำหรับแต่ละภาคการศึกษา มีสิ่งใดเป็นพิเศษสำหรับซีรี่ส์เวลาที่ฉันต้องทำหรือฉันจะรับความแตกต่างของเปอร์เซ็นต์ได้หรือไม่? เป้าหมายของฉันคือบอกว่าการใช้ห้องสมุดในช่วงนี้กำลังจะขึ้นหรือลง ฉันไม่แน่ใจว่าฉันควรใช้เทคนิคใดในการแสดง

6
ใช้หลักการประมวลผลสัญญาณที่น่าสงสัยเพื่อระบุแนวโน้ม
ฉันกำลังเสนอให้พยายามหาแนวโน้มในข้อมูลระยะยาวที่มีเสียงดังมาก ข้อมูลนั้นเป็นการวัดรายสัปดาห์ของสิ่งที่เคลื่อนไหวประมาณ 5 มม. ในช่วงเวลาประมาณ 8 เดือน ข้อมูลมีความแม่นยำ 1 มม. และมีเสียงดังมากเปลี่ยนเป็นประจำ +/- 1 หรือ 2 มม. ในหนึ่งสัปดาห์ เรามีข้อมูลไปยังมิลลิเมตรที่ใกล้ที่สุดเท่านั้น เราวางแผนที่จะใช้การประมวลผลสัญญาณพื้นฐานด้วยการแปลงฟูริเยร์ที่รวดเร็วเพื่อแยกสัญญาณรบกวนออกจากข้อมูลดิบ สมมติฐานพื้นฐานคือถ้าเราสะท้อนชุดข้อมูลของเราและเพิ่มลงในส่วนท้ายของชุดข้อมูลที่มีอยู่ของเราเราสามารถสร้างความยาวคลื่นเต็มรูปแบบของข้อมูลและดังนั้นข้อมูลของเราจะแสดงในการแปลงฟูริเยร์ที่รวดเร็วและหวังว่าจะแยกมันออกได้ . ระบุว่าสิ่งนี้ฟังดูน่าสงสัยเล็กน้อยสำหรับฉันนี่เป็นวิธีที่คุ้มค่าหรือไม่หรือเป็นวิธีการทำมิเรอร์และต่อท้ายข้อมูลของเรา เรากำลังดูวิธีการอื่น ๆ เช่นการใช้ตัวกรองสัญญาณความถี่ต่ำเช่นกัน

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
Naive Bayes กำลังเป็นที่นิยมมากขึ้นหรือไม่? ทำไม?
นี่คือผลลัพธ์แนวโน้ม google ที่ได้รับสำหรับวลี "Naive Bayes" ตั้งแต่เดือนมกราคม 2004 ถึงเมษายน 2017 ( ลิงก์ ) จากตัวเลขนี้อัตราส่วนการค้นหาของ "Naive Bayes" ในเดือนเมษายน 2017 สูงกว่าค่าสูงสุดในช่วงเวลาทั้งหมดประมาณ 25% สิ่งนี้บอกเป็นนัยหรือไม่ว่าวิธีที่เรียบง่ายและเก่านี้ได้รับความสนใจมากขึ้น? ทำไม? คำอธิบายที่สมเหตุสมผล (ตามความเห็นของ Sycorax) คือความนิยมนี้เป็นผลทางอ้อมของการเพิ่มความสนใจในการเรียนรู้ของเครื่อง แต่ดูเหมือนว่าวิธีการบางอย่างเช่น Naive Bayes กำลังได้รับความสนใจมากกว่าวิธีอื่นเช่นต้นไม้ตัดสินใจและ SVM สามารถล้างได้จากตัวเลขต่อไปนี้:

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.