คำถามติดแท็ก prediction-interval

ช่วงเวลาการทำนาย (เช่นช่วงการคาดการณ์) เป็นช่วงเวลาที่ครอบคลุมอนาคต (หรือไม่ทราบอย่างอื่น แต่ค่า * สามารถสังเกตได้ *) ของตัวแปรสุ่มที่มีความน่าจะเป็นแบบกำหนดล่วงหน้าบางส่วน

2
วิธีการ: ทำนายช่วงเวลาสำหรับการถดถอยเชิงเส้นผ่าน bootstrapping
ฉันมีปัญหาในการทำความเข้าใจวิธีการใช้การบูตการคำนวณเพื่อคำนวณช่วงการทำนายสำหรับตัวแบบการถดถอยเชิงเส้น มีใครบางคนสามารถร่างกระบวนการทีละขั้นตอนได้หรือไม่? ฉันค้นหาผ่าน google แต่ไม่มีอะไรเหมาะสมกับฉัน ฉันเข้าใจวิธีใช้การบูตสแตรปปิ้งเพื่อคำนวณช่วงความมั่นใจสำหรับพารามิเตอร์โมเดล

1
ช่วงการทำนายสำหรับตัวแปรสุ่มแบบทวินาม
สูตร (โดยประมาณหรือแน่นอน) สำหรับช่วงเวลาการทำนายสำหรับตัวแปรสุ่มแบบทวินามคืออะไร สมมติว่าและเราสังเกตว่า (ดึงมาจาก ) เป็นที่รู้จักกันY∼Binom(n,p)Y∼Binom(n,p)Y \sim \mathsf{Binom}(n, p)yyyYYYnnn เป้าหมายของเราคือการได้รับช่วงเวลาที่การคาดการณ์ 95% สำหรับการวาดใหม่จากYYYY ประมาณการจุดคือที่{n} ช่วงความมั่นใจสำหรับนั้นตรงไปตรงมา แต่ฉันไม่สามารถหาสูตรสำหรับช่วงการทำนายสำหรับได้ ถ้าเรารู้ (แทนที่จะเป็น ) ช่วงเวลาการทำนาย 95% นั้นเกี่ยวข้องกับการหาควอนไทล์ของทวินาม มีบางสิ่งที่ชัดเจนที่ฉันมองเห็นหรือไม่?พี = Ynp^np^n\hat{p}P Yพีพีp^=ynp^=yn\hat{p}=\frac{y}{n}p^p^\hat{p}YYYpppp^p^\hat{p}

2
รูปร่างของความมั่นใจและการทำนายระยะเวลาสำหรับการถดถอยแบบไม่เชิงเส้น
ความเชื่อมั่นและการคาดคะเนรอบ ๆ การถดถอยแบบไม่เชิงเส้นควรจะสมมาตรรอบ ๆ เส้นการถดถอยหรือไม่? ความหมายพวกเขาไม่ได้ใช้รูปทรงแก้วชั่วโมงเหมือนในกรณีของแถบสำหรับการถดถอยเชิงเส้น ทำไมถึงเป็นอย่างนั้น? นี่คือตัวอย่างของคำถาม: นี่คือรูป: F(x)=⎛⎝⎜⎜A−D1+(xC)B⎞⎠⎟⎟+DF(x)=(A−D1+(xC)B)+D F(x) = \left(\frac{A-D}{1 + \left(\frac x C\right)^B}\right) + D และนี่คือสมการ:

1
วิธีค้นหาช่วงเวลาการคาดคะเนของ GBM
ฉันกำลังทำงานกับรุ่น GBM โดยใช้ชุดคาเร็ตและมองหาวิธีการแก้ช่วงการทำนายสำหรับข้อมูลที่คาดการณ์ไว้ ฉันค้นหาอย่างกว้างขวาง แต่มีความคิดเล็กน้อยเพื่อค้นหาช่วงเวลาการคาดการณ์สำหรับ Random Forest ความช่วยเหลือใด ๆ / รหัส R จะได้รับการชื่นชมอย่างมาก!

2
เราสามารถสร้างความน่าจะเป็นด้วยการทำนายเป็นช่วง ๆ ได้หรือไม่?
ฉันได้อ่านการอภิปรายที่ยอดเยี่ยมมากมายในเว็บไซต์เกี่ยวกับการตีความช่วงเวลาความเชื่อมั่นและช่วงการคาดการณ์ แต่แนวคิดหนึ่งยังคงทำให้งงงวย: พิจารณากรอบ OLS และเราได้รับรูปแบบการติดตั้งY = X β เราได้รับx ∗และขอให้ทำนายการตอบสนองของมัน เราคำนวณx * T βและเป็นโบนัส, เรายังมีช่วงเวลาที่การคาดการณ์ 95% รอบการคาดการณ์ของเราลาได้รับสูตรสำหรับข้อ จำกัด ของการคาดการณ์ในรูปแบบเชิงเส้น ลองเรียกคำทำนายช่วงเวลา PI นี้ดูy^=Xβ^y^=Xβ^\hat y = X\hat\betax∗x∗x^*x∗Tβ^x∗Tβ^x^{*T}\hat\beta ทีนี้ข้อใดต่อไปนี้ (หรือไม่ใช่) การตีความ PI ที่ถูกต้องคืออะไร? สำหรับโดยเฉพาะอย่างยิ่งY ( x * )อยู่ภายใน PI กับความน่าจะเป็น 95%x∗x∗x^*y(x∗)y(x∗)y(x^*) หากเราได้รับจำนวนมากขั้นตอนนี้ในการคำนวณ PIs จะครอบคลุมการตอบสนองที่แท้จริง 95% ของเวลาxxx จากถ้อยคำของ @ gung ในช่วงการทำนายการถดถอยเชิงเส้นดูเหมือนว่าในอดีตจะเป็นความจริง (แม้ว่าฉันจะตีความการตีความผิดได้เป็นอย่างดี) การตีความที่ 1 …

1
ช่วงเวลาการทำนาย = ช่วงเวลาที่เชื่อถือได้?
ฉันสงสัยว่าช่วงเวลาการทำนายและช่วงเวลาที่น่าเชื่อถือจะประเมินสิ่งเดียวกันหรือไม่ ตัวอย่างเช่นการถดถอยเชิงเส้นเมื่อคุณประเมินช่วงเวลาการทำนายของค่าที่ติดตั้งไว้คุณจะประเมินขีด จำกัดของช่วงเวลาที่คุณคาดหวังว่ามูลค่าของคุณจะลดลง ตรงกันข้ามกับช่วงความมั่นใจคุณไม่ได้มุ่งเน้นไปที่พารามิเตอร์การกระจายเช่นค่าเฉลี่ย แต่ในค่าที่ตัวแปรอธิบายของคุณอาจใช้ค่า X ที่กำหนด (สมมติว่า )( 1 - α ) %(1-α)%(1-\alpha)\% Y= + ข X Y=a+ข.X\ Y = a + b.X เมื่อคุณประเมินค่าที่พอดีสำหรับค่ากำหนดภายในกรอบการทำงานแบบเบย์จากการแจกแจงความน่าจะเป็นหลังคุณสามารถประมาณช่วงเวลาที่น่าเชื่อถือได้ ช่วงเวลานี้ให้ข้อมูลเดียวกันกับค่าติดตั้งหรือไม่?XXX

2
การทำนายและช่วงเวลาความอดทน
ฉันมีคำถามสองสามข้อสำหรับการทำนายและช่วงเวลาที่ยอมรับได้ เราเห็นด้วยกับคำจำกัดความของช่วงความอดทนก่อน: เราจะได้รับระดับความเชื่อมั่นพูด 90% เปอร์เซ็นต์ของประชากรที่จะจับพูด 99% และขนาดตัวอย่าง 20 คนการกระจายความน่าจะเป็นเป็นที่รู้จักพูดปกติ เพื่อความสะดวก. ทีนี้, จากตัวเลขสามตัวข้างต้น (90%, 99% และ 20) และความจริงที่ว่าการแจกแจงพื้นฐานเป็นเรื่องปกติ, เราสามารถคำนวณค่าเผื่อได้ ได้รับตัวอย่างมีค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานช่วงเวลาความอดทนเป็นKS หากช่วงความอดทนนี้จับ 99% ของประชากรดังนั้นตัวอย่างเรียกว่าสำเร็จ( x 1 , x 2 , … , x 20 ) ˉ x s ˉ x ± k s ( x 1 , x 2 , … , …

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
จะคำนวณช่วงความมั่นใจสำหรับการทำนายอนุกรมเวลาได้อย่างไร
ฉันมีอนุกรมเวลา (สมมติว่าถึงX n ) และฉันจำเป็นต้องทำนายตัวอย่างถัดไป (สมมุติว่าX n + 1 , X n + 2 , … , X n + k ) โดยใช้โมเดลเช่นโครงข่ายประสาท หรือการถดถอยเชิงเส้นหลาย ณ เวลาที่ฉันมีตัวอย่างทั้งหมดจากX 1ถึงX nและจำเป็นต้องทำนายX n + 1 ; ในเวลาn + 1ฉันมีตัวอย่างทั้งหมดจากX 1ถึงXX1X1X_1XnXnX_nXn + 1, Xn + 2, … , Xn + kXn+1,Xn+2,...,Xn+kX_{n+1}, X_{n+2},\dots, X_{n+k}X1X1X_1XnXnX_nXn + 1Xn+1X_{n+1}n …

1
การคำนวณช่วงเวลาการทำนายเมื่อใช้การตรวจสอบความถูกต้องข้าม
การประมาณค่าเบี่ยงเบนมาตรฐานคำนวณโดย: sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) สำหรับการทำนายความถูกต้องตัวอย่างจากการตรวจสอบความถูกต้องไขว้ 10 เท่า ฉันกังวลว่าความแม่นยำในการทำนายที่คำนวณระหว่างแต่ละครั้งนั้นขึ้นอยู่กับชุดการฝึกอบรมที่ทับซ้อนกันอย่างมาก (แม้ว่าชุดการทำนายจะเป็นอิสระ) แหล่งข้อมูลใด ๆ ที่กล่าวถึงนี้จะเป็นประโยชน์อย่างมาก

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
การคำนวณช่วงเวลาการทำนาย
ผมได้ข้อมูลต่อไปนี้ตั้งอยู่ที่นี่ ฉันพยายามคำนวณช่วงความมั่นใจ 95% ของความบริสุทธิ์เฉลี่ยเมื่อเปอร์เซ็นต์ไฮโดรคาร์บอนเท่ากับ 1.0 ใน R ฉันป้อนสิ่งต่อไปนี้ > predict(purity.lm, newdata=list(hydro=1.0), interval="confidence", level=.95) fit lwr upr 1 89.66431 87.51017 91.81845 อย่างไรก็ตามฉันจะได้ผลลัพธ์นี้ด้วยตนเองได้อย่างไร ฉันพยายามใช้สมการต่อไปนี้ sn E W=s2( 1 +1ยังไม่มีข้อความ+(xn E W-x¯)2∑ (xผม-x¯)2)----------------------√snอีW=s2(1+1ยังไม่มีข้อความ+(xnอีW-x¯)2Σ(xผม-x¯)2)s_{new}=\sqrt{s^2\left(1+\frac{1}{N}+\frac{(x_{new}-\bar x)^2}{\sum(x_i-\bar x)^2}\right)} และฉันป้อนสิ่งต่อไปนี้ในอาร์ > SSE_line = sum((purity - (77.863 + 11.801*hydro))^2) > MSE = SSE_line/18 > t.quantiles <- qt(c(.025, .975), …

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.