คำถามติดแท็ก prediction

การทำนายปริมาณสุ่มที่ไม่รู้จักโดยใช้แบบจำลองทางสถิติ

2
ประเมินการกระจายการทำนายหลังในการถดถอยเชิงเส้นแบบเบย์
ฉันสับสนเกี่ยวกับวิธีการประเมินการกระจายการทำนายหลังสำหรับการถดถอยเชิงเส้นแบบเบย์ผ่านกรณีพื้นฐานที่อธิบายไว้ที่นี่ในหน้า 3 และคัดลอกด้านล่าง p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y)p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y) p(\tilde y \mid y) = \int p(\tilde y \mid \beta, \sigma^2) p(\beta, \sigma^2 \mid y) กรณีพื้นฐานคือตัวแบบการถดถอยเชิงเส้น: y=Xβ+ϵ,y∼N(Xβ,σ2)y=Xβ+ϵ,y∼N(Xβ,σ2) y = X \beta + \epsilon, \hspace{10mm} y \sim N(X \beta, \sigma^2) ถ้าเราใช้ทั้งเครื่องแบบก่อนหน้าโดยมีมาตราส่วน-Invก่อนหน้าบนหรือค่าผกผันแกมมาปกติก่อนหน้า (ดูที่นี่ ) การกระจายการทำนายหลังเป็นแบบวิเคราะห์และเป็นนักเรียน t ββ\betaχ2χ2\chi^2σ2σ2\sigma^2 แล้วรุ่นนี้ล่ะ? y=Xβ+ϵ,y∼N(Xβ,Σ)y=Xβ+ϵ,y∼N(Xβ,Σ) y = X \beta + \epsilon, \hspace{10mm} y \sim …

1
การคำนวณช่วงเวลาการทำนายเมื่อใช้การตรวจสอบความถูกต้องข้าม
การประมาณค่าเบี่ยงเบนมาตรฐานคำนวณโดย: sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) สำหรับการทำนายความถูกต้องตัวอย่างจากการตรวจสอบความถูกต้องไขว้ 10 เท่า ฉันกังวลว่าความแม่นยำในการทำนายที่คำนวณระหว่างแต่ละครั้งนั้นขึ้นอยู่กับชุดการฝึกอบรมที่ทับซ้อนกันอย่างมาก (แม้ว่าชุดการทำนายจะเป็นอิสระ) แหล่งข้อมูลใด ๆ ที่กล่าวถึงนี้จะเป็นประโยชน์อย่างมาก

1
จะรับการทำนายสำหรับตัวแปรเฉพาะใน WinBUGS ได้อย่างไร
ฉันเป็นผู้ใช้ใหม่ของ WinBUGS และมีคำถามหนึ่งข้อสำหรับความช่วยเหลือของคุณ หลังจากใช้รหัสต่อไปนี้ผมได้ค่าพารามิเตอร์ของbeta0ผ่านbeta4(สถิติ, ความหนาแน่น) แต่ผมไม่ทราบว่าจะได้รับการคาดการณ์ของมูลค่าสุดท้ายของhซึ่งผมตั้งค่าให้NAกับรูปแบบในรหัส ทุกคนสามารถให้คำแนะนำแก่ฉันได้หรือไม่? คำแนะนำใด ๆ ที่จะได้รับการชื่นชมอย่างมาก model { for(i in 1: N) { CF01[i] ~ dnorm(0, 20) CF02[i] ~ dnorm(0, 1) h[i] ~ dpois (lambda [i]) log(lambda [i]) <- beta0 + beta1*CF03[i] + beta2*CF02[i] + beta3*CF01[i] + beta4*IND[i] } beta0 ~ dnorm(0.0, 1.0E-6) beta1 ~ dnorm(0.0, …

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
การย่อยสลายความแปรปรวนแบบอคติ: คำที่คาดการณ์ข้อผิดพลาดกำลังสองน้อยกว่าข้อผิดพลาดลดลง
Hastie และคณะ "องค์ประกอบของการเรียนรู้ทางสถิติ" (2009) พิจารณากระบวนการสร้างข้อมูล กับและvarepsilon}Y= f( X) + εY=f(X)+ε Y = f(X) + \varepsilon E (ε)=0E(ε)=0\mathbb{E}(\varepsilon)=0Var ( ε ) =σ2εVar(ε)=σε2\text{Var}(\varepsilon)=\sigma^2_{\varepsilon} พวกเขานำเสนอการสลายตัวอคติ - แปรปรวนต่อไปนี้ของข้อผิดพลาดคาดการณ์กำลังสองที่จุด (หน้า 223 สูตร 7.9): ในของฉัน งานของตัวเองฉันไม่ได้ระบุแต่รับการคาดการณ์แบบสุ่มแทน (ถ้าเกี่ยวข้อง) คำถาม:ฉันกำลังมองหาคำว่า หรือแม่นยำยิ่งขึ้น x0x0x_0ข้อผิดพลาด(x0)= E ( [ y-ฉ^(x0)]2|X=x0)= ...=σ2ε+อคติ2(ฉ^(x0) ) + Var (ฉ^(x0) )= ข้อผิดพลาดลดลง +อคติ2+ แปรปรวนErr(x0)=E([y−f^(x0)]2|X=x0)=…=σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.\begin{aligned} \text{Err}(x_0) &= …

2
ผลการถดถอยมีขอบเขตบนที่ไม่คาดคิด
ฉันพยายามทำนายคะแนนสมดุลและลองวิธีการถดถอยที่แตกต่างกันหลายวิธี สิ่งหนึ่งที่ฉันสังเกตเห็นคือค่าคาดการณ์ดูเหมือนจะมีขอบเขตบนบางอย่าง นั่นคือความสมดุลที่เกิดขึ้นจริงในแต่คาดการณ์ของฉันที่ด้านบนสุดที่ประมาณ0.8พล็อตต่อไปนี้แสดงยอดคงเหลือตามจริงกับยอดคงเหลือที่คาดการณ์ไว้ (ทำนายด้วยการถดถอยเชิงเส้น):[ 0.0 , 1.0 )[0.0,1.0)[0.0, 1.0)0.80.80.8 และนี่คือแผนการแจกแจงสองข้อมูลเดียวกัน: เนื่องจากตัวทำนายของฉันเบ้มาก (ข้อมูลผู้ใช้ที่มีการแจกแจงกฎหมายพลังงาน) ฉันจึงใช้การแปลงแบบบ็อกซ์ค็อกซ์ซึ่งเปลี่ยนผลลัพธ์เป็นต่อไปนี้: แม้ว่ามันจะเปลี่ยนการกระจายตัวของการทำนาย แต่ก็ยังคงมีขอบเขตบน ดังนั้นคำถามของฉันคือ: อะไรคือเหตุผลที่เป็นไปได้สำหรับขอบเขตบนดังกล่าวในผลการทำนาย? ฉันจะแก้ไขการคาดการณ์เพื่อให้สอดคล้องกับการแจกแจงของค่าจริงได้อย่างไร โบนัส:เนื่องจากการกระจายหลังจากแปลงบ็อกซ์ค็อกซ์ดูเหมือนว่าจะเป็นไปตามการกระจายตัวของตัวทำนายที่ถูกแปลงเป็นไปได้หรือไม่ว่ามันเชื่อมโยงโดยตรงหรือไม่ ถ้าเป็นเช่นนั้นจะมีการเปลี่ยนแปลงที่ฉันสามารถนำไปใช้เพื่อให้เหมาะสมกับการกระจายตัวกับค่าจริงหรือไม่? แก้ไข:ฉันใช้การถดถอยเชิงเส้นอย่างง่ายพร้อมตัวทำนาย 5 ตัว

3
การตรวจสอบความถูกต้องแบบข้าม K-fold หรือ hold-out สำหรับการถดถอยแบบสันโดยใช้ R
ฉันกำลังทำงานกับการตรวจสอบความถูกต้องของการทำนายข้อมูลของฉันกับ 200 วิชาและ 1,000 ตัวแปร ฉันสนใจการถดถอยตามจำนวนตัวแปร (ฉันต้องการใช้) มากกว่าจำนวนตัวอย่าง ดังนั้นฉันต้องการใช้ตัวประมาณค่าการหดตัว ข้อมูลตัวอย่างประกอบด้วยข้อมูลต่อไปนี้: #random population of 200 subjects with 1000 variables M <- matrix(rep(0,200*100),200,1000) for (i in 1:200) { set.seed(i) M[i,] <- ifelse(runif(1000)<0.5,-1,1) } rownames(M) <- 1:200 #random yvars set.seed(1234) u <- rnorm(1000) g <- as.vector(crossprod(t(M),u)) h2 <- 0.5 set.seed(234) y <- g …

3
ทำความเข้าใจเกี่ยวกับการทำนายแบบเบย์
ฉันกำลังเรียนหลักสูตร Intro to Bayes และฉันมีความยากลำบากในการเข้าใจการกระจายการทำนาย ฉันเข้าใจว่าทำไมพวกเขาถึงมีประโยชน์และฉันคุ้นเคยกับคำจำกัดความ แต่มีบางสิ่งที่ฉันไม่ค่อยเข้าใจ 1) วิธีรับการแจกแจงการทำนายที่ถูกต้องสำหรับเวกเตอร์ของการสังเกตใหม่ สมมติว่าเราได้สร้างแบบจำลองตัวอย่าง p(yi|θ)p(yi|θ)p(y_i | \theta) สำหรับข้อมูลและก่อน p(θ)p(θ)p(\theta). สมมติว่าข้อสังเกตyiyiy_i มีความเป็นอิสระตามเงื่อนไข θθ\theta. เราสังเกตข้อมูลบางอย่างแล้ว D={y1,y2,...,yk}D={y1,y2,...,yk}\mathcal{D} = \{y_1, y_2, \, ... \, , y_k\}และเราอัปเดตก่อนหน้าของเรา p(θ)p(θ)p(\theta) เพื่อหลัง p(θ|D)p(θ|D)p(\theta | \mathcal{D}). หากเราต้องการทำนายเวกเตอร์ของการสังเกตใหม่ N={y~1,y~2,...,y~n}N={y~1,y~2,...,y~n}\mathcal{N} = \{\tilde{y}_1, \tilde{y}_2, \, ... \, , \tilde{y}_n\}ฉันคิดว่าเราควรพยายามทำนายการใช้สูตรนี้ p(N|D)=∫p ( θ | D ) p …

1
การประเมินประสิทธิภาพการทำนายอนุกรมเวลา
ฉันมี Dynamic Naive Bayes Model ที่ได้รับการฝึกอบรมเกี่ยวกับตัวแปรทางโลกสองสามอย่าง ผลลัพธ์ของตัวแบบคือการทำนายP(Event) @ t+1โดยประมาณที่แต่ละtตัว พล็อตของP(Event)แทนที่จะtimeเป็นได้รับในรูปด้านล่าง ในรูปนี้เส้นสีดำแสดงถึงP(Event)แบบจำลองที่ทำนายไว้ เส้นสีแดงในแนวนอนหมายถึงความน่าจะเป็นสิ่งที่เกิดขึ้นก่อนเหตุการณ์; และเส้นแนวตั้งประเป็นตัวแทนเหตุการณ์ที่เกิดขึ้นห้าเหตุการณ์ในอนุกรมเวลา โดยหลักการแล้วฉันต้องการเห็นP(Event)จุดสูงสุดที่คาดการณ์ไว้ก่อนที่จะสังเกตเหตุการณ์ใด ๆ และอยู่ใกล้กับศูนย์เมื่อไม่มีโอกาสของเหตุการณ์ ฉันต้องการรายงานว่าแบบจำลองของฉัน (เส้นสีดำ) ทำงานได้ดีเพียงใดในการทำนายเหตุการณ์ที่เกิดขึ้น ผู้สมัครที่ชัดเจนที่จะเปรียบเทียบรูปแบบของฉันที่มีคือความน่าจะเป็นของเหตุการณ์ก่อน (เส้นสีแดง) ซึ่งหากใช้เป็น predictor- tจะทำนายค่าความน่าจะเป็นเหมือนกันสำหรับทุก อะไรคือสิ่งที่ดีที่สุดวิธีการอย่างเป็นทางการเพื่อให้บรรลุการเปรียบเทียบนี้? PS:ขณะนี้ฉันกำลังใช้การให้คะแนน (ใช้งานง่าย) ตามรหัสด้านล่างโดยที่คะแนนที่ต่ำกว่าโดยรวมบ่งบอกถึงประสิทธิภาพการทำนายที่ดีกว่า ฉันพบว่าจริง ๆ แล้วมันค่อนข้างยากที่จะเอาชนะก่อนด้วยการให้คะแนนนี้: # Get prediction performance model_score = 0; prior_score=0; for t in range(len(timeSeries)): if(timeSeries[t]== event): # event has happened cur_model_score …

1
การทำนายด้วย randomForest (R) เมื่ออินพุตบางตัวมีค่าขาดหายไป (NA)
ฉันมีrandomForestรูปแบบการจำแนกที่ดีซึ่งฉันต้องการใช้ในแอปพลิเคชันที่ทำนายคลาสของเคสใหม่ กรณีใหม่มีค่าที่ขาดหายไปอย่างหลีกเลี่ยงไม่ได้ การทำนายจะไม่ทำงานเช่นนี้สำหรับ NAs ฉันจะทำสิ่งนี้ได้อย่างไร data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] case.na[,na.col]<-NA iris.rf <- randomForest(Species ~ ., data=iris[-na.row,]) # print(iris.rf) myrf.pred <- predict(iris.rf, case.na[-5], type="response") myrf.pred [1] <NA> ฉันพยายามmissForestแล้ว ฉันรวมข้อมูลดั้งเดิมและเคสใหม่แล้วเขย่าด้วยmissForestและรับค่าที่เป็นนัยสำหรับ NAs ในเคสใหม่ของฉัน การคำนวณที่หนักเกินไป data.imp <- missForest(data.with.na) แต่ต้องมีวิธีการใช้ rf-model เพื่อทำนายกรณีใหม่ที่มีค่าหายไปใช่ไหม?

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
ใช้แบบจำลองการถดถอยเพื่อคาดการณ์: เมื่อใดจะหยุด?
ฉันคำนวณรูปแบบการถดถอยเชิงเส้นอย่างง่ายจากการทดลองของฉันเพื่อคาดการณ์ ฉันได้อ่านแล้วว่าคุณไม่ควรคำนวณการทำนายสำหรับคะแนนที่ออกไปไกลเกินไปจากข้อมูลที่มี อย่างไรก็ตามฉันไม่สามารถหาคำแนะนำใด ๆ เพื่อช่วยให้ฉันรู้ว่าฉันสามารถคาดการณ์ได้ไกลแค่ไหน ตัวอย่างเช่นหากฉันคำนวณความเร็วในการอ่านสำหรับขนาดดิสก์ 50GB ฉันเดาว่าผลลัพธ์จะใกล้เคียงกับความเป็นจริง ขนาดของดิสก์ 100GB, 500GB เป็นเท่าไหร่ ฉันจะรู้ได้อย่างไรว่าการทำนายของฉันใกล้เคียงกับความเป็นจริง? รายละเอียดของการทดสอบของฉันคือ: ฉันวัดความเร็วในการอ่านของซอฟต์แวร์โดยใช้ขนาดดิสก์ที่แตกต่างกัน จนถึงตอนนี้ฉันวัดด้วย 5GB ถึง 30GB โดยเพิ่มขนาดดิสก์ 5GB ระหว่างการทดลอง (ทั้งหมด 6 การวัด) ผลลัพธ์ของฉันเป็นเส้นตรงและข้อผิดพลาดมาตรฐานมีขนาดเล็กในความคิดของฉัน

1
ทำนายปัวซอง GLM พร้อมออฟเซ็ต
ฉันรู้ว่านี่อาจเป็นคำถามพื้นฐาน ... แต่ฉันดูเหมือนจะไม่พบคำตอบ ฉันเหมาะสมกับ GLM กับครอบครัวปัวซงแล้วลองดูการคาดคะเน แต่สิ่งที่พิจารณาจะนำมาพิจารณา: model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003), offset=(log(population)), data=data, subset=28:36, family=poisson()) predict (model_glm, type="response") ฉันได้รับคดีไม่ใช่อัตรา ... ฉันได้ลองแล้วเช่นกัน model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003)+ offset(log(population)), data=data, subset=28:36, family=poisson()) ด้วยผลลัพธ์เดียวกัน อย่างไรก็ตามเมื่อฉันทำนายจาก GAM โดยใช้ mgcv การคาดคะเนจะพิจารณาการชดเชย (ฉันได้รับอัตรา) ฉันทำอะไรบางอย่างหายไป?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.