คำถามติดแท็ก prediction

การทำนายปริมาณสุ่มที่ไม่รู้จักโดยใช้แบบจำลองทางสถิติ

1
การทำนายเกี่ยวกับโมเดลเอฟเฟกต์ผสม: จะทำอย่างไรกับเอฟเฟกต์แบบสุ่ม?
ลองพิจารณาชุดข้อมูลสมมุตินี้: set.seed(12345) num.subjects <- 10 dose <- rep(c(1,10,50,100), num.subjects) subject <- rep(1:num.subjects, each=4) group <- rep(1:2, each=num.subjects/2*4) response <- dose*dose/10 * group + rnorm(length(dose), 50, 30) df <- data.frame(dose=dose, response=response, subject=subject, group=group) เราสามารถใช้lmeเพื่อจำลองการตอบสนองด้วยโมเดลเอฟเฟกต์แบบสุ่ม: require(nlme) model <- lme(response ~ dose + group + dose*group, random = ~1|subject, df) ฉันต้องการใช้predictกับผลลัพธ์ของโมเดลนี้เพื่อรับการตอบสนองของหัวเรื่องทั่วไปของกลุ่ม 1 ถึงปริมาณ …

3
การทำนายข้อมูลนับด้วยฟอเรสต์แบบสุ่ม
ป่าสุ่มสามารถถูกฝึกให้ทำนายข้อมูลนับได้อย่างเหมาะสมหรือไม่? สิ่งนี้จะดำเนินการอย่างไร ฉันมีค่าค่อนข้างหลากหลายดังนั้นการจัดหมวดหมู่จึงไม่สมเหตุสมผล ถ้าฉันจะใช้การถดถอยฉันจะตัดทอนผลลัพธ์หรือไม่? ฉันหลงทางไปแล้ว ความคิดใด ๆ

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

1
จำเป็นต้องดำเนินการ preprocessing ก่อนการทำนายโดยใช้ FinalModel ของ RandomForest กับ caret package หรือไม่
ฉันใช้ชุดคาเร็ตสำหรับฝึกวัตถุสุ่มป่าด้วย 10x10CV library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) หลังจากนั้นฉันทดสอบ randomForest บน testSet (ข้อมูลใหม่) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) เมทริกซ์ความสับสนแสดงให้ฉันเห็นว่าแบบจำลองนั้นไม่เลว confusionMatrix(data=RF.testSet$Prediction, RF.testSet$Defect) Reference Prediction 0 1 0 886 179 1 53 126 Accuracy : 0.8135 95% CI : (0.7907, 0.8348) No …

1
ทำไม Netflix จึงเปลี่ยนจากระบบการจัดอันดับห้าดาวเป็นระบบ Like / Dislike
Netflix ใช้เพื่อจัดทำข้อเสนอแนะของผู้ใช้เกี่ยวกับการให้คะแนนภาพยนตร์ / รายการอื่น ๆ ระบบการจัดอันดับนี้มีห้าดาว ตอนนี้ Netflix อนุญาตให้ผู้ใช้ชอบ / ไม่ชอบ (thumbs-up / thumbs-down) ภาพยนตร์ / รายการ พวกเขาอ้างว่าให้คะแนนภาพยนตร์ได้ง่ายกว่า การจำแนกแบบสองทางนี้จะไม่สามารถคาดการณ์ทางสถิติได้น้อยกว่าระบบการจำแนกแบบ 5 ทิศทางหรือไม่? มันจะไม่จับการเปลี่ยนแปลงที่น้อยลงหรือไม่

1
ช่วงเวลาการทำนาย = ช่วงเวลาที่เชื่อถือได้?
ฉันสงสัยว่าช่วงเวลาการทำนายและช่วงเวลาที่น่าเชื่อถือจะประเมินสิ่งเดียวกันหรือไม่ ตัวอย่างเช่นการถดถอยเชิงเส้นเมื่อคุณประเมินช่วงเวลาการทำนายของค่าที่ติดตั้งไว้คุณจะประเมินขีด จำกัดของช่วงเวลาที่คุณคาดหวังว่ามูลค่าของคุณจะลดลง ตรงกันข้ามกับช่วงความมั่นใจคุณไม่ได้มุ่งเน้นไปที่พารามิเตอร์การกระจายเช่นค่าเฉลี่ย แต่ในค่าที่ตัวแปรอธิบายของคุณอาจใช้ค่า X ที่กำหนด (สมมติว่า )( 1 - α ) %(1-α)%(1-\alpha)\% Y= + ข X Y=a+ข.X\ Y = a + b.X เมื่อคุณประเมินค่าที่พอดีสำหรับค่ากำหนดภายในกรอบการทำงานแบบเบย์จากการแจกแจงความน่าจะเป็นหลังคุณสามารถประมาณช่วงเวลาที่น่าเชื่อถือได้ ช่วงเวลานี้ให้ข้อมูลเดียวกันกับค่าติดตั้งหรือไม่?XXX

1
R neuralnet - คำนวณให้คำตอบคงที่
ฉันกำลังพยายามใช้neuralnetแพ็คเกจของ R (เอกสารที่นี่ ) เพื่อคาดการณ์ นี่คือสิ่งที่ฉันพยายามทำ: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse = ' + '))) net <- neuralnet(f, train, hidden = c(5, 5), threshold=0.01) …

1
การเลือกรูปแบบ ABC
มันได้รับการแสดงให้เห็นว่าตัวเลือกรูปแบบ ABC โดยใช้ปัจจัย Bayes ไม่แนะนำให้เนื่องจากการปรากฏตัวของข้อผิดพลาดมาจากการใช้สถิติสรุป บทสรุปในบทความนี้ขึ้นอยู่กับการศึกษาพฤติกรรมของวิธีการที่เป็นที่นิยมสำหรับการประมาณค่าปัจจัยเบย์ (อัลกอริทึม 2) เป็นที่ทราบกันดีว่าปัจจัยของเบย์ไม่ใช่วิธีเดียวในการเลือกแบบจำลอง มีคุณสมบัติอื่น ๆ เช่นประสิทธิภาพการทำนายของแบบจำลองที่อาจเป็นที่สนใจ (เช่นกฎการให้คะแนน ) คำถามของฉันคือ : มีวิธีการที่คล้ายกับอัลกอริทึม 2 สำหรับการประมาณกฎการให้คะแนนหรือปริมาณอื่น ๆ ที่สามารถใช้สำหรับการเลือกรูปแบบในแง่ของประสิทธิภาพการทำนายในบริบทที่มีความซับซ้อนหรือไม่?

2
การทำนายและช่วงเวลาความอดทน
ฉันมีคำถามสองสามข้อสำหรับการทำนายและช่วงเวลาที่ยอมรับได้ เราเห็นด้วยกับคำจำกัดความของช่วงความอดทนก่อน: เราจะได้รับระดับความเชื่อมั่นพูด 90% เปอร์เซ็นต์ของประชากรที่จะจับพูด 99% และขนาดตัวอย่าง 20 คนการกระจายความน่าจะเป็นเป็นที่รู้จักพูดปกติ เพื่อความสะดวก. ทีนี้, จากตัวเลขสามตัวข้างต้น (90%, 99% และ 20) และความจริงที่ว่าการแจกแจงพื้นฐานเป็นเรื่องปกติ, เราสามารถคำนวณค่าเผื่อได้ ได้รับตัวอย่างมีค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานช่วงเวลาความอดทนเป็นKS หากช่วงความอดทนนี้จับ 99% ของประชากรดังนั้นตัวอย่างเรียกว่าสำเร็จ( x 1 , x 2 , … , x 20 ) ˉ x s ˉ x ± k s ( x 1 , x 2 , … , …

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
วิธีการคำนวณคะแนนความมั่นใจในการถดถอย (พร้อมฟอเรสต์แบบสุ่ม / XGBoost) สำหรับการทำนายแต่ละครั้งใน R อย่างไร
มีวิธีในการรับคะแนนความเชื่อมั่น (เราสามารถเรียกได้ว่าเป็นค่าความเชื่อมั่นหรือความน่าจะเป็น) สำหรับแต่ละค่าที่คาดการณ์เมื่อใช้อัลกอริทึมเช่นการสุ่มป่าหรือการไล่ระดับสีมากขึ้น สมมติว่าคะแนนความเชื่อมั่นนี้จะอยู่ในช่วงตั้งแต่ 0 ถึง 1 และแสดงว่าฉันมีความมั่นใจเกี่ยวกับการทำนายโดยเฉพาะอย่างไร จากสิ่งที่ฉันพบในอินเทอร์เน็ตเกี่ยวกับความมั่นใจมักจะวัดจากช่วงเวลา นี่คือตัวอย่างของช่วงความเชื่อมั่นที่คำนวณด้วยconfpredฟังก์ชันจากlavaไลบรารี: library(lava) set.seed(123) n <- 200 x <- seq(0,6,length.out=n) delta <- 3 ss <- exp(-1+1.5*cos((x-delta))) ee <- rnorm(n,sd=ss) y <- (x-delta)+3*cos(x+4.5-delta)+ee d <- data.frame(y=y,x=x) newd <- data.frame(x=seq(0,6,length.out=50)) cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd) if (interactive()) { ##' plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y") with(cc, lava::confband(newd$x, lwr, upr, fit, …

1
การทำนายด้วยเอฟเฟกต์แบบสุ่มในเกม mgcv
ฉันสนใจในการสร้างแบบจำลองการจับปลาทั้งหมดโดยใช้ gam ใน mgcv เพื่อสร้างเอฟเฟกต์แบบสุ่มง่าย ๆ สำหรับเรือแต่ละลำ ฉันมีวิชา 98 วิชาดังนั้นฉันคิดว่าฉันจะใช้ gam แทน gamm เพื่อจำลองเอฟเฟกต์แบบสุ่ม แบบจำลองของฉันคือ: modelGOM <- gam(TotalFish ~ factor(SetYear) + factor(SetMonth) + factor(TimePeriod) + s(SST) + s(VesselID, bs = "re", by = dum) + s(Distance, by = TimePeriod) + offset(log(HooksSet)), data = GOM, family = tw(), method = "REML") …

2
อะไรคือความสัมพันธ์ระหว่างการอนุมานเชิงสาเหตุและการทำนาย?
อะไรคือความสัมพันธ์และความแตกต่างระหว่างการอนุมานเชิงสาเหตุและการทำนาย (ทั้งการจำแนกและการถดถอย)? ในบริบทการทำนายเรามีตัวแปรตัวทำนาย / อินพุตและตัวแปรตอบกลับ / เอาต์พุต นั่นหมายความว่ามีความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรอินพุตและเอาต์พุตหรือไม่ ดังนั้นการทำนายเป็นของการอนุมานสาเหตุหรือไม่? ถ้าฉันเข้าใจถูกต้องการอนุมานเชิงสาเหตุจะพิจารณาการแจกแจงแบบมีเงื่อนไขของตัวแปรสุ่มหนึ่งตัวที่ให้ตัวแปรสุ่มอีกตัวหนึ่งและมักจะใช้ตัวแบบกราฟิกเพื่อแสดงความเป็นอิสระแบบมีเงื่อนไขระหว่างตัวแปรสุ่ม ดังนั้นการอนุมานเชิงสาเหตุในแง่นี้ไม่ได้คาดการณ์ไว้ใช่ไหม

2
'' ตัวแปรที่สำคัญ '' ที่ไม่ได้ปรับปรุงการพยากรณ์นอกตัวอย่าง - จะตีความได้อย่างไร
ฉันมีคำถามที่ฉันคิดว่าจะค่อนข้างพื้นฐานสำหรับผู้ใช้จำนวนมาก ฉันใช้ตัวแบบการถดถอยเชิงเส้นเพื่อ (i) ตรวจสอบความสัมพันธ์ของตัวแปรอธิบายหลายตัวและตัวแปรตอบสนองของฉันและ (ii) ทำนายตัวแปรตอบสนองของฉันโดยใช้ตัวแปรอธิบาย ตัวแปรอธิบายอย่างใดอย่างหนึ่ง X ดูเหมือนจะส่งผลกระทบต่อตัวแปรตอบกลับของฉันอย่างมาก เพื่อทดสอบมูลค่าเพิ่มของตัวแปรอธิบายนี้เพื่อวัตถุประสงค์ในการคาดการณ์นอกตัวอย่างของตัวแปรตอบสนองของฉันฉันใช้สองแบบจำลอง: model (a) ซึ่งใช้ตัวแปรอธิบายและแบบจำลองทั้งหมด (b) ซึ่งใช้ตัวแปรทั้งหมด ยกเว้นตัวแปร X สำหรับทั้งสองรุ่นฉันรายงานประสิทธิภาพนอกตัวอย่างเท่านั้น ปรากฏว่าทั้งสองรุ่นมีประสิทธิภาพเกือบเหมือนกัน กล่าวอีกนัยหนึ่งการเพิ่มตัวแปรอธิบาย X ไม่ได้ปรับปรุงการพยากรณ์นอกตัวอย่าง โปรดทราบว่าฉันยังใช้ model (a) เช่นโมเดลที่มีตัวแปรอธิบายทั้งหมดเพื่อค้นหาว่าตัวแปรอธิบาย X ส่งผลกระทบอย่างมากต่อตัวแปรตอบกลับของฉัน คำถามของฉันคือ: จะตีความการค้นพบนี้ได้อย่างไร? ข้อสรุปที่ตรงไปตรงมาคือแม้ว่าตัวแปร X ดูเหมือนจะมีอิทธิพลต่อตัวแปรตอบสนองของฉันอย่างมีนัยสำคัญโดยใช้แบบจำลองที่อนุมานได้ แต่ก็ไม่ได้ปรับปรุงการทำนายนอกตัวอย่าง อย่างไรก็ตามฉันมีปัญหาในการอธิบายการค้นพบนี้เพิ่มเติม สิ่งนี้จะเป็นไปได้อย่างไรและอะไรคือคำอธิบายสำหรับการค้นพบนี้ ขอบคุณล่วงหน้า! ข้อมูลเพิ่มเติม: ด้วย 'อิทธิพลอย่างมีนัยสำคัญ' ฉันหมายความว่า 0 ไม่รวมอยู่ในช่วงความหนาแน่นหลังสูงสุด 95% ของการประมาณพารามิเตอร์ (ฉันใช้วิธีเบส์) ในแง่บ่อยๆสิ่งนี้มีความสัมพันธ์กับการมีค่า p ต่ำกว่า 0.05 …

1
decision_function, predict_proba, และฟังก์ชันทำนายความแตกต่างของปัญหาการถดถอยโลจิสติกคืออะไร
ฉันได้อ่านเอกสารเกี่ยวกับ sklearn แล้ว แต่ฉันไม่สามารถเข้าใจวัตถุประสงค์ของฟังก์ชันเหล่านี้ในบริบทของการถดถอยโลจิสติกส์ เพราะdecision_functionมันบอกว่าระยะห่างระหว่างไฮเปอร์เพลนกับอินสแตนซ์การทดสอบ ข้อมูลเฉพาะนี้มีประโยชน์อย่างไร? และสิ่งนี้เกี่ยวข้องกับpredictและpredict-probaวิธีการอย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.