คำถามติดแท็ก prediction

การทำนายปริมาณสุ่มที่ไม่รู้จักโดยใช้แบบจำลองทางสถิติ

3
ข้อผิดพลาดการคาดการณ์ที่คาดหวัง - มา
ฉันกำลังพยายามเข้าใจถึงข้อผิดพลาดที่คาดการณ์ไว้ต่อไปนี้ (ESL) โดยเฉพาะอย่างยิ่งเกี่ยวกับการสืบทอดมาของ 2.11 และ 2.12 (การปรับเงื่อนไขขั้นตอนสู่จุดต่ำสุดที่ฉลาด) พอยน์เตอร์หรือลิงค์ใด ๆ ชื่นชมมาก ด้านล่างฉันกำลังรายงานข้อความที่ตัดตอนมาจาก ESL pg 18. สองสมการแรกคือตามลำดับสมการ 2.11 และ 2.12 Let X∈RpX∈RpX \in \mathbb{R}^pแสดงว่ามูลค่าที่แท้จริงเวกเตอร์การป้อนข้อมูลแบบสุ่มและY∈RY∈RY \in \mathbb{R}ตัวแปรการส่งออกมีมูลค่าที่แท้จริงสุ่มที่มีการกระจายร่วมPr(X,Y)Pr(X,Y)\text{Pr}(X,Y) ) เราพยายามที่ฟังก์ชั่นf(X)f(X)f(X)ในการทำนายค่ากำหนดของการป้อนข้อมูลXทฤษฎีนี้ต้องการฟังก์ชั่นการสูญเสียสำหรับการลงโทษข้อผิดพลาดในการทำนายและโดยทั่วไปที่สะดวกที่สุดคือการสูญเสียข้อผิดพลาดกำลังสอง : 2 สิ่งนี้ทำให้เรามีเกณฑ์สำหรับการเลือกYYYXXX L(Y,f(X))L(Y,f(X))L(Y,f(X))L ( Y , f ( X ) ) = ( Y - f (L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2fff, EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy) \begin{split} \text{EPE}(f) &= \text{E}(Y - …

3
เราจะตัดสินความแม่นยำของการทำนายของ Nate Silver ได้อย่างไร
ประการแรกเขาให้ความน่าจะเป็นของผลลัพธ์ ตัวอย่างเช่นการคาดการณ์ของเขาสำหรับการเลือกตั้งสหรัฐปัจจุบัน 82% คลินตันเทียบกับ 18% ทรัมป์ ตอนนี้ถึงแม้ว่าทรัมป์ชนะฉันจะรู้ได้อย่างไรว่าไม่ใช่แค่ 18% ของเวลาที่เขาควรจะชนะ ปัญหาอื่นคือความน่าจะเป็นของเขาเปลี่ยนไปตามกาลเวลา ดังนั้นในวันที่ 31 กรกฎาคมมันเกือบ 50-50 ระหว่างทรัมป์และคลินตัน คำถามของฉันคือเนื่องจากเขามีโอกาสที่แตกต่างกันทุกวันสำหรับเหตุการณ์ในอนาคตเดียวกันกับผลลัพธ์เดียวกันฉันจะวัดความแม่นยำของเขาในแต่ละวันได้อย่างไรว่าเขาจะทำนายตามข้อมูลที่มีอยู่ในวันนั้นหรือไม่

2
การวิเคราะห์ความยืดหยุ่น / ริดจ์ / เชือก
ฉันได้รับความสนใจในขั้นตอนสุทธิที่ยืดหยุ่นสำหรับการคาดการณ์การหดตัว / การเลือก ดูเหมือนว่าทรงพลังมาก แต่จากมุมมองทางวิทยาศาสตร์ฉันไม่รู้ดีว่าต้องทำอะไรเมื่อได้สัมประสิทธิ์ ฉันจะตอบคำถามอะไร นี่คือตัวแปรที่มีอิทธิพลต่อผลลัพธ์มากที่สุดและมีสัมประสิทธิ์ซึ่งให้อัตราส่วนความแปรปรวน / ความเอนเอียงที่ดีที่สุดระหว่างการตรวจสอบความถูกต้อง? แน่นอนว่านี่เป็นวิธีการบรรยาย / การคาดการณ์ที่ดีมากเมื่อเปรียบเทียบกับวิธีการประเมินค่าความเชื่อมั่นแบบดั้งเดิม ขณะนี้ Tibshirani & Co. ได้ทำการศึกษาการประมาณค่าอนุมาน แต่ยังอยู่ระหว่างการทดลอง บางคนกำลังใช้ตัวแปรที่ถูกเลือกโดยเครือข่ายอีลาสติกเพื่อทำการวิเคราะห์เชิงอนุมานแบบคลาสสิก แต่นั่นจะขจัดข้อ จำกัด ในความแปรปรวนที่เกิดจากเทคนิค ปัญหาอีกประการหนึ่งคือเนื่องจากพารามิเตอร์แลมบ์ดาและอัลฟาสำหรับตาข่ายยืดหยุ่นถูกเลือกโดยการตรวจสอบความถูกต้องของข้อมูลพวกเขาจึงมีความแปรปรวนแบบสุ่ม ดังนั้นทุกครั้งที่คุณเรียกใช้ (เช่น.) cv.glmnet () คุณจะเลือกเซตย่อยที่แตกต่างกันเล็กน้อยของตัวทำนายที่มีค่าสัมประสิทธิ์ต่างกันอยู่เสมอ ฉันว่าเกี่ยวกับการแก้ปัญหานี้โดยพิจารณาแลมบ์ดาและอัลฟาที่ถูกต้องเป็นตัวแปรสุ่มและดำเนินการขั้นตอนการตรวจสอบความถูกต้องอีกครั้ง n เพื่อรับการแจกแจงของพารามิเตอร์เหล่านี้ วิธีนี้สำหรับผู้ทำนายทุกคนฉันจะมีจำนวนครั้งและทุกค่าสัมประสิทธิ์ฉันจะมีการแจกแจงผล สิ่งนี้จะให้ผลลัพธ์ generalizable เพิ่มเติมกับฉันช่วงสถิติ (เช่น sd ของสัมประสิทธิ์) มันน่าสนใจที่จะเห็นว่าแลมบ์ดาและอัลฟ่าเลือกวิธีนี้ใกล้เคียงกับการแจกแจงแบบไม่แสดงอาการหรือไม่เพราะมันจะเปิดทางสำหรับการทดสอบการอนุมาน (แต่ฉันไม่ใช่นักสถิติดังนั้นฉันไม่ควรพูดเกี่ยวกับสิ่งที่ฉันทำ ไม่เข้าใจ) ดังนั้นในที่สุดคำถามของฉันคือ: เมื่อคุณได้รับการทำนายและค่าสัมประสิทธิ์จากตาข่ายยืดหยุ่นด้วยการตรวจสอบข้ามตามอัลฟาและแลมบ์ดาซึ่งคุณควรนำเสนอผลลัพธ์เหล่านี้และวิธีการ? คุณควรพูดคุยกับพวกเขาอย่างไร? เราเรียนรู้อะไร เรากำลังตั้งสมมุติฐาน / การวางนัยทั่วไปอะไร

2
จะทำนายหรือขยายสายการถดถอยใน ggplot2 ได้อย่างไร?
ฉันมีกรอบข้อมูลที่มีสองชุดเวลา: วันที่และหมายเลขรุ่นของ Emacs และ Firefox ที่วางจำหน่าย การใช้หนึ่งคำสั่ง ggplot2 ทำให้ง่ายต่อการสร้างแผนภูมิที่ใช้เหลือง (ในลักษณะที่ดูน่าขบขันซึ่งฉันไม่สนใจ) เพื่อเปลี่ยนจุดให้เป็นเส้น ฉันจะขยายสายไปสู่อนาคตได้อย่างไร? ฉันต้องการตรวจสอบว่าหมายเลขรุ่น Emacs และ Firefox จะข้ามเมื่อใดและหากมีวิธีที่จะแสดงช่วงข้อผิดพลาดจะดีกว่าทั้งหมด เนื่องจาก ggplot2 กำลังพล็อตบรรทัดมันต้องมีโมเดล แต่ฉันไม่เห็นวิธีบอกให้ขยายบรรทัดหรือเพื่อเอาโมเดลออกมาและทำอะไรกับมัน > library(ggplot2) > programs <- read.csv("http://www.miskatonic.org/files/se-program-versions.csv") > programs$Date <- as.Date(programs$Date, format="%B %d, %Y") > head(programs) Program Version Date 1 Emacs 24.1 2012-06-10 2 Emacs 23.4 2012-01-29 3 Emacs 23.3 …

3
`คาดการณ์สุ่มป่าเถื่อน 'ประเมินความน่าจะเป็นของคลาสได้อย่างไร
วิธีการที่ไม่randomForestน่าจะเป็นระดับประมาณการแพคเกจเมื่อฉันใช้predict(model, data, type = "prob")? ฉันใช้rangerสำหรับฝึกป่าสุ่มโดยใช้probability = Tอาร์กิวเมนต์เพื่อทำนายความน่าจะเป็น rangerพูดในเอกสารว่า: ปลูกป่าน่าจะเป็นเหมือนใน Malley และคณะ (2012) ฉันจำลองข้อมูลและลองทั้งแพ็คเกจและได้ผลลัพธ์ที่แตกต่างกันมาก (ดูรหัสด้านล่าง) ดังนั้นฉันรู้ว่ามันใช้เทคนิคต่าง ๆ (จากนั้นแรนเจอร์) เพื่อประเมินความน่าจะเป็น แต่อันไหน simulate_data <- function(n){ X <- data.frame(matrix(runif(n*10), ncol = 10)) Y <- data.frame(Y = rbinom(n, size = 1, prob = apply(X, 1, sum) %>% pnorm(mean = 5) ) %>% as.factor() ) …

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
เหตุใดการคาดการณ์ของอนุกรมเวลาจึง“ แย่มาก”
ฉันพยายามเรียนรู้วิธีใช้ Neural Networks ฉันกำลังอ่านบทช่วยสอนนี้ หลังจากติดตั้งโครงข่ายประสาทในอนุกรมเวลาโดยใช้ค่าที่เพื่อทำนายค่าที่t + 1ผู้เขียนได้รับพล็อตต่อไปนี้โดยที่เส้นสีฟ้าคืออนุกรมเวลาสีเขียวคือการทำนายข้อมูลรถไฟสีแดงคือ การคาดการณ์ข้อมูลการทดสอบ (เขาใช้การทดสอบรถไฟแบบแยก)เสื้อเสื้อtt + 1เสื้อ+1t+1 และเรียกมันว่า "เราจะเห็นว่าแบบจำลองนั้นทำงานได้ค่อนข้างแย่ในการปรับทั้งชุดฝึกอบรมและชุดทดสอบ เสื้อเสื้อtt - 1เสื้อ-1t-1t - 2เสื้อ-2t-2t + 1เสื้อ+1t+1 และพูดว่า "เมื่อมองที่กราฟเราจะเห็นโครงสร้างเพิ่มเติมในการทำนาย" คำถามของฉัน ทำไมคนยากจนคนแรก? มันเกือบจะสมบูรณ์แบบสำหรับฉันมันทำนายการเปลี่ยนแปลงทุกอย่างสมบูรณ์แบบ และในทำนองเดียวกันทำไมอันดับสองถึงดีกว่า? "โครงสร้าง" อยู่ที่ไหน สำหรับฉันมันดูด้อยกว่าครั้งแรกมาก โดยทั่วไปการคาดการณ์ของซีรีย์เวลาจะดีและเมื่อไร

3
แบบจำลองสำหรับข้อมูลที่ไม่เป็นลบพร้อมการจับกลุ่มที่ศูนย์ (Tweedie GLM, GLM ที่ไม่ทำให้เป็นศูนย์เป็นต้น) สามารถทำนายค่าศูนย์ที่แน่นอนได้หรือไม่
การแจกแจงแบบทวีคูณสามารถสร้างแบบจำลองข้อมูลเอียงด้วยมวลจุดที่ศูนย์เมื่อพารามิเตอร์ (เลขชี้กำลังในความสัมพันธ์ความแปรปรวนเฉลี่ย) อยู่ระหว่าง 1 ถึง 2ppp ในทำนองเดียวกันรูปแบบศูนย์ที่พองเกิน (ไม่ว่าจะเป็นแบบต่อเนื่องหรือไม่ต่อเนื่อง) อาจมีเลขศูนย์จำนวนมาก ฉันมีปัญหาในการทำความเข้าใจว่าทำไมเมื่อฉันทำการทำนายหรือคำนวณค่าติดตั้งกับโมเดลเหล่านี้ค่าที่ทำนายทั้งหมดจะไม่เป็นศูนย์ แบบจำลองเหล่านี้สามารถทำนายค่าศูนย์ที่แน่นอนได้จริงหรือ ตัวอย่างเช่น library(tweedie) library(statmod) # generate data y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p x <- y+rnorm( length(y), 0, 0.2) # estimate p out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9)) # fit glm fit <- glm( y ~ …

4
ตัวแบบทำนายผล: สถิติไม่สามารถเอาชนะการเรียนรู้ของเครื่องได้? [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ขณะนี้ฉันกำลังติดตามโปรแกรมหลักที่เน้นเรื่องสถิติ / เศรษฐมิติ ในอาจารย์ของฉันนักเรียนทุกคนต้องทำวิจัย 3 เดือน สัปดาห์ที่แล้วทุกกลุ่มต้องนำเสนองานวิจัยของพวกเขากับนักศึกษาปริญญาโทคนอื่น ๆ เกือบทุกกลุ่มมีการสร้างแบบจำลองทางสถิติและแบบจำลองการเรียนรู้ของเครื่องสำหรับหัวข้อการวิจัยและการคาดการณ์นอกเวลาตัวอย่างทุกครั้งจะมาพูดคุยเกี่ยวกับแบบจำลองการเรียนรู้ของเครื่องอย่างง่าย ๆ เอาชนะแบบจำลองทางสถิติที่ซับซ้อนมาก เดือน ไม่ว่าแบบจำลองทางสถิติของทุกคนจะดีแค่ไหนป่าสุ่มที่เรียบง่ายก็มีข้อผิดพลาดน้อยกว่าตัวอย่างมาก ฉันสงสัยว่านี่เป็นข้อสังเกตที่ยอมรับกันโดยทั่วไปหรือไม่? ถ้ามันมาจากการพยากรณ์นอกตัวอย่างไม่มีวิธีใดที่จะเอาชนะรูปแบบป่าเรียบง่ายหรือรูปแบบการไล่ระดับสีที่รุนแรง ทั้งสองวิธีนี้ง่ายมากที่จะใช้งานโดยใช้แพ็คเกจ R ในขณะที่โมเดลสถิติทั้งหมดที่ทุกคนสร้างขึ้นนั้นต้องการทักษะความรู้และความพยายามในการประเมินค่อนข้างมาก คุณคิดอย่างไรกับเรื่องนี้? ประโยชน์เพียงอย่างเดียวของตัวแบบเชิงสถิติ / เศรษฐมิติที่คุณได้รับการตีความคืออะไร? หรือโมเดลของเราไม่ดีพอที่พวกเขาล้มเหลวที่จะมีประสิทธิภาพสูงกว่าการทำนายป่าแบบสุ่มอย่างง่ายหรือไม่? มีเอกสารใดบ้างที่ตอบปัญหานี้?

1
สิ่งนั้นเป็นความสัมพันธ์ถ่วงน้ำหนัก?
ฉันมีข้อมูลที่น่าสนใจเกี่ยวกับศิลปินทางดนตรีที่ได้รับความนิยมมากที่สุดที่ถูกสตรีมแบ่งออกเป็นส่วน ๆ ตามที่ตั้งไว้ในเขตรัฐสภาประมาณ 200 แห่ง ฉันต้องการดูว่าเป็นไปได้หรือไม่ที่จะสำรวจความคิดเห็นของบุคคลตามความชอบทางดนตรีของเขาหรือเธอและพิจารณาว่าเขาหรือเธอ "ฟังเหมือนประชาธิปไตย" หรือ "ฟังเหมือนรีพับลิกัน" (โดยธรรมชาตินี่คือใจที่อ่อน แต่มีเอนโทรปีที่แท้จริงในข้อมูล!) ฉันมีข้อมูลเกี่ยวกับศิลปินประมาณ 100 คนบวกกับคะแนนโหวตเฉลี่ยสำหรับพรรครีพับลิกันและเดโมแครตในแต่ละเขตในรอบการเลือกตั้งสามรอบที่ผ่านมา ดังนั้นฉันจึงมีความสัมพันธ์กับศิลปินแต่ละคนเพื่อดูว่าศิลปินคนไหนที่ฟังอย่างไม่เป็นสัดส่วนมากที่สุดเพื่อเป็นฟังก์ชั่นการแบ่งปันการโหวตให้กับพรรคเดโมแครต ความสัมพันธ์เหล่านั้นเริ่มต้นที่ประมาณ -0.3 ถึง 0.3 สำหรับศิลปินที่กำหนดมีจำนวนมากตรงกลางที่มีพลังในการทำนายน้อยหรือไม่มีเลย ฉันมีสองคำถาม: อันดับแรกจำนวนสตรีมโดยรวมต่ออำเภอแตกต่างกันอย่างกว้างขวาง ตอนนี้ฉันมีความสัมพันธ์ร้อยละของสตรีมทั้งหมดต่อเขตที่เป็นของพูดบียอนเซ่กับเปอร์เซ็นต์ของคะแนนโหวตสำหรับพรรคเดโมแครต แต่สตรีมทั้งหมดในหนึ่งอำเภออาจเป็นล้านในขณะที่อีกสตรีนอยู่ในระดับต่ำ 100,000 ฉันจำเป็นต้องคำนึงถึงความสัมพันธ์กับสิ่งนี้หรือไม่? ประการที่สองฉันสงสัยว่าจะรวมความสัมพันธ์เหล่านี้เข้ากับการคาดเดาแบบรวมกับการเมืองของผู้ใช้ได้อย่างไร สมมติว่าฉันใช้ศิลปินทั้ง 20 คนที่มีค่าสหสัมพันธ์สูงสุด (บวกและลบ) สิบคนในแต่ละทิศทางและสำรวจผู้ใช้ว่าเขาหรือเธอชอบศิลปินแต่ละคนมากแค่ไหน ดังนั้นฉันจึงได้คะแนนโหวตขึ้นหรือลงของศิลปินแต่ละคนบวกกับความสัมพันธ์กับการเมืองสำหรับค่านิยมทั้ง 20 นี้ มีวิธีมาตรฐานในการรวมสหสัมพันธ์เหล่านี้เป็นค่าประมาณเดียวหรือไม่? (ฉันกำลังคิดบางอย่างเช่นแบบทดสอบภาษาถิ่นที่มีชื่อเสียงของ NYTimes ซึ่งรวมความน่าจะเป็นระดับภูมิภาคเข้ากับคำถาม 25 ข้อในแผนที่ความร้อน แต่ในกรณีนี้ฉันแค่ต้องการค่าเดียวกับรสนิยมทางดนตรีของพรรครีพับลิกันหรือพรรครีพับลิกัน ขอขอบคุณ!

3
จะได้รับการทำนายในแง่ของเวลาการเอาชีวิตรอดจากโมเดล Cox PH ได้อย่างไร
ฉันต้องการพัฒนาแบบจำลองการทำนาย (Cox PH) สำหรับการเสียชีวิตแบบทุกสาเหตุในชุดข้อมูลของผู้เข้าร่วมซึ่งเกือบทุกคนเสียชีวิตเมื่อสิ้นสุดการติดตาม (เช่น 1 ปี) แทนที่จะทำนายความเสี่ยงที่แน่นอนของการตายในเวลาหนึ่งฉันต้องการทำนายเวลาการอยู่รอด (เป็นเดือน) สำหรับแต่ละคน เป็นไปได้หรือไม่ที่จะได้รับการทำนายเช่นนี้ใน R (จากเช่น coxph-object) และถ้าใช่ฉันจะทำเช่นนั้นได้อย่างไร? ขอบคุณมากล่วงหน้า!

1
วิธีการทำนายอนุกรมเวลาหนึ่งครั้งจากอนุกรมเวลาอื่นหากสัมพันธ์กัน
ฉันพยายามที่จะแก้ปัญหานี้มานานกว่าหนึ่งปีโดยไม่มีความคืบหน้ามาก มันเป็นส่วนหนึ่งของโครงการวิจัยที่ฉันทำ แต่ฉันจะแสดงให้เห็นตัวอย่างของเรื่องที่ฉันทำเพราะโดเมนที่แท้จริงของปัญหานั้นค่อนข้างสับสน (การติดตามด้วยตา) คุณเป็นเครื่องบินที่ติดตามเรือศัตรูที่เดินทางข้ามมหาสมุทรดังนั้นคุณจึงได้รวบรวมพิกัด (x, y, เวลา) พิกัดของเรือ คุณรู้ไหมว่าเรือดำน้ำที่ซ่อนอยู่เดินทางไปกับเรือเพื่อปกป้องมัน แต่ในขณะที่มีความสัมพันธ์ระหว่างตำแหน่งของพวกเขาเรือดำน้ำมักจะออกเดินทางจากเรือดังนั้นในขณะที่มันอยู่ใกล้มันบ่อยครั้ง โลกเป็นครั้งคราว คุณต้องการที่จะทำนายเส้นทางของเรือดำน้ำ แต่น่าเสียดายที่มันถูกซ่อนไว้จากคุณ แต่หนึ่งเดือนในเดือนเมษายนคุณสังเกตเห็นว่าเรือดำน้ำลืมที่จะซ่อนตัวเองดังนั้นคุณจึงมีชุดพิกัดสำหรับทั้งเรือดำน้ำและเรือตลอดการเดินทาง 1,000 ครั้ง เมื่อใช้ข้อมูลนี้คุณต้องการสร้างแบบจำลองเพื่อทำนายเส้นทางของเรือดำน้ำที่ซ่อนอยู่ซึ่งเป็นเพียงการเคลื่อนไหวของเรือ พื้นฐานที่ไร้เดียงสาคือการพูดว่า "ตำแหน่งเรือดำน้ำเดา =" ตำแหน่งปัจจุบันของเรือ "แต่จากข้อมูลเดือนเมษายนที่มองเห็นเรือดำน้ำคุณสังเกตเห็นว่ามีแนวโน้มที่เรือดำน้ำจะอยู่หน้าเรือสักหน่อยดังนั้น" ตำแหน่งเรือดำน้ำ guess = ตำแหน่งของเรือใน 1 นาที "เป็นการคาดการณ์ที่ดียิ่งขึ้นนอกจากนี้ข้อมูลเมษายนแสดงว่าเมื่อเรือหยุดในน้ำเป็นระยะเวลานานเรือดำน้ำน่าจะลาดตระเวนน่านน้ำชายฝั่งไกลออกไป แน่นอน. คุณจะสร้างโมเดลนี้อย่างไรโดยให้ข้อมูลเดือนเมษายนเป็นข้อมูลการฝึกอบรมเพื่อคาดการณ์เส้นทางของเรือดำน้ำ โซลูชันปัจจุบันของฉันคือการถดถอยเชิงเส้นแบบเฉพาะกิจซึ่งปัจจัยคือ "เวลาเดินทาง", "พิกัด x ของเรือ", "ไม่ได้ใช้งานเรือเป็นเวลา 1 วัน" ฯลฯ จากนั้นให้ R คำนวณน้ำหนักและทำการตรวจสอบข้าม . แต่ฉันชอบวิธีสร้างปัจจัยเหล่านี้โดยอัตโนมัติจากข้อมูลเดือนเมษายน นอกจากนี้รูปแบบที่ใช้ลำดับหรือเวลาจะดีเนื่องจากการถดถอยเชิงเส้นไม่ได้และฉันคิดว่ามันเกี่ยวข้อง ขอบคุณที่อ่านทั้งหมดนี้และฉันยินดีที่จะชี้แจงอะไร

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

1
ป่าสุ่มและการทำนาย
ฉันพยายามเข้าใจว่า Random Forest ทำงานอย่างไร ฉันมีความเข้าใจเกี่ยวกับวิธีการสร้างต้นไม้ แต่ไม่สามารถเข้าใจว่า Random Forest สร้างการคาดการณ์จากตัวอย่างถุงได้อย่างไร มีใครให้คำอธิบายง่ายๆกับฉันได้ไหม :)

1
จะปรับขนาดการสังเกตใหม่สำหรับการคาดการณ์เมื่อแบบจำลองนั้นพอดีกับข้อมูลที่ปรับขนาดได้อย่างไร
ฉันเข้าใจแนวคิดของการปรับเมทริกซ์ข้อมูลเพื่อใช้ในตัวแบบการถดถอยเชิงเส้น ตัวอย่างเช่นใน R คุณสามารถใช้: scaled.data <- scale(data, scale=TRUE) คำถามเดียวของฉันคือสำหรับการสังเกตใหม่ที่ฉันต้องการทำนายค่าผลลัพธ์พวกเขาจะปรับขนาดได้อย่างถูกต้องอย่างไร มันจะเป็นscaled.new <- (new - mean(data)) / std(data)อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.