คำถามติดแท็ก data-imputation

หมายถึงคลาสทั่วไปของวิธีการที่ใช้ในการ "กรอกข้อมูล" ข้อมูลที่ขาดหายไป วิธีการที่ใช้โดยทั่วไปจะเกี่ยวข้องกับการแก้ไข (http://en.wikipedia.org/wiki/Interpolation) และต้องมีการตั้งสมมติฐานเกี่ยวกับสาเหตุที่ข้อมูลหายไป (เช่น "หายไปโดยการสุ่ม")

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
R caret และ NAs
ฉันชอบคาเร็ตมากสำหรับความสามารถในการปรับแต่งพารามิเตอร์และอินเทอร์เฟซที่เหมือนกัน แต่ฉันสังเกตว่ามันต้องการชุดข้อมูลที่สมบูรณ์เสมอ (เช่นไม่มี NA) แม้ว่าโมเดล "เปลือยกาย" ที่ใช้จะอนุญาต NA นั่นเป็นเรื่องที่น่ารำคาญอย่างมากเกี่ยวกับวิธีการที่ควรใช้วิธีการใส่ร้ายที่ไม่จำเป็นในตอนแรก วิธีการหนึ่งที่สามารถหลบเลี่ยงการใส่ร้ายและยังคงใช้ข้อได้เปรียบคาเร็ต?

4
การกำหนดค่าที่ขาดหายไปสำหรับ PCA
ฉันใช้prcomp()ฟังก์ชั่นเพื่อทำการ PCA (การวิเคราะห์องค์ประกอบหลัก) ใน R อย่างไรก็ตามมีข้อผิดพลาดในฟังก์ชั่นดังกล่าวว่าna.actionพารามิเตอร์ไม่ทำงาน ผมขอความช่วยเหลือใน StackOverflow ; สองผู้ใช้มีการเสนอสองวิธีที่แตกต่างกันในการจัดการกับNAค่า อย่างไรก็ตามปัญหาของทั้งสองวิธีคือเมื่อมีNAค่าแถวนั้นจะถูกดร็อปและไม่ถูกพิจารณาในการวิเคราะห์ PCA ชุดข้อมูลจริงของฉันคือเมทริกซ์ 100 x 100 และฉันไม่ต้องการเสียทั้งแถวเพียงเพราะมันมีNAค่าเดียว ตัวอย่างต่อไปนี้แสดงให้เห็นว่าprcomp()ฟังก์ชั่นไม่ได้คืนองค์ประกอบหลักใด ๆ สำหรับแถว 5 เนื่องจากมันมีNAค่า d <- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result <- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # …

3
วิธีการรวมช่วงความมั่นใจสำหรับองค์ประกอบความแปรปรวนของแบบผสมผลกระทบเมื่อใช้การใส่หลายครั้ง
ตรรกะของการใส่หลายครั้ง (MI) คือการกำหนดค่าที่หายไปไม่ใช่ครั้งเดียว แต่หลายครั้ง (โดยทั่วไปคือ M = 5) ส่งผลให้ชุดข้อมูล M สมบูรณ์ ชุดข้อมูลที่เสร็จสมบูรณ์แล้ว M จะถูกวิเคราะห์ด้วยวิธีการข้อมูลที่สมบูรณ์ซึ่งการประเมิน M และข้อผิดพลาดมาตรฐานถูกรวมเข้าด้วยกันโดยใช้สูตรรูบินเพื่อรับการประเมินโดยรวมและข้อผิดพลาดมาตรฐาน เยี่ยมมาก แต่ฉันไม่แน่ใจว่าจะใช้สูตรนี้อย่างไรเมื่อส่วนประกอบต่าง ๆ ของแบบผสมเอฟเฟกต์เกี่ยวข้องกัน การกระจายตัวตัวอย่างขององค์ประกอบความแปรปรวนเป็นแบบอสมมาตรดังนั้นจึงไม่สามารถกำหนดช่วงความเชื่อมั่นที่สอดคล้องกันในรูปแบบ "การประมาณ± 1.96 * se (ประมาณ)" โดยทั่วไป ด้วยเหตุนี้แพ็คเกจ R lme4 และ nlme จึงไม่ได้จัดเตรียมข้อผิดพลาดมาตรฐานของส่วนประกอบความแปรปรวน แต่ให้ช่วงความมั่นใจเท่านั้น ดังนั้นเราสามารถดำเนินการ MI บนชุดข้อมูลจากนั้นรับช่วงความเชื่อมั่น M ต่อองค์ประกอบความแปรปรวนหลังจากปรับโมเดลเอฟเฟกต์แบบเดียวกันบนชุดข้อมูลที่เสร็จสมบูรณ์แล้ว M คำถามคือทำอย่างไรจึงจะรวมช่วง M เหล่านี้เข้ากับช่วงความมั่นใจโดยรวม ฉันเดาว่าน่าจะเป็นไปได้ - ผู้เขียนบทความ (yucel & demirtas (2010) …

5
มีการเพิ่มตัวเลือกการตอบกลับลำดับที่ 6 (“ ฉันไม่รู้”) ในระดับ Likert 5 จุด ข้อมูลสูญหายหรือไม่
ฉันต้องการความช่วยเหลือเล็กน้อยในการกู้ข้อมูลจากแบบสอบถาม เพื่อนร่วมงานคนหนึ่งของฉันใช้แบบสอบถาม แต่ไม่ตั้งใจแทนที่จะใช้มาตราส่วน Likert ดั้งเดิม 5 จุด (ไม่เห็นด้วยอย่างยิ่งที่เห็นด้วยอย่างยิ่ง) เขาใส่คำตอบที่ 6 ลงในมาตราส่วน และเพื่อทำให้เรื่องแย่ลงตัวเลือกการตอบกลับข้อที่ 6 คือ…“ ฉันไม่รู้” ปัญหาคือสัดส่วนใหญ่ของผู้ตอบแบบสอบถามที่เลือก“ ฉันไม่รู้” ณ จุดหนึ่งหรืออีกจุดหนึ่ง หากพวกเขามีเปอร์เซ็นต์ที่สมเหตุสมผลฉันจะแยกพวกเขาออกจากฐานข้อมูล อย่างไรก็ตามแกนหลักของการวิจัยวางอยู่บนโมเดลเชิงความคิดและไม่รวมเร็กคอร์ดจำนวนมากดังนั้นจะสร้างปัญหาให้กับโมเดล ใครช่วยชี้ทางฉันให้ถูกทางที่นี่? มี 'แนวปฏิบัติที่ดี' หรือฉันสามารถทำสิ่งใดเพื่อใช้ (แปลงแปลง ฯลฯ ) คำตอบที่ "ฉันไม่รู้" หรือไม่? นอกจากนี้หากฉันทำการปรับเปลี่ยนข้อมูลที่เป็นปัญหา (เช่นถ้าฉันแปลงการตอบสนอง "ฉันไม่รู้" โดยการทดแทนการใส่ความ ฯลฯ ) สิ่งที่ 'ปฏิเสธ', 'คำเตือน', คำอธิบายประกอบ ฉันควรใช้ ฉันรู้ว่ามันเป็นช็อตที่ยาวนาน แต่ฉันยอมรับว่านอกจากคำตอบที่ได้รับแล้วฉันยังสงสัยว่าการปฏิบัติที่ตกลงกันไว้คืออะไร (ถ้ามี) ในกรณีประเภทนี้ PS: ฉันรู้ว่ามันฟังดูเป็นเด็ก แต่ไม่ 'เพื่อนร่วมงาน' …

2
วิธีการกรอกข้อมูลที่ขาดหายไปในอนุกรมเวลา?
ฉันมีชุดข้อมูลมลพิษจำนวนมากที่ถูกบันทึกทุก ๆ 10 นาทีตลอดระยะเวลา 2 ปี แต่มีข้อมูลจำนวนมากในช่องว่าง ข้อมูลดูเหมือนจะเป็นไปตามฤดูกาลและมีความแปรปรวนขนาดใหญ่ในระหว่างวันเมื่อเปรียบเทียบกับคืนที่ค่าไม่เปลี่ยนแปลงมากนักและจุดข้อมูลลดลง ฉันได้พิจารณาแบบจำลองที่เหมาะกับชุดวันและเวลากลางคืนแยกต่างหาก (เนื่องจากมีความแตกต่างที่ชัดเจนระหว่างพวกเขา) และจากนั้นทำนายค่าของข้อมูลที่หายไปและเติมจุดเหล่านี้ ฉันสงสัยว่านี่เป็นวิธีที่เหมาะสมในการเข้าถึงปัญหานี้หรือไม่และหากมีความจำเป็นที่จะต้องเพิ่มการเปลี่ยนแปลงในท้องถิ่นลงในจุดที่คาดการณ์ไว้

1
การรวมพล็อตการสอบเทียบหลังจากการใส่หลายครั้ง
ฉันต้องการคำแนะนำในการรวมพล็อตการแปลง / สถิติหลังจากการใส่ร้ายหลายครั้ง ในการตั้งค่าการพัฒนาแบบจำลองทางสถิติเพื่อทำนายเหตุการณ์ในอนาคต (เช่นการใช้ข้อมูลจากบันทึกของโรงพยาบาลเพื่อทำนายการรอดชีวิตของผู้ป่วยหลังออกจากโรงพยาบาลหรือเหตุการณ์) เราสามารถจินตนาการได้ว่ามีข้อมูลที่ขาดหายไปมากมาย การใส่ข้อมูลหลายครั้งเป็นวิธีหนึ่งในการจัดการสถานการณ์ดังกล่าว แต่ส่งผลให้จำเป็นต้องรวมสถิติการทดสอบจากชุดข้อมูลการใส่ข้อมูลแต่ละชุดโดยคำนึงถึงความแปรปรวนเพิ่มเติมเนื่องจากความไม่แน่นอนของการใส่ความ ฉันเข้าใจว่ามีสถิติการสอบเทียบหลายอย่าง (hosmer-lemeshow, Emax ของ Harrell, ดัชนีการสอบเทียบโดยประมาณ ฯลฯ ) ซึ่งอาจใช้กฎรูบิน 'ปกติ' สำหรับการรวมกำไร อย่างไรก็ตามสถิติเหล่านี้มักจะเป็นมาตรการโดยรวมของการสอบเทียบซึ่งไม่แสดงขอบเขตที่พลาดการสอบเทียบที่เฉพาะเจาะจงของโมเดล ด้วยเหตุนี้ฉันควรดูที่แผนการปรับเทียบ น่าเสียดายที่ฉันไม่รู้วิธีการ 'รวม' แปลงหรือข้อมูลเบื้องหลัง (คาดการณ์ความน่าจะเป็นต่อบุคคลและผลลัพธ์ที่สังเกตได้ต่อบุคคล) และไม่สามารถหาได้มากในวรรณคดีชีวการแพทย์ (สาขาที่ฉันคุ้นเคย) หรือที่นี่ใน CrossValidated แน่นอนว่าการดูชุดข้อมูลการสอบเทียบของชุดข้อมูลแต่ละชุดอาจเป็นคำตอบ แต่อาจกลายเป็นเรื่องที่น่ารำคาญมาก (จนถึงปัจจุบัน) เมื่อสร้างชุดการใส่จำนวนมาก ฉันอยากถามว่ามีเทคนิคใดบ้างที่จะส่งผลให้เกิดแผนการปรับเทียบหรือไม่หลังจากรวมหลายครั้ง (?)

3
วิธีการแก้ไขปัญหาข้อมูลขาดหายไปในการเรียนรู้ของเครื่อง
ฐานข้อมูลใด ๆ ที่เราต้องการทำนายโดยใช้อัลกอริทึมการเรียนรู้ของเครื่องจะค้นหาค่าที่ขาดหายไปสำหรับคุณลักษณะบางอย่าง มีหลายวิธีในการแก้ไขปัญหานี้เพื่อแยกบรรทัดที่มีค่าหายไปจนกว่าพวกเขาจะเติมค่าเฉลี่ยของลักษณะ ฉันต้องการใช้สำหรับวิธีที่ค่อนข้างแข็งแกร่งซึ่งโดยทั่วไปจะเรียกใช้การถดถอย (หรือวิธีอื่น) ซึ่งตัวแปรตาม (Y) จะเป็นคอลัมน์แต่ละคอลัมน์ที่มีค่าที่หายไป แต่มีเฉพาะแถวของตาราง ที่มีข้อมูลทั้งหมดและทำนายค่าที่ขาดหายไปด้วยวิธีนี้ให้ทำตารางตามตารางและย้ายไปยัง 'คอลัมน์' ถัดไปด้วยค่าที่หายไปและทำซ้ำวิธีจนกว่าทุกอย่างจะเต็ม แต่นั่นทำให้ฉันสงสัย ทำไมคอลัมน์เริ่มต้น ฉันเชื่อว่าคนที่มีค่าที่น้อยที่สุดจะหายไปจนกว่าคนที่มีค่ามากที่สุด มีเกณฑ์ของค่าที่หายไปที่ไม่คุ้มค่าหรือไม่ที่จะพยายามทำให้เสร็จ (ตัวอย่างเช่นหากคุณลักษณะนี้มีเพียง 10% ของค่าที่เติมจะไม่น่าสนใจที่จะยกเว้น) มีการนำไปใช้ในแพคเกจแบบดั้งเดิมหรือวิธีการอื่นที่ทนทานต่อการขาดหรือไม่

5
แพ็คเกจ KNN imputation R
ฉันกำลังมองหาแพ็คเกจใส่ข้อมูลของ KNN ฉันดูแพคเกจ imputation ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ) แต่ด้วยเหตุผลบางอย่างฟังก์ชั่น KNN impute (แม้เมื่อทำตามตัวอย่างจากคำอธิบาย) ดูเหมือนว่า เพื่อกำหนดค่าศูนย์ (ตามด้านล่าง) ฉันได้รับการมองไปรอบ ๆ แต่ยังไม่สามารถหาอะไรได้และด้วยเหตุนี้จึงสงสัยว่าใครมีคำแนะนำอื่น ๆ สำหรับแพ็คเกจการใส่ KNN ที่ดี? W ในรหัสต่อไปนี้ - ค่า NA จะถูกแทนที่ด้วยศูนย์ - ไม่ใช่ด้วยค่าเฉลี่ย Knn require(imputation) x = matrix(rnorm(100),10,10) x.missing = x > 1 x[x.missing] = NA kNNImpute(x, 3) x

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
การใช้ตัวกรองคาลมานเพื่อกำหนดค่าที่ขาดหายไปในอนุกรมเวลา
ฉันสนใจว่าตัวกรองคาลมานสามารถใช้เพื่อระบุค่าที่หายไปในข้อมูลอนุกรมเวลาได้อย่างไร นอกจากนี้ยังสามารถใช้งานได้หากมีจุดเวลาติดต่อกันขาดหายไป? ฉันไม่พบอะไรมากในหัวข้อนี้ คำอธิบายความคิดเห็นและลิงค์ใด ๆ ยินดีต้อนรับและชื่นชม!

1
XGBoost สามารถจัดการข้อมูลที่ขาดหายไปในขั้นตอนการพยากรณ์
เมื่อเร็ว ๆ นี้ฉันได้ตรวจสอบอัลกอริทึม XGBoost และฉันสังเกตเห็นว่าอัลกอริทึมนี้สามารถจัดการข้อมูลที่ขาดหายไป (โดยไม่ต้องใส่ข้อมูล) ในขั้นตอนการฝึกอบรม ฉันสงสัยว่า XGboost สามารถจัดการข้อมูลที่หายไป (โดยไม่ต้องใส่ข้อมูล) เมื่อใช้สำหรับการคาดการณ์การสังเกตใหม่หรือมีความจำเป็นในการใส่ข้อมูลที่ขาดหายไป ขอบคุณล่วงหน้า.

4
วิธีจัดการกับค่าที่หายไปเพื่อเตรียมข้อมูลสำหรับการเลือกคุณสมบัติด้วย LASSO
สถานการณ์ของฉัน: ตัวอย่างขนาดเล็ก: 116 ตัวแปรผลลัพธ์ไบนารี รายการตัวแปรอธิบายยาวแบบยาว: 44 ตัวแปรอธิบายไม่ได้มาจากด้านบนของหัวของฉัน ทางเลือกของพวกเขาขึ้นอยู่กับวรรณกรรม กรณีส่วนใหญ่ในตัวอย่างและตัวแปรส่วนใหญ่มีค่าขาดหายไป เลือกวิธีการเลือกคุณลักษณะ: LASSO แพ็คเกจ glmnet ของ R จะไม่ให้ฉันเรียกใช้รูทีน glmnet อย่างเห็นได้ชัดเนื่องจากมีค่าที่ขาดหายไปในชุดข้อมูลของฉัน ดูเหมือนจะมีวิธีการต่าง ๆ สำหรับการจัดการข้อมูลที่หายไปดังนั้นฉันอยากจะรู้ว่า: LASSO กำหนดข้อ จำกัด ใด ๆ ในแง่ของวิธีการใส่ร้ายที่ฉันสามารถใช้ได้หรือไม่? อะไรจะเป็นทางออกที่ดีที่สุดสำหรับวิธีการใส่ร้าย เป็นการดีที่ฉันต้องการวิธีการที่ฉันสามารถทำงานบน SPSS (ดีกว่า) หรือ R UPDATE1: มันชัดเจนจากคำตอบบางส่วนด้านล่างที่ฉันได้จัดการกับปัญหาพื้นฐานเพิ่มเติมก่อนที่จะพิจารณาวิธีการใส่ร้าย ฉันต้องการที่จะเพิ่มคำถามใหม่เกี่ยวกับที่นี่ ในคำตอบที่แนะนำการเข้ารหัสเป็นค่าคงที่และการสร้างตัวแปรใหม่เพื่อจัดการกับค่า 'ไม่สามารถใช้งานได้' และการใช้กลุ่ม lasso: คุณจะบอกว่าถ้าฉันใช้กลุ่ม LASSO ฉันจะสามารถใช้วิธีการที่แนะนำให้ผู้ทำนายต่อเนื่องกับผู้ทำนายหมวดหมู่ได้หรือไม่ ถ้าเป็นเช่นนั้นฉันคิดว่ามันจะเทียบเท่ากับการสร้างหมวดหมู่ใหม่ - ฉันระแวงว่านี่อาจทำให้เกิดอคติ ไม่มีใครรู้ว่าแพ็คเกจ glmnet ของ R …

3
ประโยชน์ของการใส่ความมากกว่าการสร้างแบบจำลองหลายรูปแบบในการถดถอยคืออะไร?
ฉันสงสัยว่าใครบางคนสามารถให้ข้อมูลเชิงลึกว่าทำไมการใส่ข้อมูลที่ขาดหายไปนั้นดีกว่าการสร้างแบบจำลองที่แตกต่างกันสำหรับกรณีที่ไม่มีข้อมูล โดยเฉพาะอย่างยิ่งในกรณีของแบบจำลองเชิงเส้น [แบบทั่วไป] (ฉันอาจเห็นในกรณีที่ไม่ใช่แบบเส้นตรงสิ่งต่าง ๆ ) สมมติว่าเรามีโมเดลเชิงเส้นพื้นฐาน: Y=β1X1+β2X2+β3X3+ϵY=β1X1+β2X2+β3X3+ϵ Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon แต่ชุดข้อมูลของเรามีบันทึกบางส่วนที่ไม่มีในชุดข้อมูลที่ทำนายรูปแบบจะถูกนำมาใช้มีก็จะเป็นกรณีของการขาดหายไปX_3ดูเหมือนจะมีสองวิธีในการดำเนินการ:X3X3X_3X3X3X_3 หลายรุ่น เราสามารถแบ่งข้อมูลออกเป็นและไม่ใช่เคสและสร้างโมเดลแยกต่างหากสำหรับแต่ละกรณี หากเราสมมติว่านั้นมีความสัมพันธ์ใกล้ชิดกับโมเดลข้อมูลที่หายไปอาจมีน้ำหนักเกินเพื่อให้ได้คำทำนายที่ดีที่สุดสองตัวทำนาย นอกจากนี้หากกรณีข้อมูลที่ขาดหายไปนั้นแตกต่างกันเล็กน้อย (เนื่องจากกลไกข้อมูลหายไป) ก็สามารถรวมความแตกต่างนั้นได้ ที่ด้านล่างทั้งสองรุ่นมีการปรับให้เหมาะสมกับข้อมูลเพียงบางส่วนเท่านั้นและไม่ได้ "ช่วยเหลือ" ซึ่งกันและกันดังนั้นชุดข้อมูลอาจไม่ดีกับชุดข้อมูลที่มี จำกัดX3X3X_3X3X3X_3X3X3X_3X2X2X_2X2X2X_2 การใส่ร้าย การถดถอยการใส่หลายครั้งก่อนจะเติมในโดยการสร้างแบบจำลองตามและแล้วสุ่มตัวอย่างแบบสุ่มเพื่อรักษาสัญญาณรบกวนในข้อมูลที่ใส่เข้าไป เนื่องจากนี่เป็นสองรุ่นอีกต่อไปสิ่งนี้จะไม่จบลงด้วยวิธีเดียวกับวิธีการหลายแบบข้างต้นหรือไม่ หากสามารถทำได้ดีกว่า - กำไรมาจากไหน เป็นความเหมาะสมของทำกับทั้งชุดหรือไม่X3X3X_3X1X1X_1X2X2X_2X1X1X_1 แก้ไข: ในขณะที่คำตอบของ Steffan อธิบายไว้ว่าการปรับแบบจำลองของกรณีที่สมบูรณ์บนข้อมูลที่มีการใส่ข้อมูลจะมีประสิทธิภาพสูงกว่าข้อมูลที่สมบูรณ์และดูเหมือนว่าการย้อนกลับเป็นความจริง แต่ก็ยังมีความเข้าใจผิดเกี่ยวกับการพยากรณ์ข้อมูลที่หายไป ถ้าฉันมีโมเดลด้านบนติดตั้งได้อย่างสมบูรณ์แบบโดยทั่วไปจะเป็นตัวแบบพยากรณ์ที่แย่มากถ้าฉันใส่ศูนย์ลงไปเมื่อทำนาย ลองนึกภาพเช่นว่าแล้วจะไม่ได้ผลอย่างสมบูรณ์ ( ) เมื่อเป็นปัจจุบัน แต่ก็ยังจะเป็นประโยชน์ในกรณีที่ไม่มีของX_3X2=X3+ηX2=X3+ηX_2 = …

3
รวมสองชุดเวลาโดยเฉลี่ยจุดข้อมูล
ฉันต้องการรวมการคาดการณ์และการย้อนกลับ (กล่าวคือค่าที่ผ่านมาที่คาดการณ์) ของข้อมูลอนุกรมเวลาที่ตั้งค่าไว้ในอนุกรมเวลาหนึ่งโดยลดข้อผิดพลาดการคาดคะเนค่าเฉลี่ยกำลังสองลง สมมติว่าฉันมีอนุกรมเวลาตั้งแต่ 2001-2010 โดยมีช่องว่างสำหรับปี 2550 ฉันสามารถคาดการณ์ปี 2007 โดยใช้ข้อมูล 2001-2007 (เส้นสีแดง - เรียกว่า ) และกลับโดยใช้ข้อมูล 2008-2009 (สีน้ำเงินอ่อน) สาย - เรียกมันว่า )Y bYfYfY_fYbYbY_b ฉันต้องการรวมจุดข้อมูลของและเป็นจุดข้อมูลที่ระบุ Y_i ในแต่ละเดือน จะเป็นการดีที่ฉันต้องการที่จะได้รับน้ำหนักดังกล่าวว่าจะช่วยลดข้อผิดพลาดในการทำนาย Mean Squared (MSPE) ของY_iหากเป็นไปไม่ได้ฉันจะหาค่าเฉลี่ยระหว่างจุดข้อมูลของอนุกรมเวลาสองชุดได้อย่างไรY b w Y iYfYfY_fYbYbY_bwwwYiYiY_i Yi=w⋅Yf+(1−w)⋅YbYi=w⋅Yf+(1−w)⋅YbY_i = w\cdot Y_f + (1-w)\cdot Y_b เป็นตัวอย่างรวดเร็ว: tt_f <- ts(1:12, start = 2007, freq …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.