คำถามติดแท็ก multiple-imputation

การใส่หลายตัวแปรหมายถึงชุดของกิจวัตรการใส่ความสุ่มที่มุ่งเป้าไปที่การรักษาคุณลักษณะหลายตัวแปรของข้อมูล

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

4
การใส่หลายแบบและการเลือกแบบจำลอง
การใส่หลายแบบนั้นค่อนข้างตรงไปตรงมาเมื่อคุณมีโมเดลเชิงเส้นเบื้องต้นที่คุณต้องการประมาณ อย่างไรก็ตามสิ่งต่าง ๆ ดูเหมือนจะมีเล่ห์เหลี่ยมกว่าเมื่อคุณต้องการเลือกแบบจำลองบางอย่าง (เช่นค้นหาชุดตัวทำนายที่ดีที่สุดจากตัวแปรตัวเลือกที่มีขนาดใหญ่กว่า - ฉันกำลังคิดถึง LASSO และพหุนามเศษส่วนโดยใช้ R) แนวคิดหนึ่งคือให้พอดีกับโมเดลในข้อมูลต้นฉบับที่มีค่าที่หายไปจากนั้นประเมินโมเดลนี้ใหม่ในชุดข้อมูล MI และรวมการประมาณการตามปกติ อย่างไรก็ตามนี่เป็นปัญหาเนื่องจากคุณคาดหวังความลำเอียง (หรือทำไม MI ในตอนแรก?) ซึ่งอาจนำไปสู่การเลือกแบบจำลอง "ผิด" ตั้งแต่เริ่มต้น ความคิดอีกอย่างหนึ่งก็คือการทำตามขั้นตอนการเลือกแบบจำลองใด ๆ ที่คุณใช้ในชุดข้อมูล MI แต่ละชุด - แต่คุณจะรวมผลลัพธ์อย่างไรหากรวมตัวแปรชุดต่าง ๆ เข้าด้วยกัน หนึ่งคิดว่าฉันต้องซ้อนชุดข้อมูล MI และวิเคราะห์เป็นชุดข้อมูลขนาดใหญ่ที่คุณจะใช้เพื่อให้พอดีกับรูปแบบ "ดีที่สุด" เดี่ยวและรวมถึงผลกระทบแบบสุ่มในบัญชีสำหรับความจริงที่คุณใช้มาตรการซ้ำสำหรับ การสังเกตแต่ละครั้ง เสียงนี้สมเหตุสมผลหรือไม่ หรืออาจจะไร้เดียงสาอย่างไม่น่าเชื่อ? พอยน์เตอร์ใด ๆ ในปัญหานี้ (การเลือกรุ่นที่มีการใส่หลายครั้ง) จะได้รับการชื่นชมอย่างมาก

3
การใส่ร้ายก่อนหรือหลังแยกออกเป็นรถไฟและทดสอบ?
ฉันมีชุดข้อมูลที่มี N ~ 5,000 และประมาณ 1/2 หายไปกับตัวแปรสำคัญอย่างน้อยหนึ่งตัว วิธีการวิเคราะห์หลักจะเป็นอันตรายตามสัดส่วนของคอคส์ ฉันวางแผนที่จะใช้การใส่หลายแบบ ฉันจะแยกเป็นชุดรถไฟและชุดทดสอบ ฉันควรแยกข้อมูลแล้วใส่ข้อมูลแยกต่างหากหรือใส่ร้ายแล้วแยก? ถ้ามันเป็นเรื่องสำคัญผมจะใช้ในPROC MISAS

2
การใส่หลายครั้งสำหรับตัวแปรผลลัพธ์
ฉันมีชุดข้อมูลเกี่ยวกับการทดลองทางการเกษตร ตัวแปรตอบกลับของฉันคืออัตราส่วนการตอบสนอง: บันทึก (การรักษา / การควบคุม) ฉันสนใจในสิ่งที่เป็นสื่อกลางความแตกต่างดังนั้นฉันจึงเรียกใช้ RE-meta-regressions (ไม่ถ่วงน้ำหนักเนื่องจากดูเหมือนชัดเจนว่าขนาดของเอฟเฟกต์นั้นไม่มีความสัมพันธ์กับความแปรปรวนของการประมาณ) การศึกษาแต่ละครั้งจะรายงานถึงผลผลิตของข้าว, ชีวมวลหรือทั้งสองอย่าง ฉันไม่สามารถแยกแยะผลผลิตข้าวจากการศึกษาที่รายงานผลผลิตชีวมวลเพียงอย่างเดียวเพราะไม่ใช่พืชที่ศึกษาทั้งหมดมีประโยชน์สำหรับเมล็ดพืช (เช่นอ้อยรวมอยู่ด้วย) แต่พืชแต่ละชนิดที่ผลิตธัญพืชก็มีชีวมวลด้วยเช่นกัน สำหรับเพื่อนร่วมงานที่ขาดหายไปฉันใช้การใส่คำซ้ำซ้ำ (ตามบทตำราของ Andrew Gelman) ดูเหมือนว่าจะให้ผลลัพธ์ที่สมเหตุสมผลและโดยทั่วไปกระบวนการทั้งหมดนั้นใช้งานง่าย โดยทั่วไปฉันคาดการณ์ค่าที่หายไปและใช้ค่าที่คาดการณ์เหล่านั้นเพื่อคาดการณ์ค่าที่หายไปและวนซ้ำแต่ละตัวแปรจนกว่าแต่ละตัวแปรจะมาบรรจบกัน (ในการแจกแจง) มีเหตุผลใดบ้างที่ฉันไม่สามารถใช้กระบวนการเดียวกันเพื่อใส่ข้อมูลผลลัพธ์ที่ขาดหายไป ฉันอาจจะสร้างแบบจำลองการให้ข้อมูลที่ค่อนข้างมีความหมายสำหรับอัตราส่วนการตอบสนองของสิ่งมีชีวิตต่อหน่วยพื้นที่โดยพิจารณาจากอัตราส่วนการตอบสนองของธัญพืชชนิดของพืชและ covariates อื่น ๆ ที่ฉันมี จากนั้นฉันจะเฉลี่ยค่าสัมประสิทธิ์และ VCV ของและเพิ่มการแก้ไข MI ตามการปฏิบัติมาตรฐาน แต่สัมประสิทธิ์เหล่านี้วัดได้อย่างไรเมื่อผลลัพธ์ของตัวเองถูกกำหนดไว้? การตีความสัมประสิทธิ์นั้นแตกต่างจาก MI มาตรฐานสำหรับ covariates หรือไม่? เมื่อคิดถึงเรื่องนี้ฉันไม่สามารถโน้มน้าวตัวเองได้ว่าสิ่งนี้ไม่ได้ผล แต่ฉันก็ไม่แน่ใจ ยินดีต้อนรับความคิดและข้อเสนอแนะสำหรับการอ่านเนื้อหา

1
การรวมพล็อตการสอบเทียบหลังจากการใส่หลายครั้ง
ฉันต้องการคำแนะนำในการรวมพล็อตการแปลง / สถิติหลังจากการใส่ร้ายหลายครั้ง ในการตั้งค่าการพัฒนาแบบจำลองทางสถิติเพื่อทำนายเหตุการณ์ในอนาคต (เช่นการใช้ข้อมูลจากบันทึกของโรงพยาบาลเพื่อทำนายการรอดชีวิตของผู้ป่วยหลังออกจากโรงพยาบาลหรือเหตุการณ์) เราสามารถจินตนาการได้ว่ามีข้อมูลที่ขาดหายไปมากมาย การใส่ข้อมูลหลายครั้งเป็นวิธีหนึ่งในการจัดการสถานการณ์ดังกล่าว แต่ส่งผลให้จำเป็นต้องรวมสถิติการทดสอบจากชุดข้อมูลการใส่ข้อมูลแต่ละชุดโดยคำนึงถึงความแปรปรวนเพิ่มเติมเนื่องจากความไม่แน่นอนของการใส่ความ ฉันเข้าใจว่ามีสถิติการสอบเทียบหลายอย่าง (hosmer-lemeshow, Emax ของ Harrell, ดัชนีการสอบเทียบโดยประมาณ ฯลฯ ) ซึ่งอาจใช้กฎรูบิน 'ปกติ' สำหรับการรวมกำไร อย่างไรก็ตามสถิติเหล่านี้มักจะเป็นมาตรการโดยรวมของการสอบเทียบซึ่งไม่แสดงขอบเขตที่พลาดการสอบเทียบที่เฉพาะเจาะจงของโมเดล ด้วยเหตุนี้ฉันควรดูที่แผนการปรับเทียบ น่าเสียดายที่ฉันไม่รู้วิธีการ 'รวม' แปลงหรือข้อมูลเบื้องหลัง (คาดการณ์ความน่าจะเป็นต่อบุคคลและผลลัพธ์ที่สังเกตได้ต่อบุคคล) และไม่สามารถหาได้มากในวรรณคดีชีวการแพทย์ (สาขาที่ฉันคุ้นเคย) หรือที่นี่ใน CrossValidated แน่นอนว่าการดูชุดข้อมูลการสอบเทียบของชุดข้อมูลแต่ละชุดอาจเป็นคำตอบ แต่อาจกลายเป็นเรื่องที่น่ารำคาญมาก (จนถึงปัจจุบัน) เมื่อสร้างชุดการใส่จำนวนมาก ฉันอยากถามว่ามีเทคนิคใดบ้างที่จะส่งผลให้เกิดแผนการปรับเทียบหรือไม่หลังจากรวมหลายครั้ง (?)

5
การใส่หลายครั้งสำหรับค่าที่หายไป
ฉันต้องการใช้การใส่ข้อมูลเพื่อแทนที่ค่าที่หายไปในชุดข้อมูลของฉันภายใต้ข้อ จำกัด บางประการ ตัวอย่างเช่นผมต้องการตัวแปรที่ประเมินx1จะมีค่ามากกว่าหรือเท่ากับผลรวมของสองตัวแปรอื่น ๆ ของฉันพูดและx2 x3ฉันยังต้องการที่x3จะได้รับการกล่าวหาโดยทั้ง0หรือ>= 14และฉันต้องการที่x2จะได้รับการกล่าวหาโดยทั้งหรือ0>= 16 ฉันพยายามกำหนดข้อ จำกัด เหล่านี้ใน SPSS สำหรับการใส่หลายครั้ง แต่ใน SPSS ฉันสามารถกำหนดค่าสูงสุดและต่ำสุดได้เท่านั้น มีวิธีใดที่จะกำหนดข้อ จำกัด เพิ่มเติมใน SPSS หรือคุณรู้แพ็คเกจ R ที่จะให้ฉันกำหนดข้อ จำกัด ดังกล่าวสำหรับการใส่ค่าที่หายไป? ข้อมูลของฉันเป็นดังนี้: x1 =c(21, 50, 31, 15, 36, 82, 14, 14, 19, 18, 16, 36, 583, NA,NA,NA, 50, 52, 26, 24) x2 = c(0, NA, …

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
ฉันจะรวมค่า p bootstrapped กับชุดข้อมูลที่มีการคูณทวีคูณได้อย่างไร
ฉันกังวลกับปัญหาที่ฉันต้องการบู๊ต p-value สำหรับการประมาณของจากข้อมูล imputed (MI) ที่คูณกัน แต่มันก็ไม่ชัดเจนสำหรับฉันที่จะรวมค่า p-ข้ามชุด MIθθ\theta สำหรับชุดข้อมูล MI วิธีการมาตรฐานในการเข้าถึงความแปรปรวนโดยประมาณทั้งหมดใช้กฎของรูบิน ดูที่นี่สำหรับการตรวจสอบการรวมชุดข้อมูล MI รากที่สองของความแปรปรวนทั้งหมดทำหน้าที่เป็นประมาณการข้อผิดพลาดมาตรฐานของ\อย่างไรก็ตามสำหรับบางตัวประมาณค่าความแปรปรวนทั้งหมดยังไม่ทราบว่าเป็นรูปแบบปิดหรือการกระจายตัวตัวอย่างไม่ปกติ สถิติอาจไม่ได้รับการแจกแจงแบบทีไม่ใช่แบบไม่แสดงอาการθ / s E ( θ )θθ\thetaθ / s e ( θ )θ/se(θ){\theta}/{se(\theta)} ดังนั้นในกรณีข้อมูลที่สมบูรณ์ตัวเลือกหนึ่งทางเลือกคือการบูตสถิติเพื่อค้นหาความแปรปรวนค่า p และช่วงความมั่นใจแม้ว่าการกระจาย samling ไม่ปกติและไม่ทราบรูปแบบปิด ในกรณี MI มีสองตัวเลือก: รวมกลุ่มความแปรปรวนที่เริ่มต้นผ่านชุดข้อมูล MI พูลค่า p-value หรือขอบเขตความมั่นใจในชุดข้อมูล MI ตัวเลือกแรกจะใช้กฎของรูบินอีกครั้ง อย่างไรก็ตามฉันเชื่อว่านี่เป็นปัญหาหากมีการแจกแจงตัวอย่างที่ไม่ปกติ ในสถานการณ์นี้ (หรือโดยทั่วไปในทุกสถานการณ์) ค่า p bootstrapped สามารถนำมาใช้โดยตรง …

2
วิธีรับค่า p-pooled จากการทดสอบที่ทำในชุดข้อมูลหลายชุด
เมื่อใช้ Amelia ใน R ฉันได้รับชุดข้อมูลหลายชุด หลังจากนั้นฉันทำการทดสอบซ้ำใน SPSS ตอนนี้ฉันต้องการรวมผลการทดสอบ ฉันรู้ว่าฉันสามารถใช้กฎของ Rubin (ดำเนินการผ่านแพ็คเกจการใส่หลาย ๆ แบบใน R) เพื่อรวมหมายถึงและข้อผิดพลาดมาตรฐาน แต่ฉันจะรวมค่า p ได้อย่างไร เป็นไปได้ไหม? มีฟังก์ชั่นใน R ที่จะทำเช่นนั้น? ขอบคุณล่วงหน้า.

2
ในการศึกษาระยะยาวฉันควรใส่นัยยะผลลัพธ์ Y ที่วัดได้ในเวลา 2 สำหรับบุคคลที่หลงหายไปจากการติดตาม?
ฉันมีมาตรการซ้ำ ๆ ที่ 2 ครั้งในกลุ่มตัวอย่าง มีคน 18k ในเวลา 1 และ 13k ในเวลา 2 (5,000 คนหายไปจากการติดตาม) ฉันต้องการถอยหลังผลลัพธ์ Y ที่วัดได้ในเวลา 2 (และผลลัพธ์ไม่สามารถวัดได้ในเวลา 1) ในชุดของตัวทำนาย X วัดในเวลาที่ 1 ตัวแปรทั้งหมดมีข้อมูลที่ขาดหายไปบางส่วน ส่วนใหญ่มันจะค่อนข้างสุ่มหรือความหายไปดูเหมือนจะอธิบายได้ดีจากข้อมูลที่สังเกต อย่างไรก็ตามการหายไปส่วนใหญ่ในผลลัพธ์ Y นั้นเกิดจากการติดตามผลที่สูญเสียไป ฉันจะใช้การใส่หลายครั้ง (R :: mice) และจะใช้ชุดข้อมูลแบบเต็มเพื่อใส่ค่าสำหรับ X แต่ฉันได้รับคำแนะนำที่ขัดแย้งกัน 2 ชิ้นเกี่ยวกับการใส่ความเห็นของ Y: 1) Impute Y จาก X และ V (V = ตัวแปรเสริมที่มีประโยชน์) …

2
วิธีปรับปรุงเวลาทำงานสำหรับการใส่ข้อมูล R MICE
คำถามของฉันในระยะสั้น: มีวิธีการปรับปรุงเกี่ยวกับเวลาทำงานของ R MICE (การใส่ข้อมูล) หรือไม่ ฉันกำลังทำงานกับชุดข้อมูล (30 ตัวแปร, 1.3 ล้านแถว) ซึ่งมีข้อมูลที่หายไป (ค่อนข้างสุ่ม) ประมาณ 8% ของการสังเกตในตัวแปรประมาณ 15 จาก 30 ตัวประกอบด้วย NAs เพื่อระบุข้อมูลที่หายไปฉันกำลังเรียกใช้ฟังก์ชัน MICE ซึ่งเป็นส่วนหนึ่งของแพ็คเกจMICE ฉันพบเวลาทำงานค่อนข้างช้าแม้จะอยู่บนชุดย่อย (100,000 แถว) ด้วยเมธอด = "fastpmm" และ m = 1 และทำงานประมาณ 15 นาที มีวิธีปรับปรุงเวลาทำงานโดยไม่สูญเสียประสิทธิภาพมากเกินไปหรือไม่? (mice.impute.mean ค่อนข้างเร็ว แต่มาพร้อมกับการสูญเสียข้อมูลที่สำคัญ!) รหัสที่ทำซ้ำได้: library(mice) df <- data.frame(replicate(30,sample(c(NA,1:10),1000000,rep=TRUE))) df <- data.frame(scale(df)) output …

1
ทำไมการใส่ข้อมูลหลาย ๆ ครั้งจึงมีคุณภาพต่ำ
พิจารณารหัส R ต่อไปนี้: > data <- data.frame( a=c(NA,2,3,4,5,6),b=c(2.2,NA,6.1,8.3,10.2,12.13),c=c(4.2,7.9,NA,16.1,19.9,23)) > data a b c 1 NA 2.20 4.2 2 2 NA 7.9 3 3 6.10 NA 4 4 8.30 16.1 5 5 10.20 19.9 6 6 12.13 23.0 c = 2*b = 4*aที่คุณสามารถดูฉันได้ออกแบบข้อมูลเพื่อให้ประมาณ a=1, b=2, c=12ดังนั้นเราคาดว่าจะได้ค่าที่ขาดหายไปจะเป็นรอบ ดังนั้นฉันทำการวิเคราะห์: > imp <- mi(data) …

1
การถดถอยหลายครั้งพร้อมตัวแปรทำนายที่ขาดหายไป
สมมติว่าเราได้รับชุดข้อมูลของฟอร์มและ{n-1}) เราจะได้รับงานของการทำนายขึ้นอยู่กับค่าของxเราประเมินการถดถอยสองจุดโดยที่: (y,x1,x2,⋯,xn)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n})(y,x1,x2,⋯,xn−1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1})yyyxxxyy=f1(x1,⋯,xn−1,xn)=f2(x1,⋯,xn−1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} นอกจากนี้เรายังประเมินการถดถอยที่ทำนายค่าของตามค่าของนั่นคือ: xnxnx_{n}(x1,⋯,xn−1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1})xn=f3(x1,⋯,xn−1)(3)(3)xn=f3(x1,⋯,xn−1) x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3} สมมติว่าตอนนี้เราได้รับค่าของจากนั้นเราจะมีสองวิธีที่แตกต่างกันในการทำนาย :(x1,⋯,xn−1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1})yyy yy=f1(x1,⋯,xn−1,f3(x1,⋯,xn−1))=f2(x1,⋯,xn−1)(4)(5)(4)y=f1(x1,⋯,xn−1,f3(x1,⋯,xn−1))(5)y=f2(x1,⋯,xn−1) \begin{align} y&=f_{1}(x_{1},\cdots, x_{n-1},f_{3}(x_{1},\cdots,x_{n-1})) \tag{4} \\ y&=f_{2}(x_{1},\cdots, x_{n-1}) \tag{5} \end{align} โดยทั่วไปอันไหนดีกว่ากัน? ฉันเดาว่าสมการแรกจะดีกว่าเพราะใช้ข้อมูลจากจุดข้อมูลสองรูปแบบในขณะที่สมการที่สองใช้ข้อมูลจากจุดข้อมูลเฉพาะที่มีค่าตัวทำนายสถิติการฝึกอบรมของฉันมี จำกัด และฉันต้องการคำแนะนำจากผู้เชี่ยวชาญn−1n−1n-1 นอกจากนี้โดยทั่วไปแล้ววิธีการที่ดีที่สุดสำหรับข้อมูลที่มีข้อมูลไม่สมบูรณ์คืออะไร ในคำอื่น ๆ วิธีการที่เราสามารถดึงข้อมูลมากที่สุดจากข้อมูลที่ไม่ได้มีค่าในทุกมิติ?nnn
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.