คำถามติดแท็ก missing-data

เมื่อข้อมูลขาดข้อมูล (ช่องว่าง) เช่นไม่สมบูรณ์ ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องพิจารณาคุณสมบัตินี้เมื่อทำการวิเคราะห์หรือทดสอบ

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

7
ทำไม Random Forest ไม่จัดการค่าที่ขาดหายไปในตัวทำนาย?
อะไรคือเหตุผลทางทฤษฎีที่จะไม่จัดการกับค่าที่ขาดหายไป? เครื่องเร่งการไล่ระดับสีต้นไม้การถดถอยจัดการค่าที่ขาดหายไป ทำไม Random Forest ถึงไม่ทำเช่นนั้น?

3
การจับคู่คะแนนความโน้มเอียงหลังจากการใส่หลายครั้ง
ฉันอ้างถึงเอกสารนี้ : Hayes JR, Groner JI "การใช้คะแนนความชอบและคะแนนความชอบหลายระดับเพื่อทดสอบผลกระทบของเบาะรถยนต์และการใช้เข็มขัดนิรภัยต่อความรุนแรงของการบาดเจ็บจากข้อมูลทะเบียนอุบัติเหตุ" J Pediatr Surg. 2008 พฤษภาคม; 43 (5): 924-7 ในการศึกษานี้ได้ทำการใส่ข้อมูลหลายชุดเพื่อรับชุดข้อมูลที่สมบูรณ์ 15 ชุด คะแนนความน่าเชื่อถือถูกคำนวณแล้วสำหรับแต่ละชุดข้อมูล จากนั้นสำหรับแต่ละหน่วยสังเกตการณ์บันทึกถูกเลือกแบบสุ่มจากหนึ่งใน 15 ชุดข้อมูลที่เสร็จสมบูรณ์ (รวมถึงคะแนนความชอบที่เกี่ยวข้อง) ดังนั้นการสร้างชุดข้อมูลสุดท้ายเดียวซึ่งถูกวิเคราะห์โดยการจับคู่คะแนนความชอบ คำถามของฉันคือ: นี่เป็นวิธีที่ถูกต้องหรือไม่ที่จะทำการจับคู่คะแนนความชอบหลังจากการใส่หลายครั้ง มีวิธีอื่นในการทำหรือไม่? สำหรับบริบท: ในโครงการใหม่ของฉันฉันมุ่งมั่นที่จะเปรียบเทียบผลของวิธีการรักษา 2 วิธีโดยใช้การจับคู่คะแนนความชอบ มีข้อมูลที่ขาดหายไปและฉันตั้งใจจะใช้MICEแพ็กเกจใน R เพื่อใส่ค่าที่หายไปจากนั้นtwangทำการจับคู่คะแนนความชอบและlme4วิเคราะห์ข้อมูลที่ตรงกัน Update1: ฉันได้พบบทความนี้ซึ่งใช้แนวทางที่แตกต่าง: Mitra, Robin และ Reiter, Jerome P. (2011) คะแนนความตรงกับการหายไปของโควาเรียผ่านการใส่ซ้ำหลายครั้งตามลำดับ [Working Paper] ในบทความนี้ผู้เขียนคำนวณคะแนนความน่าเชื่อถือในชุดข้อมูลที่กำหนดทั้งหมดแล้วรวมค่าเฉลี่ยด้วยการหาค่าเฉลี่ยซึ่งอยู่ในจิตวิญญาณของการใส่ความคิดหลายครั้งโดยใช้กฎของ Rubin สำหรับการประเมินจุด - …

5
ทำไมบางคนใช้ -999 หรือ -9999 เพื่อแทนที่ค่าที่หายไป?
ฉันมีชุดข้อมูล มีค่าที่ขาดหายไปมากมาย สำหรับบางคอลัมน์ค่าที่หายไปถูกแทนที่ด้วย -999 แต่คอลัมน์อื่น ๆ ค่าที่หายไปถูกทำเครื่องหมายเป็น 'NA' ทำไมเราต้องใช้ -999 เพื่อแทนที่ค่าที่หายไป?

3
R จัดการค่าที่ขาดหายไปใน lm ได้อย่างไร
ฉันต้องการถดถอยเวกเตอร์ B เทียบกับแต่ละคอลัมน์ในเมทริกซ์ A นี่เป็นเรื่องไม่สำคัญหากไม่มีข้อมูลที่หายไป แต่ถ้าเมทริกซ์ A มีค่าที่ขาดหายไปการถดถอยของฉันกับ A นั้นถูก จำกัด ให้รวมแถวเท่านั้น ค่าที่มีอยู่ ( พฤติกรรมna.omitเริ่มต้น) สิ่งนี้สร้างผลลัพธ์ที่ไม่ถูกต้องสำหรับคอลัมน์ที่ไม่มีข้อมูลขาดหายไป ฉันสามารถถอยหลังเมทริกซ์คอลัมน์ B กับคอลัมน์แต่ละคอลัมน์ของเมทริกซ์ A แต่ฉันมีการถดถอยนับพันที่ต้องทำและนี่เป็นการห้ามช้าและไม่เหมาะสม na.excludeฟังก์ชั่นที่ดูเหมือนว่าจะได้รับการออกแบบสำหรับกรณีนี้ แต่ฉันไม่สามารถทำให้การทำงาน ฉันทำอะไรผิดที่นี่ ใช้ R 2.13 บน OSX หากมีความสำคัญ A = matrix(1:20, nrow=10, ncol=2) B = matrix(1:10, nrow=10, ncol=1) dim(lm(A~B)$residuals) # [1] 10 2 (the expected 10 residual values) …

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

3
R caret และ NAs
ฉันชอบคาเร็ตมากสำหรับความสามารถในการปรับแต่งพารามิเตอร์และอินเทอร์เฟซที่เหมือนกัน แต่ฉันสังเกตว่ามันต้องการชุดข้อมูลที่สมบูรณ์เสมอ (เช่นไม่มี NA) แม้ว่าโมเดล "เปลือยกาย" ที่ใช้จะอนุญาต NA นั่นเป็นเรื่องที่น่ารำคาญอย่างมากเกี่ยวกับวิธีการที่ควรใช้วิธีการใส่ร้ายที่ไม่จำเป็นในตอนแรก วิธีการหนึ่งที่สามารถหลบเลี่ยงการใส่ร้ายและยังคงใช้ข้อได้เปรียบคาเร็ต?

5
อัลกอริทึมการเรียนรู้ของเครื่องเพื่อจัดการข้อมูลที่หายไป
ฉันพยายามที่จะพัฒนารูปแบบการทำนายโดยใช้ข้อมูลทางคลินิกมิติสูงรวมถึงค่าห้องปฏิบัติการ พื้นที่ข้อมูลเบาบางด้วยตัวอย่าง 5k และตัวแปร 200 ตัว แนวคิดคือการจัดอันดับตัวแปรโดยใช้วิธีการเลือกคุณสมบัติ (IG, RF ฯลฯ ) และใช้คุณสมบัติการจัดอันดับสูงสุดสำหรับการพัฒนาแบบจำลองการทำนาย ในขณะที่การเลือกคุณสมบัติเป็นไปได้ดีกับแนวทางของNaïve Bayes ตอนนี้ฉันกำลังตีปัญหาในการใช้แบบจำลองการทำนายเนื่องจากข้อมูลที่หายไป (NA) ในพื้นที่ตัวแปรของฉัน มีอัลกอริทึมการเรียนรู้ของเครื่องที่สามารถจัดการกับตัวอย่างที่มีข้อมูลที่ขาดหายไปอย่างระมัดระวังหรือไม่?

2
เหตุใดอัลกอริธึมการเพิ่มความคาดหวังจึงรับประกันว่าจะได้มาบรรจบกันเป็นสิ่งที่ดีที่สุดในท้องถิ่น?
ฉันได้อ่านคำอธิบายของอัลกอริทึม EM (เช่นจากการจดจำรูปแบบของอธิการและการเรียนรู้ของเครื่องและจากหลักสูตรแรกของ Roger and Gerolami ในการเรียนรู้ของเครื่อง) การได้มาของ EM ก็โอเคฉันเข้าใจแล้ว ฉันยังเข้าใจว่าทำไมอัลกอริทึมครอบคลุมถึงบางสิ่ง: ในแต่ละขั้นตอนเราปรับปรุงผลลัพธ์และโอกาสถูกล้อมรอบด้วย 1.0 ดังนั้นโดยใช้ข้อเท็จจริงง่าย ๆ (หากฟังก์ชันเพิ่มขึ้นและถูก จำกัด ขอบเขตจากนั้นก็มาบรรจบกัน) เรารู้ว่าอัลกอริทึม ทางออกบางอย่าง อย่างไรก็ตามเราจะรู้ได้อย่างไรว่ามันเป็นขั้นต่ำในท้องถิ่น? ในแต่ละขั้นตอนเรากำลังพิจารณาพิกัดเดียวเท่านั้น (ไม่ว่าจะเป็นตัวแปรแฝงหรือพารามิเตอร์) ดังนั้นเราอาจพลาดอะไรบางอย่างเช่นค่าต่ำสุดในท้องถิ่นต้องการการเคลื่อนย้ายโดยพิกัดทั้งสองพร้อมกัน ฉันเชื่อว่านี่เป็นปัญหาที่คล้ายคลึงกับของขั้นตอนวิธีการปีนเขาทั่วไปซึ่ง EM เป็นตัวอย่างของ ดังนั้นสำหรับอัลกอริทึมการปีนเขาทั่วไปเรามีปัญหานี้สำหรับฟังก์ชั่น f (x, y) = x * y หากเราเริ่มต้นจากจุด (0, 0) ดังนั้นเพียงพิจารณาทั้งสองทิศทางในครั้งเดียวเราสามารถเลื่อนขึ้นจาก 0 ค่า

4
การประมาณการความน่าจะเป็น EM สูงสุดสำหรับการกระจาย Weibull
หมายเหตุ: ฉันกำลังโพสต์คำถามจากนักเรียนเก่าของฉันไม่สามารถโพสต์ด้วยตนเองได้ด้วยเหตุผลทางเทคนิค รับ iid ตัวอย่างจากการแจก Weibull พร้อม pdf มีตัวแปรที่ขาดหายไปที่เป็นประโยชน์ และด้วยเหตุนี้ EM (ความคาดหวัง - การขยายใหญ่สุด) อัลกอริธึมที่สามารถใช้ในการค้นหา MLE ของแทนที่จะใช้ตรงไปตรงมา การเพิ่มประสิทธิภาพเชิงตัวเลข?x1,…,xnx1,…,xnx_1,\ldots,x_nfk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 fk(x)=∫Zgk(x,z)dzfk(x)=∫Zgk(x,z)dzf_k(x) = \int_\mathcal{Z} g_k(x,z)\,\text{d}zkkk

4
การกำหนดค่าที่ขาดหายไปสำหรับ PCA
ฉันใช้prcomp()ฟังก์ชั่นเพื่อทำการ PCA (การวิเคราะห์องค์ประกอบหลัก) ใน R อย่างไรก็ตามมีข้อผิดพลาดในฟังก์ชั่นดังกล่าวว่าna.actionพารามิเตอร์ไม่ทำงาน ผมขอความช่วยเหลือใน StackOverflow ; สองผู้ใช้มีการเสนอสองวิธีที่แตกต่างกันในการจัดการกับNAค่า อย่างไรก็ตามปัญหาของทั้งสองวิธีคือเมื่อมีNAค่าแถวนั้นจะถูกดร็อปและไม่ถูกพิจารณาในการวิเคราะห์ PCA ชุดข้อมูลจริงของฉันคือเมทริกซ์ 100 x 100 และฉันไม่ต้องการเสียทั้งแถวเพียงเพราะมันมีNAค่าเดียว ตัวอย่างต่อไปนี้แสดงให้เห็นว่าprcomp()ฟังก์ชั่นไม่ได้คืนองค์ประกอบหลักใด ๆ สำหรับแถว 5 เนื่องจากมันมีNAค่า d <- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result <- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # …

1
อัลกอริทึมการเรียนรู้ต้นไม้ตัดสินใจอย่างไรจัดการกับค่าที่หายไป (ใต้ฝากระโปรง)
อะไรคือวิธีที่อัลกอริทึมการเรียนรู้ต้นไม้ตัดสินใจใช้เพื่อจัดการกับค่าที่หายไป พวกเขาเพียงแค่เต็มช่องในการใช้ค่าที่เรียกว่าหายไป? ขอบคุณ

5
วิธีการทางสถิติเพื่อตรวจสอบว่าข้อมูลหายไปโดยการสุ่ม
ฉันมีชุดคุณสมบัติเวกเตอร์ขนาดใหญ่ซึ่งฉันจะใช้เพื่อโจมตีปัญหาการจำแนกเลขฐานสอง (โดยใช้ scikit learn ใน Python) ก่อนที่ฉันจะเริ่มคิดเกี่ยวกับการใส่ร้ายฉันมีความสนใจในการพยายามตรวจสอบจากส่วนที่เหลือของข้อมูลว่าข้อมูลที่ขาดหายไปคือ 'ขาดโดยสุ่ม' หรือขาดหายไปโดยไม่สุ่ม อะไรคือวิธีที่สมเหตุสมผลในการเข้าถึงคำถามนี้ กลายเป็นคำถามที่ดีกว่าคือการถามว่าข้อมูล 'สุ่มโดยสมบูรณ์' หายไปหรือไม่ วิธีที่เหมาะสมที่จะทำคืออะไร?

2
ฉันจะรวบรวมวิธีการหลังและช่วงเวลาที่น่าเชื่อถือหลังจากการใส่ร้ายหลายครั้งได้อย่างไร
ฉันใช้การใส่หลายชุดเพื่อรับชุดข้อมูลที่สมบูรณ์จำนวนหนึ่ง ฉันได้ใช้วิธีการแบบเบย์ในชุดข้อมูลแต่ละชุดที่เสร็จสมบูรณ์เพื่อรับการแจกแจงด้านหลังสำหรับพารามิเตอร์ (เอฟเฟกต์แบบสุ่ม) ฉันจะรวม / รวมผลลัพธ์สำหรับพารามิเตอร์นี้ได้อย่างไร บริบทเพิ่มเติม: แบบจำลองของฉันเป็นแบบลำดับชั้นในแง่ของนักเรียนแต่ละคน (หนึ่งการสังเกตต่อนักเรียนหนึ่งคน) จัดเป็นกลุ่มในโรงเรียน ฉันได้ทำการใส่หลาย ๆ ครั้ง (ใช้MICEใน R) กับข้อมูลของฉันซึ่งฉันรวมไว้schoolเป็นหนึ่งในตัวทำนายสำหรับข้อมูลที่หายไป - เพื่อพยายามรวมลำดับชั้นของข้อมูลเข้ากับการใส่ข้อมูล ฉันได้ติดตั้งโมเดลความชันสุ่มแบบง่ายกับชุดข้อมูลที่สมบูรณ์แต่ละชุด (ใช้MCMCglmmใน R) ผลลัพธ์ที่ได้คือไบนารี ฉันได้พบว่าความหนาแน่นด้านหลังของความแปรปรวนแบบสุ่มเป็น "พฤติกรรมที่ดี" ในแง่ที่ว่าพวกเขามีลักษณะเช่นนี้: ฉันจะรวม / รวมหมายถึงหลังและช่วงเวลาที่น่าเชื่อถือจากชุดข้อมูลแต่ละอันที่มีการกำหนดไว้สำหรับเอฟเฟกต์แบบสุ่มนี้ได้อย่างไร อัปเดต 1 : จากสิ่งที่ฉันเข้าใจจนถึงตอนนี้ฉันสามารถนำกฎของรูบินไปใช้กับค่าเฉลี่ยหลังเพื่อให้ค่าเฉลี่ยหลังซึ่งมีการโต้แย้งกันหลายครั้ง - มีปัญหาอะไรไหมกับการทำเช่นนี้? แต่ฉันไม่รู้ว่าจะรวมช่วงเวลาที่น่าเชื่อถือได้ 95% อย่างไร นอกจากนี้เนื่องจากฉันมีตัวอย่างความหนาแน่นด้านหลังที่แท้จริงสำหรับการใส่ร้ายแต่ละครั้ง - ฉันสามารถรวมสิ่งเหล่านี้ได้หรือไม่ อัปเดต 2 : ตามคำแนะนำของ @ cyan ในความคิดเห็นฉันชอบความคิดที่จะรวมตัวอย่างจากการแจกแจงหลังที่ได้จากชุดข้อมูลแต่ละชุดจากการใส่หลายครั้ง อย่างไรก็ตามฉันควรจะรู้เหตุผลทางทฤษฎีสำหรับการทำเช่นนี้

1
ความแตกต่างระหว่างข้อมูลที่หายไปและข้อมูลกระจัดกระจายในอัลกอริทึมการเรียนรู้ของเครื่อง
อะไรคือความแตกต่างที่สำคัญระหว่างข้อมูลที่กระจัดกระจายและข้อมูลที่ขาดหายไป? และมันมีอิทธิพลต่อการเรียนรู้ของเครื่องอย่างไร โดยเฉพาะอย่างยิ่งสิ่งที่ทำให้ข้อมูลกระจัดกระจายและข้อมูลที่ขาดหายไปนั้นมีต่ออัลกอริธึมการจำแนกและประเภทการถดถอย ฉันกำลังพูดถึงสถานการณ์ที่เปอร์เซ็นต์ของข้อมูลที่ขาดหายไปมีความสำคัญและเราไม่สามารถวางแถวที่มีข้อมูลที่ขาดหายไปได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.