คำถามของฉันในระยะสั้น: มีวิธีการปรับปรุงเกี่ยวกับเวลาทำงานของ R MICE (การใส่ข้อมูล) หรือไม่
ฉันกำลังทำงานกับชุดข้อมูล (30 ตัวแปร, 1.3 ล้านแถว) ซึ่งมีข้อมูลที่หายไป (ค่อนข้างสุ่ม) ประมาณ 8% ของการสังเกตในตัวแปรประมาณ 15 จาก 30 ตัวประกอบด้วย NAs เพื่อระบุข้อมูลที่หายไปฉันกำลังเรียกใช้ฟังก์ชัน MICE ซึ่งเป็นส่วนหนึ่งของแพ็คเกจMICE
ฉันพบเวลาทำงานค่อนข้างช้าแม้จะอยู่บนชุดย่อย (100,000 แถว) ด้วยเมธอด = "fastpmm" และ m = 1 และทำงานประมาณ 15 นาที
มีวิธีปรับปรุงเวลาทำงานโดยไม่สูญเสียประสิทธิภาพมากเกินไปหรือไม่? (mice.impute.mean ค่อนข้างเร็ว แต่มาพร้อมกับการสูญเสียข้อมูลที่สำคัญ!)
รหัสที่ทำซ้ำได้:
library(mice)
df <- data.frame(replicate(30,sample(c(NA,1:10),1000000,rep=TRUE)))
df <- data.frame(scale(df))
output <- mice(df, m=1, method = "fastpmm")