4
กำลังล้างข้อมูลของรูปแบบที่ไม่สอดคล้องใน R หรือไม่
ฉันมักจะจัดการกับข้อมูลการสำรวจที่ยุ่งเหยิงซึ่งต้องมีการทำความสะอาดมากก่อนที่จะสามารถทำสถิติใด ๆ ได้ ฉันเคยทำสิ่งนี้ "ด้วยตนเอง" ใน Excel บางครั้งใช้สูตร Excel และบางครั้งก็ตรวจสอบรายการทีละรายการ ฉันเริ่มทำงานเหล่านี้มากขึ้นเรื่อย ๆ โดยการเขียนสคริปต์เพื่อทำใน R ซึ่งมีประโยชน์มาก (ผลประโยชน์รวมถึงการบันทึกสิ่งที่ทำไปแล้วมีโอกาสผิดพลาดน้อยลงและสามารถนำรหัสมาใช้ใหม่ได้หากชุดข้อมูลเป็น ปรับปรุง) แต่ยังมีข้อมูลบางประเภทที่ฉันมีปัญหาในการจัดการอย่างมีประสิทธิภาพ ตัวอย่างเช่น: > d <- data.frame(subject = c(1,2,3,4,5,6,7,8,9,10,11), + hours.per.day = c("1", "2 hours", "2 hr", "2hr", "3 hrs", "1-2", "15 min", "30 mins", "a few hours", "1 hr 30 min", "1 hr/week")) …
16
r
data-cleaning