ระบุรูปแบบวันที่ที่กำหนดเองสำหรับอาร์กิวเมนต์ colClasses ใน read.table / read.csv


101

คำถาม:

มีวิธีระบุรูปแบบวันที่เมื่อใช้อาร์กิวเมนต์ colClasses ใน read.table / read.csv หรือไม่

(ฉันรู้ว่าฉันสามารถแปลงได้หลังจากนำเข้า แต่มีคอลัมน์วันที่มากมายเช่นนี้การทำในขั้นตอนการนำเข้าจะง่ายกว่า)


ตัวอย่าง:

ฉันมี .csv %d/%m/%Yมีคอลัมน์วันที่ในรูปแบบที่

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))

สิ่งนี้ทำให้การแปลงผิดพลาด ยกตัวอย่างเช่นจะกลายเป็น15/07/20080015-07-20


รหัสที่ทำซ้ำได้:

data <- 
structure(list(func_loc = structure(c(1L, 2L, 3L, 3L, 3L, 3L, 
3L, 4L, 4L, 5L), .Label = c("3076WAG0003", "3076WAG0004", "3076WAG0007", 
"3076WAG0009", "3076WAG0010"), class = "factor"), order_type = structure(c(3L, 
3L, 1L, 1L, 1L, 1L, 2L, 2L, 3L, 1L), .Label = c("PM01", "PM02", 
"PM03"), class = "factor"), actual_finish = structure(c(4L, 6L, 
1L, 2L, 3L, 7L, 1L, 8L, 1L, 5L), .Label = c("", "11/03/2008", 
"14/08/2008", "15/07/2008", "17/03/2008", "19/01/2009", "22/09/2008", 
"6/09/2007"), class = "factor")), .Names = c("func_loc", "order_type", 
"actual_finish"), row.names = c(NA, 10L), class = "data.frame")


write.csv(data,"data.csv", row.names = F)                                                        

dataImport <- read.csv("data.csv")
str(dataImport)
dataImport

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
dataImport

และนี่คือลักษณะของผลลัพธ์:

เอาต์พุตรหัส


วิธี hackish การทำเช่นนี้จะสร้างรุ่นของคุณเองread.tableและเพิ่มอาร์กิวเมนต์ที่ถูกส่งผ่านไปยังformat as.Dateฉันจะไม่แปลกใจเลยถ้ามีวิธีที่ดีกว่าที่ฉันคิดไม่ถึง
joran

คำตอบ:


158

คุณสามารถเขียนฟังก์ชันของคุณเองที่รับสตริงและแปลงเป็นวันที่โดยใช้รูปแบบที่คุณต้องการจากนั้นใช้setAsเพื่อตั้งค่าเป็นasวิธีการ จากนั้นคุณสามารถใช้ฟังก์ชันของคุณเป็นส่วนหนึ่งของ colClasses

ลอง:

setAs("character","myDate", function(from) as.Date(from, format="%d/%m/%Y") )

tmp <- c("1, 15/08/2008", "2, 23/05/2010")
con <- textConnection(tmp)

tmp2 <- read.csv(con, colClasses=c('numeric','myDate'), header=FALSE)
str(tmp2)

จากนั้นแก้ไขหากจำเป็นเพื่อทำงานกับข้อมูลของคุณ

แก้ไข ---

คุณอาจต้องการเรียกใช้setClass('myDate')ก่อนเพื่อหลีกเลี่ยงคำเตือน (คุณสามารถเพิกเฉยต่อคำเตือนได้ แต่อาจสร้างความรำคาญได้หากคุณทำสิ่งนี้มาก ๆ และนี่เป็นคำเรียกง่ายๆที่กำจัดมันออกไป)


2
ว้าว - setAs คือผู้ช่วยชีวิต! ฉันไม่เคยเห็นฟังก์ชันนี้มาก่อนได้อย่างไร?
user295691

4
โปรดทราบว่าคุณอาจได้รับคำเตือน "ไม่มีคำจำกัดความสำหรับคลาส" myDate "ตามรายละเอียดในคำถามนี้
Danny D'Amours

1
สิ่งที่setMethod('myDate')ควรทำ? การเรียกใช้มันทำให้ฉันมีข้อผิดพลาด ...
Josh O'Brien

1
@ JoshO'Brien ขอโทษที่ควรจะได้รับsetClass(แก้ไขแล้ว) สิ่งที่ทำคือป้องกันไม่ให้setAsออกคำเตือนเกี่ยวกับ 'myDate' ที่ไม่มีอยู่ในคลาส คำเตือนไม่เป็นอันตรายและทุกอย่างยังคงใช้งานได้ แต่การตั้งค่าชั้นเรียนหมายความว่าคุณไม่เห็นคำเตือนด้วยซ้ำ
Greg Snow

1
@MySchizoBuddy หากคุณมีคอลัมน์วันที่เพียงคอลัมน์เดียวและคุณทำสิ่งนี้ครั้งเดียวอาจไม่สำคัญว่าคุณจะทำด้วยวิธีใด แต่ถ้าคุณมีหลายคอลัมน์ในชุดข้อมูลของคุณที่เป็นวันที่ฉันคิดว่าวิธีนี้น่าจะง่ายกว่าการเปลี่ยนแต่ละคอลัมน์หลังจากอ่าน
Greg Snow

25

หากคุณต้องการเปลี่ยนรูปแบบวันที่เพียง 1 รูปแบบคุณสามารถใช้Defaultsแพ็กเกจเพื่อเปลี่ยนรูปแบบเริ่มต้นภายในas.Date.character

library(Defaults)
setDefaults('as.Date.character', format = '%d/%M/%Y')
dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
## 'data.frame':    10 obs. of  3 variables:
##  $ func_loc     : Factor w/ 5 levels "3076WAG0003",..: 1 2 3 3 3 3 3 4 4 5
##  $ order_type   : Factor w/ 3 levels "PM01","PM02",..: 3 3 1 1 1 1 2 2 3 1
##  $ actual_finish: Date, format: "2008-10-15" "2009-10-19" NA "2008-10-11" ...

ฉันคิดว่าคำตอบของ @Greg Snow ดีกว่ามากเนื่องจากไม่ได้เปลี่ยนพฤติกรรมเริ่มต้นของฟังก์ชันที่ใช้บ่อย


7

ในกรณีที่คุณต้องการเวลา:

setClass('yyyymmdd-hhmmss')
setAs("character","yyyymmdd-hhmmss", function(from) as.POSIXct(from, format="%Y%m%d-%H%M%S"))
d <- read.table(colClasses="yyyymmdd-hhmmss", text="20150711-130153")
str(d)
## 'data.frame':    1 obs. of  1 variable:
## $ V1: POSIXct, format: "2015-07-11 13:01:53"

2

นานมาแล้วในระหว่างนี้ปัญหาได้รับการแก้ไขโดย Hadley Wickham ดังนั้นในปัจจุบันการแก้ปัญหาจึงลดลงเป็น oneliner:

library(readr)
data <- read_csv("data.csv", 
                  col_types = cols(actual_finish = col_datetime(format = "%d/%m/%Y")))

บางทีเราอาจต้องการกำจัดสิ่งที่ไม่จำเป็น:

data <- as.data.frame(data)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.