คุณแปลงคอลัมน์ data frame เป็นชนิดตัวเลขได้อย่างไร
คุณแปลงคอลัมน์ data frame เป็นชนิดตัวเลขได้อย่างไร
คำตอบ:
ตั้งแต่ (ยังคง) ไม่มีใครมีเครื่องหมาย, numericฉันคิดว่าคุณมีปัญหาในทางปฏิบัติในใจส่วนใหญ่เป็นเพราะคุณไม่ได้ระบุสิ่งที่ประเภทของเวกเตอร์ที่คุณต้องการแปลง ฉันแนะนำให้คุณใช้transformฟังก์ชั่นเพื่อให้งานของคุณเสร็จสมบูรณ์
ตอนนี้ฉันกำลังจะสาธิต "การแปลงความผิดปกติ" บางอย่าง:
# create dummy data.frame
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)
ให้เราดูได้ทันทีที่ data.frame
> d
  char fake_char fac char_fac num
1    a         1   1        a   1
2    b         2   2        b   2
3    c         3   3        c   3
4    d         4   4        d   4
5    e         5   5        e   5
และให้เราเรียกใช้:
> sapply(d, mode)
       char   fake_char         fac    char_fac         num 
"character" "character"   "numeric"   "numeric"   "numeric" 
> sapply(d, class)
       char   fake_char         fac    char_fac         num 
"character" "character"    "factor"    "factor"   "integer" 
ตอนนี้คุณอาจถามตัวเองว่า "ความผิดปกติอยู่ที่ไหน" ดีฉันได้ชนเข้ากับสิ่งที่แปลกประหลาดมากใน R, และนี้ไม่ได้สิ่งรบกวนมากที่สุด แต่ก็สามารถสร้างความสับสนให้คุณโดยเฉพาะอย่างยิ่งถ้าคุณอ่านนี้ก่อนที่จะกลิ้งลงบนเตียง
ที่นี่จะไป: characterสองคนแรกของคอลัมน์ ผมเคยเรียกว่าจงใจ 2 ครั้งที่fake_charหนึ่ง มองเห็นความคล้ายคลึงกันของcharacterตัวแปรนี้กับสิ่งที่เดิร์คสร้างขึ้นในคำตอบของเขา เป็นจริงเวกเตอร์แปลงnumerical character3 RDและ 4 THคอลัมน์factorและคนสุดท้ายคือ numeric"หมดจด"
หากคุณใช้transformฟังก์ชั่นคุณสามารถแปลงfake_charเป็นnumericแต่ไม่ใช่charตัวแปรเอง
> transform(d, char = as.numeric(char))
  char fake_char fac char_fac num
1   NA         1   1        a   1
2   NA         2   2        b   2
3   NA         3   3        c   3
4   NA         4   4        d   4
5   NA         5   5        e   5
Warning message:
In eval(expr, envir, enclos) : NAs introduced by coercion
แต่ถ้าคุณทำสิ่งเดียวกันfake_charและchar_facคุณจะโชคดีและไม่อยู่กับ NA:
> transform(d, fake_char = as.numeric(fake_char), 
               char_fac = as.numeric(char_fac))
  char fake_char fac char_fac num
1    a         1   1        1   1
2    b         2   2        2   2
3    c         3   3        3   3
4    d         4   4        4   4
5    e         5   5        5   5
หากคุณบันทึกการเปลี่ยนแปลงdata.frameและตรวจสอบmodeและclassคุณจะได้รับ:
> D <- transform(d, fake_char = as.numeric(fake_char), 
                    char_fac = as.numeric(char_fac))
> sapply(D, mode)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"   "numeric"   "numeric"   "numeric" 
> sapply(D, class)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"    "factor"   "numeric"   "integer"
ดังนั้นสรุปคือ: ใช่คุณสามารถแปลงcharacterเวกเตอร์เป็นnumericหนึ่ง แต่ถ้าองค์ประกอบของมันคือ "แปลงสภาพ" numericเพื่อ หากมีcharacterองค์ประกอบหนึ่งในเวกเตอร์คุณจะได้รับข้อผิดพลาดเมื่อพยายามแปลงเวกเตอร์นั้นเป็นnumericalหนึ่ง
และเพื่อพิสูจน์ประเด็นของฉัน:
> err <- c(1, "b", 3, 4, "e")
> mode(err)
[1] "character"
> class(err)
[1] "character"
> char <- as.numeric(err)
Warning message:
NAs introduced by coercion 
> char
[1]  1 NA  3  4 NA
และตอนนี้เพื่อความสนุก (หรือฝึกซ้อม) ลองเดาผลลัพธ์ของคำสั่งเหล่านี้:
> fac <- as.factor(err)
> fac
???
> num <- as.numeric(fac)
> num
???
ขอแสดงความนับถือ Patrick Burns! =)
สิ่งที่ได้ช่วยให้ฉัน: ถ้าคุณมีช่วงของตัวแปรการแปลง (หรือเพียงแค่นั้นอีกหนึ่ง), sapplyคุณสามารถใช้
บิตไร้สาระ แต่เป็นเพียงตัวอย่าง:
data(cars)
cars[, 1:2] <- sapply(cars[, 1:2], as.factor)
สมมติว่าคอลัมน์ 3, 6-15 และ 37 ของคุณต้องถูกแปลงเป็นตัวเลขอย่างใดอย่างหนึ่ง:
dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric)
              sapplyโทรas.data.frame()ทางด้านขวามือตามที่ @ Mehrad Mahmoudian แนะนำไว้ด้านล่างมันจะทำงาน
                    ถ้าxเป็นชื่อคอลัมน์ของ dataframe datและxเป็นชนิดปัจจัยให้ใช้:
as.numeric(as.character(dat$x))
              as.characterแน่นอนเป็นสิ่งที่ฉันกำลังมองหา มิฉะนั้นการแปลงบางครั้งก็ผิดพลาด อย่างน้อยในกรณีของฉัน
                    Error: (list) object cannot be coerced to type 'double'ถึงแม้ว่าฉันจะแน่ใจว่าเวกเตอร์ของฉันไม่มีตัวอักษร / เครื่องหมายวรรคตอน จากนั้นฉันก็ลองas.numeric(as.character(dat$x))แล้วก็ใช้งานได้ ตอนนี้ฉันไม่แน่ใจว่าคอลัมน์ของฉันเป็นจำนวนเต็มจริงหรือไม่!
                    ฉันจะเพิ่มความคิดเห็น (ไม่สามารถให้คะแนนต่ำ)
เพียงเพิ่มใน user276042 และ pangratz
dat$x = as.numeric(as.character(dat$x))
สิ่งนี้จะแทนที่ค่าของคอลัมน์ x ที่มีอยู่
ในขณะที่คำถามของคุณเกี่ยวกับตัวเลขอย่างเคร่งครัดมีการแปลงหลายอย่างที่ยากต่อการเข้าใจเมื่อเริ่มต้น R. ฉันจะตั้งเป้าหมายวิธีการที่จะช่วย คำถามนี้คล้ายกับคำถามนี้
การแปลงประเภทอาจเป็นความเจ็บปวดใน R เนื่องจากปัจจัย (1) ไม่สามารถแปลงเป็นตัวเลขโดยตรงได้พวกเขาจำเป็นต้องแปลงเป็นคลาสอักขระก่อน (2) วันที่เป็นกรณีพิเศษที่คุณต้องจัดการแยกต่างหากและ (3) การวนลูปข้ามคอลัมน์เฟรมข้อมูลอาจเป็นเรื่องยุ่งยาก โชคดีที่ "tidyverse" ได้แก้ไขปัญหาส่วนใหญ่แล้ว
วิธีนี้ใช้mutate_each()ในการใช้ฟังก์ชั่นกับคอลัมน์ทั้งหมดในกรอบข้อมูล ในกรณีนี้เราต้องการใช้type.convert()ฟังก์ชั่นซึ่งจะแปลงสตริงเป็นตัวเลขที่สามารถทำได้ เนื่องจาก R ชอบปัจจัย (ไม่แน่ใจว่าทำไม) คอลัมน์อักขระที่ควรจะคงอยู่กับตัวละครจึงเปลี่ยนเป็นปัจจัย เพื่อแก้ไขปัญหานี้mutate_if()ฟังก์ชั่นที่ใช้ในการตรวจสอบคอลัมน์ที่เป็นปัจจัยและเปลี่ยนเป็นตัวละคร สุดท้ายฉันต้องการแสดงให้เห็นว่า lubridate สามารถใช้ในการเปลี่ยนการประทับเวลาในคลาสของตัวละครเป็นวันที่เวลาได้เพราะมันมักจะเป็นบล็อกผสานสำหรับผู้เริ่มต้น  
library(tidyverse) 
library(lubridate)
# Recreate data that needs converted to numeric, date-time, etc
data_df
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX  PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                 <chr>  <chr> <chr>  <chr> <chr> <chr> <chr>  <chr> <chr>
#> 1 2012-05-04 09:30:00    BAC     T 7.8900 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.8850   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.8900  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.8900 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.8900 85053     F  7.88 108101  7.90
# Converting columns to numeric using "tidyverse"
data_df %>%
    mutate_all(type.convert) %>%
    mutate_if(is.factor, as.character) %>%
    mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone()))
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                <dttm>  <chr> <chr> <dbl> <int> <chr> <dbl>  <int> <dbl>
#> 1 2012-05-04 09:30:00    BAC     T 7.890 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.885   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.890  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.890 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.890 85053     F  7.88 108101  7.90
              mutate_all(type.convert, as.is=TRUE)แทนคุณmutate_all(type.convert)สามารถลบ / หลีกเลี่ยงmutate_if(is.factor, as.character)เพื่อทำให้คำสั่งสั้นลง as.isเป็นอาร์กิวเมนต์type.convert()ที่ระบุว่าควรแปลงสตริงเป็นอักขระหรือเป็นปัจจัย โดยค่าเริ่มต้นas.is=FALSEในtype.convert()(เช่นแปลงสตริงเป็นคลาสแฟ็กซ์แทนคลาสอักขระ)
                    ทิมถูกต้องและเชนมีการละเว้น นี่คือตัวอย่างเพิ่มเติม:
R> df <- data.frame(a = as.character(10:15))
R> df <- data.frame(df, num = as.numeric(df$a), 
                        numchr = as.numeric(as.character(df$a)))
R> df
   a num numchr
1 10   1     10
2 11   2     11
3 12   3     12
4 13   4     13
5 14   5     14
6 15   6     15
R> summary(df)
  a          num           numchr    
 10:1   Min.   :1.00   Min.   :10.0  
 11:1   1st Qu.:2.25   1st Qu.:11.2  
 12:1   Median :3.50   Median :12.5  
 13:1   Mean   :3.50   Mean   :12.5  
 14:1   3rd Qu.:4.75   3rd Qu.:13.8  
 15:1   Max.   :6.00   Max.   :15.0  
R> 
ของเราdata.frameตอนนี้มีบทสรุปของคอลัมน์ปัจจัย (นับ) และสรุปตัวเลขที่as.numeric()--- ซึ่งเป็นที่ไม่ถูกต้องในขณะที่มันมีระดับปัจจัยที่เป็นตัวเลข --- และ (ที่ถูกต้อง) as.numeric(as.character())สรุปของ
ด้วยรหัสต่อไปนี้คุณสามารถแปลงคอลัมน์ข้อมูลเฟรมทั้งหมดเป็นตัวเลข (X คือกรอบข้อมูลที่เราต้องการแปลงคอลัมน์)
as.data.frame(lapply(X, as.numeric))
และสำหรับการแปลงเมทริกซ์ทั้งหมดเป็นตัวเลขคุณมีสองวิธีดังนี้:
mode(X) <- "numeric"
หรือ:
X <- apply(X, 2, as.numeric)
อีกทางหนึ่งคุณสามารถใช้data.matrixฟังก์ชั่นแปลงทุกอย่างเป็นตัวเลขได้ แต่ระวังว่าปัจจัยอาจไม่ได้รับการแปลงอย่างถูกต้องดังนั้นจึงปลอดภัยกว่าที่จะแปลงทุกอย่างเป็นcharacterอันดับแรก:
X <- sapply(X, as.character)
X <- data.matrix(X)
ฉันมักจะใช้อันสุดท้ายถ้าฉันต้องการแปลงเป็นเมทริกซ์และตัวเลขพร้อมกัน
หากคุณพบปัญหากับ:
as.numeric(as.character(dat$x))
ลองดูที่เครื่องหมายทศนิยมของคุณ หากเป็น "," แทนที่จะเป็น "" (เช่น "5,3") ข้างต้นจะไม่ทำงาน
ทางออกที่เป็นไปได้คือ:
as.numeric(gsub(",", ".", dat$x))
ฉันเชื่อว่านี่เป็นเรื่องธรรมดาในบางประเทศที่ไม่ได้พูดภาษาอังกฤษ
วิธีการใช้งานทั่วไปtype.convert()และrapply():
convert_types <- function(x) {
    stopifnot(is.list(x))
    x[] <- rapply(x, utils::type.convert, classes = "character",
                  how = "replace", as.is = TRUE)
    return(x)
}
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)
sapply(d, class)
#>        char   fake_char         fac    char_fac         num 
#> "character" "character"    "factor"    "factor"   "integer"
sapply(convert_types(d), class)
#>        char   fake_char         fac    char_fac         num 
#> "character"   "integer"    "factor"    "factor"   "integer"
              as.is = TRUEหากคุณต้องการแปลงตัวละครของคุณให้เป็นตัวเลขหรือปัจจัย
                    matrixการเปลี่ยนแปลงที่เป็นclasses=matrixตัวเลขข้อผิดพลาดอาร์กิวเมนต์แรกจะต้องเป็นตัวละครโหมด
                    ในการแปลงคอลัมน์เฟรมข้อมูลเป็นตัวเลขคุณต้องทำ: -
ตัวคูณเป็นตัวเลข: -
data_frame$column <- as.numeric(as.character(data_frame$column))
              sapply(data_frame,function(x) as.numeric(as.character(x)))
                    แม้ว่าคนอื่นจะครอบคลุมหัวข้อค่อนข้างดี แต่ฉันต้องการเพิ่มความคิด / คำใบ้เพิ่มเติมนี้เพิ่มเติม คุณสามารถใช้ regexp เพื่อตรวจสอบล่วงหน้าว่าตัวละครอาจประกอบด้วยตัวเลขเท่านั้น
for(i in seq_along(names(df)){
     potential_numcol[i] <- all(!grepl("[a-zA-Z]",d[,i]))
}
# and now just convert only the numeric ones
d <- sapply(d[,potential_numcol],as.numeric)
สำหรับการแสดงออกปกติที่ซับซ้อนยิ่งขึ้นและทำไมการเรียนรู้ / สัมผัสพลังของพวกเขาดูเว็บไซต์ที่ดีจริงๆ: http://regexr.com/
เมื่อพิจารณาว่าอาจมีคอลัมน์ถ่านอยู่สิ่งนี้จะขึ้นอยู่กับ @Abdou ในการรับชนิดคอลัมน์ของแผ่นงาน excelตอบโดยอัตโนมัติ :
makenumcols<-function(df){
  df<-as.data.frame(df)
  df[] <- lapply(df, as.character)
  cond <- apply(df, 2, function(x) {
    x <- x[!is.na(x)]
    all(suppressWarnings(!is.na(as.numeric(x))))
  })
  numeric_cols <- names(df)[cond]
  df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
  return(df)
}
df<-makenumcols(df)
              ในพีซีของฉัน (R v.3.2.3) applyหรือsapplyให้ข้อผิดพลาด lapplyทำได้ดี.
dt[,2:4] <- lapply(dt[,2:4], function (x) as.factor(as.numeric(x)))
              หาก dataframe มีคอลัมน์หลายประเภทตัวละครบางตัวเป็นตัวเลขลองทำสิ่งต่อไปนี้เพื่อแปลงเฉพาะคอลัมน์ที่มีค่าตัวเลขเป็นตัวเลข:
for (i in 1:length(data[1,])){
  if(length(as.numeric(data[,i][!is.na(data[,i])])[!is.na(as.numeric(data[,i][!is.na(data[,i])]))])==0){}
  else {
    data[,i]<-as.numeric(data[,i])
  }
}
              ด้วยhablar :: แปลง
หากต้องการแปลงหลายคอลัมน์เป็นประเภทข้อมูลที่แตกต่างกันคุณสามารถใช้ได้hablar::convertอย่างง่ายดาย Simple syntax: df %>% convert(num(a))แปลงคอลัมน์ a จาก df เป็นตัวเลข
ตัวอย่างรายละเอียด
ให้แปลงคอลัมน์ทั้งหมดของmtcarsเป็นอักขระ
df <- mtcars %>% mutate_all(as.character) %>% as_tibble()
> df
# A tibble: 32 x 11
   mpg   cyl   disp  hp    drat  wt    qsec  vs    am    gear  carb 
   <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
 1 21    6     160   110   3.9   2.62  16.46 0     1     4     4    
 2 21    6     160   110   3.9   2.875 17.02 0     1     4     4    
 3 22.8  4     108   93    3.85  2.32  18.61 1     1     4     1    
ด้วยhablar::convert:
library(hablar)
# Convert columns to integer, numeric and factor
df %>% 
  convert(int(cyl, vs),
          num(disp:wt),
          fct(gear))
ผลลัพธ์ใน:
# A tibble: 32 x 11
   mpg     cyl  disp    hp  drat    wt qsec     vs am    gear  carb 
   <chr> <int> <dbl> <dbl> <dbl> <dbl> <chr> <int> <chr> <fct> <chr>
 1 21        6  160    110  3.9   2.62 16.46     0 1     4     4    
 2 21        6  160    110  3.9   2.88 17.02     0 1     4     4    
 3 22.8      4  108     93  3.85  2.32 18.61     1 1     4     1    
 4 21.4      6  258    110  3.08  3.22 19.44     1 0     3     1   
              ในการแปลงอักขระเป็นตัวเลขคุณต้องแปลงเป็นปัจจัยโดยใช้
BankFinal1 <- transform(BankLoan,   LoanApproval=as.factor(LoanApproval))
BankFinal1 <- transform(BankFinal1, LoanApp=as.factor(LoanApproval))
คุณต้องสร้างสองคอลัมน์ด้วยข้อมูลเดียวกันเนื่องจากหนึ่งคอลัมน์ไม่สามารถแปลงเป็นตัวเลขได้ หากคุณทำการแปลงครั้งเดียวจะทำให้เกิดข้อผิดพลาดด้านล่าง
transform(BankData, LoanApp=as.numeric(LoanApproval))
Warning message: In eval(substitute(list(...)), `_data`, parent.frame()) : NAs introduced by coercion
ดังนั้นหลังจากทำสองคอลัมน์ของข้อมูลเดียวกันใช้
BankFinal1 <- transform(BankFinal1, LoanApp      = as.numeric(LoanApp), 
                                    LoanApproval = as.numeric(LoanApproval))
มันจะแปลงอักขระเป็นตัวเลขได้สำเร็จ
dfไม่ใช่ dataframe ของคุณ xเป็นคอลัมน์ที่dfคุณต้องการแปลง
as.numeric(factor(df$x))
              หากคุณไม่สนใจเกี่ยวกับการรักษาปัจจัยและต้องการใช้กับคอลัมน์ใด ๆ ที่สามารถแปลงเป็นตัวเลขได้ฉันใช้สคริปต์ด้านล่าง ถ้า df เป็นดาต้าไฟล์ดั้งเดิมของคุณคุณสามารถใช้สคริปต์ด้านล่าง
df[] <- lapply(df, as.character)
df <- data.frame(lapply(df, function(x) ifelse(!is.na(as.numeric(x)), as.numeric(x),  x)))