รวมในหลายคอลัมน์ด้วย dplyr

Question 1

dplyrคำถามของฉันที่เกี่ยวข้องกับข้อสรุปถึงค่าในหลายคอลัมน์ของกรอบข้อมูลและการสร้างคอลัมน์ใหม่ที่สอดคล้องกับผลบวกนี้โดยใช้ รายการข้อมูลในคอลัมน์เป็นไบนารี (0,1) ฉันคิดของอนาล็อกแถวที่ชาญฉลาดของsummarise_eachหรือการทำงานของmutate_each dplyrด้านล่างนี้เป็นตัวอย่างขั้นต่ำของ data frame:

library(dplyr)
df=data.frame(
  x1=c(1,0,0,NA,0,1,1,NA,0,1),
  x2=c(1,1,NA,1,1,0,NA,NA,0,1),
  x3=c(0,1,0,1,1,0,NA,NA,0,1),
  x4=c(1,0,NA,1,0,0,NA,0,0,1),
  x5=c(1,1,NA,1,1,1,NA,1,0,1))

> df
   x1 x2 x3 x4 x5
1   1  1  0  1  1
2   0  1  1  0  1
3   0 NA  0 NA NA
4  NA  1  1  1  1
5   0  1  1  0  1
6   1  0  0  0  1
7   1 NA NA NA NA
8  NA NA NA  0  1
9   0  0  0  0  0
10  1  1  1  1  1

ฉันสามารถใช้สิ่งต่างๆเช่น:

df <- df %>% mutate(sumrow= x1 + x2 + x3 + x4 + x5)

แต่จะเกี่ยวข้องกับการเขียนชื่อของแต่ละคอลัมน์ ฉันมี 50 คอลัมน์ นอกจากนี้ชื่อคอลัมน์จะเปลี่ยนไปตามการวนซ้ำที่แตกต่างกันซึ่งฉันต้องการใช้การดำเนินการนี้ดังนั้นฉันจึงพยายามหลีกเลี่ยงการตั้งชื่อคอลัมน์ใด ๆ

ฉันจะทำอย่างมีประสิทธิภาพสูงสุดได้อย่างไร ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก

Question 2

เกี่ยวกับ

สรุปแต่ละคอลัมน์

df %>%
   replace(is.na(.), 0) %>%
   summarise_all(funs(sum))

สรุปแต่ละแถว

df %>%
   replace(is.na(.), 0) %>%
   mutate(sum = rowSums(.[1:5]))

Question 3

หากคุณต้องการรวมบางคอลัมน์เท่านั้นฉันจะใช้สิ่งนี้:

library(dplyr)
df=data.frame(
  x1=c(1,0,0,NA,0,1,1,NA,0,1),
  x2=c(1,1,NA,1,1,0,NA,NA,0,1),
  x3=c(0,1,0,1,1,0,NA,NA,0,1),
  x4=c(1,0,NA,1,0,0,NA,0,0,1),
  x5=c(1,1,NA,1,1,1,NA,1,0,1))
df %>% select(x3:x5) %>% rowSums(na.rm=TRUE) -> df$x3x5.total
head(df)

วิธีนี้คุณสามารถใช้dplyr::selectไวยากรณ์ของ

Question 4

ฉันจะใช้การจับคู่นิพจน์ทั่วไปเพื่อรวมตัวแปรที่มีชื่อรูปแบบบางอย่าง ตัวอย่างเช่น:

df <- df %>% mutate(sum1 = rowSums(.[grep("x[3-5]", names(.))], na.rm = TRUE),
                    sum_all = rowSums(.[grep("x", names(.))], na.rm = TRUE))

ด้วยวิธีนี้คุณสามารถสร้างตัวแปรมากกว่าหนึ่งตัวเป็นผลรวมของกลุ่มตัวแปรบางตัวในกรอบข้อมูลของคุณ

Question 5

ฉันพบปัญหานี้บ่อยครั้งและวิธีที่ง่ายที่สุดคือการใช้apply()ฟังก์ชันภายในmutateคำสั่ง

library(tidyverse)
df=data.frame(
  x1=c(1,0,0,NA,0,1,1,NA,0,1),
  x2=c(1,1,NA,1,1,0,NA,NA,0,1),
  x3=c(0,1,0,1,1,0,NA,NA,0,1),
  x4=c(1,0,NA,1,0,0,NA,0,0,1),
  x5=c(1,1,NA,1,1,1,NA,1,0,1))

df %>%
  mutate(sum = select(., x1:x5) %>% apply(1, sum, na.rm=TRUE))

ที่นี่คุณสามารถใช้อะไรก็ได้ที่คุณต้องการเลือกคอลัมน์โดยใช้dplyrเทคนิคมาตรฐาน(เช่นstarts_with()หรือcontains()) ด้วยการทำงานทั้งหมดภายในmutateคำสั่งเดียวการดำเนินการนี้สามารถเกิดขึ้นได้ทุกที่ภายในdplyrสตรีมของขั้นตอนการประมวลผล สุดท้ายโดยใช้apply()ฟังก์ชันนี้คุณจะมีความยืดหยุ่นในการใช้ข้อมูลสรุปที่คุณต้องการรวมถึงฟังก์ชันสรุปที่สร้างขึ้นตามวัตถุประสงค์ของคุณเอง

หรืออีกวิธีหนึ่งหากแนวคิดในการใช้ฟังก์ชันที่ไม่เป็นระเบียบเรียบร้อยไม่น่าสนใจคุณสามารถรวบรวมคอลัมน์สรุปและสุดท้ายรวมผลลัพธ์กลับไปที่กรอบข้อมูลเดิม

df <- df %>% mutate( id = 1:n() )   # Need some ID column for this to work

df <- df %>%
  group_by(id) %>%
  gather('Key', 'value', starts_with('x')) %>%
  summarise( Key.Sum = sum(value) ) %>%
  left_join( df, . )

ที่นี่ฉันใช้starts_with()ฟังก์ชันเพื่อเลือกคอลัมน์และคำนวณผลรวมและคุณสามารถทำอะไรก็ได้ที่คุณต้องการด้วยNAค่า ข้อเสียของวิธีนี้คือแม้ว่าจะมีความยืดหยุ่น แต่ก็ไม่เข้ากับdplyrขั้นตอนการล้างข้อมูล

Question 6

การใช้reduce()from purrrนั้นเร็วกว่าrowSumsและเร็วกว่าเล็กน้อยapplyเนื่องจากคุณหลีกเลี่ยงการวนซ้ำในแถวทั้งหมดและใช้ประโยชน์จากการดำเนินการที่เป็นเวกเตอร์:

library(purrr)
library(dplyr)
iris %>% mutate(Petal = reduce(select(., starts_with("Petal")), `+`))

ดูสิ่งนี้สำหรับการกำหนดเวลา

Question 7

ในเวอร์ชันที่ใหม่กว่าdplyrคุณสามารถใช้rowwise()ร่วมกับc_acrossเพื่อทำการรวมแถวอย่างชาญฉลาดสำหรับฟังก์ชันที่ไม่มีตัวแปรที่ชาญฉลาดเฉพาะแถว แต่ถ้าตัวแปรที่ฉลาดมีอยู่มันควรจะเร็วกว่า

เนื่องจากrowwise()เป็นเพียงรูปแบบพิเศษของการจัดกลุ่มและเปลี่ยนวิธีการทำงานของคำกริยาที่คุณอาจต้องการต่อท่อungroup()หลังจากดำเนินการตามแถว

ในการเลือกช่วงของแถว:

df %>%
  dplyr::rowwise() %>% 
  dplyr::mutate(sumrange = sum(dplyr::c_across(x1:x5), na.rm = T))
# %>% dplyr::ungroup() # you'll likely want to ungroup after using rowwise()

ในการเลือกแถวตามประเภท:

df %>%
  dplyr::rowwise() %>% 
  dplyr::mutate(sumnumeric = sum(c_across(where(is.numeric)), na.rm = T))
# %>% dplyr::ungroup() # you'll likely want to ungroup after using rowwise()

ในกรณีเฉพาะของคุณจะมีตัวแปรแบบ row-wise อยู่เพื่อให้คุณทำสิ่งต่อไปนี้ได้ (สังเกตการใช้acrossแทน):

df %>%
  dplyr::mutate(sumrow = rowSums(dplyr::across(x1:x5), na.rm = T))
# %>% dplyr::ungroup() # you'll likely want to ungroup after using rowwise()

สำหรับข้อมูลเพิ่มเติมโปรดดูที่หน้าบนrowwise