การเพิ่มคอลัมน์ใน data.frame

115

ฉันมี data.frame ด้านล่าง ฉันต้องการเพิ่มคอลัมน์ที่จำแนกข้อมูลของฉันตามคอลัมน์ 1 ( h_no) ในลักษณะที่ชุดแรกของ h_no 1,2,3,4 คือคลาส 1 ชุดที่สองของh_no(1 ถึง 7) คือคลาส 2 เป็นต้น ดังที่ระบุไว้ในคอลัมน์สุดท้าย

h_no  h_freq  h_freqsq
1     0.09091 0.008264628 1
2     0.00000 0.000000000 1
3     0.04545 0.002065702 1
4     0.00000 0.000000000 1  
1     0.13636 0.018594050 2
2     0.00000 0.000000000 2
3     0.00000 0.000000000 2
4     0.04545 0.002065702 2
5     0.31818 0.101238512 2
6     0.00000 0.000000000 2
7     0.50000 0.250000000 2 
1     0.13636 0.018594050 3 
2     0.09091 0.008264628 3
3     0.40909 0.167354628 3
4     0.04545 0.002065702 3

r dataframe

— Susanne Dreisigacker
แหล่งที่มา

155

คุณสามารถเพิ่มคอลัมน์ลงในข้อมูลของคุณโดยใช้เทคนิคต่างๆ คำพูดด้านล่างนี้มาจากส่วน "รายละเอียด" [[.data.frameของข้อความช่วยเหลือที่เกี่ยวข้อง

กรอบข้อมูลสามารถจัดทำดัชนีได้ในหลายโหมด เมื่อใด[และ[[ใช้กับดัชนีเวกเตอร์เดียว ( x[i]หรือx[[i]]) ดัชนีเหล่านี้จะจัดทำดัชนีกรอบข้อมูลราวกับว่าเป็นรายการ

my.dataframe["new.col"] <- a.vector
my.dataframe[["new.col"]] <- a.vector

เมธอด data.frame สำหรับ$ถือว่าxเป็นรายการ

my.dataframe$new.col <- a.vector

เมื่อใด[และ[[ใช้กับดัชนีสองตัว ( x[i, j]และx[[i, j]]) ดัชนีเหล่านี้ทำหน้าที่เหมือนการสร้างดัชนีเมทริกซ์

my.dataframe[ , "new.col"] <- a.vector

เนื่องจากวิธีการdata.frameสมมติว่าหากคุณไม่ได้ระบุว่าคุณกำลังทำงานกับคอลัมน์หรือแถวก็จะถือว่าคุณหมายถึงคอลัมน์

สำหรับตัวอย่างของคุณสิ่งนี้ควรได้ผล:

# make some fake data
your.df <- data.frame(no = c(1:4, 1:7, 1:5), h_freq = runif(16), h_freqsq = runif(16))

# find where one appears and 
from <- which(your.df$no == 1)
to <- c((from-1)[-1], nrow(your.df)) # up to which point the sequence runs

# generate a sequence (len) and based on its length, repeat a consecutive number len times
get.seq <- mapply(from, to, 1:length(from), FUN = function(x, y, z) {
            len <- length(seq(from = x[1], to = y[1]))
            return(rep(z, times = len))
         })

# when we unlist, we get a vector
your.df$group <- unlist(get.seq)
# and append it to your original data.frame. since this is
# designating a group, it makes sense to make it a factor
your.df$group <- as.factor(your.df$group)


   no     h_freq   h_freqsq group
1   1 0.40998238 0.06463876     1
2   2 0.98086928 0.33093795     1
3   3 0.28908651 0.74077119     1
4   4 0.10476768 0.56784786     1
5   1 0.75478995 0.60479945     2
6   2 0.26974011 0.95231761     2
7   3 0.53676266 0.74370154     2
8   4 0.99784066 0.37499294     2
9   5 0.89771767 0.83467805     2
10  6 0.05363139 0.32066178     2
11  7 0.71741529 0.84572717     2
12  1 0.10654430 0.32917711     3
13  2 0.41971959 0.87155514     3
14  3 0.32432646 0.65789294     3
15  4 0.77896780 0.27599187     3
16  5 0.06100008 0.55399326     3

— โรมันLuštrik
แหล่งที่มา

ความแตกต่างระหว่างสองวิธีสุดท้ายในการเพิ่มคอลัมน์คืออะไร?

— huon

2

@ huon-dbaupp วิธีการที่มีเครื่องหมายจุลภาคนั้นชัดเจนและจะใช้กับเมทริกซ์ในขณะที่วิธีสุดท้ายใช้งานได้กับ data.frames เท่านั้น หากไม่มีการระบุเครื่องหมายจุลภาค R จะถือว่าคุณหมายถึงคอลัมน์

— Roman Luštrik

12

ได้อย่างง่ายดาย: กรอบข้อมูลของคุณคือ A

b <- A[,1]
b <- b==1
b <- cumsum(b)

จากนั้นคุณจะได้รับคอลัมน์ b

— user1333396
แหล่งที่มา

สวยและสั้น ฉันเพิ่งจะเปลี่ยนองค์ประกอบสุดท้ายเพื่อให้แทนที่จะเป็นผลที่จะได้รับการเพิ่มโดยตรงเป็นคอลัมน์กรอบข้อมูลเดิมบางอย่างเช่นcumsum(b) -> b A$groups <- cumsum(b)

— A5C1D2H2I1M1N2O1R2T1

cumsum(b)จะให้เวกเตอร์ของความยาว 3 หรือฉันขาดอะไรไป?

— Roman Luštrik

@ RomanLuštrikดูวิธีแก้ปัญหาของ dbauppซึ่งอธิบายว่า cumsum จะทำงานอย่างไรในกรณีนี้

— A5C1D2H2I1M1N2O1R2T1

2

@ RomanLuštrikโซลูชันนี้สามารถเขียนใหม่ได้อย่างสวยงามในบรรทัดเดียว การใช้your.dfข้อมูลของคุณคุณสามารถทำได้your.df$group = cumsum(your.df[, 1]==1)เพื่อรับคอลัมน์กลุ่มใหม่ของคุณ

— A5C1D2H2I1M1N2O1R2T1

7

ถ้าผมเข้าใจคำถามได้อย่างถูกต้องที่คุณต้องการในการตรวจสอบเมื่อไม่เพิ่มขึ้นและจากนั้นเพิ่มขึ้นh_no class(ฉันจะอธิบายถึงวิธีที่ฉันแก้ไขปัญหานี้มีฟังก์ชั่นที่มีอยู่ในตัวในตอนท้าย)

การทำงาน

เราสนใจเฉพาะh_noคอลัมน์ในขณะนี้ดังนั้นเราจึงสามารถดึงข้อมูลนั้นออกจาก data frame

> h_no <- data$h_no

เราต้องการตรวจจับว่าเมื่อh_noใดที่ไม่เพิ่มขึ้นซึ่งเราสามารถทำได้โดยการหาค่าความแตกต่างระหว่างองค์ประกอบที่ต่อเนื่องกันเป็นลบหรือศูนย์ R จัดเตรียมdiffฟังก์ชันที่ให้เวกเตอร์ของความแตกต่าง:

> d.h_no <- diff(h_no)
> d.h_no
 [1]  1  1  1 -3  1  1  1  1  1  1 -6  1  1  1

เมื่อเราได้สิ่งนั้นก็เป็นเรื่องง่ายที่จะหาสิ่งที่ไม่เป็นบวก:

> nonpos <- d.h_no <= 0
> nonpos
 [1] FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE
[13] FALSE FALSE

ใน R TRUEและFALSEโดยพื้นฐานแล้วจะเหมือนกับ1และ0ดังนั้นหากเราได้รับผลรวมสะสมnonposมันจะเพิ่มขึ้น 1 ใน (เกือบ) ของจุดที่เหมาะสม cumsumฟังก์ชั่น (ซึ่งเป็นพื้นตรงข้ามของdiff) สามารถทำเช่นนี้

> cumsum(nonpos)
 [1] 0 0 0 1 1 1 1 1 1 1 2 2 2 2

แต่มีปัญหาสองประการคือตัวเลขหนึ่งเล็กเกินไป และเราขาดองค์ประกอบแรก (ควรมีสี่ในชั้นหนึ่ง)

ปัญหาแรกแก้ไขได้ง่ายๆ: 1+cumsum(nonpos). และอย่างที่สองเพียงแค่ต้องเพิ่ม a 1ที่ด้านหน้าของเวกเตอร์เนื่องจากองค์ประกอบแรกอยู่ในคลาสเสมอ1:

 > classes <- c(1, 1 + cumsum(nonpos))
 > classes
  [1] 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3

ตอนนี้เราสามารถแนบกลับเข้าไปใน data frame ของเราด้วยcbind(โดยใช้class=ไวยากรณ์เราสามารถให้คอลัมน์เป็นส่วนclassหัว):

 > data_w_classes <- cbind(data, class=classes)

และdata_w_classesตอนนี้มีผลลัพธ์

ผลลัพธ์สุดท้าย

เราสามารถบีบอัดเส้นเข้าด้วยกันและรวมเข้าด้วยกันเป็นฟังก์ชันเพื่อให้ใช้งานได้ง่ายขึ้น:

classify <- function(data) {
   cbind(data, class=c(1, 1 + cumsum(diff(data$h_no) <= 0)))
}

หรือเนื่องจากมันสมเหตุสมผลที่classจะเป็นปัจจัย:

classify <- function(data) {
   cbind(data, class=factor(c(1, 1 + cumsum(diff(data$h_no) <= 0))))
}

คุณใช้ฟังก์ชันอย่างใดอย่างหนึ่งเช่น:

> classified <- classify(data) # doesn't overwrite data
> data <- classify(data) # data now has the "class" column

(วิธีการแก้ปัญหานี้เป็นวิธีที่ดีเพราะหลีกเลี่ยงการทำซ้ำอย่างโจ่งแจ้งซึ่งโดยทั่วไปแนะนำสำหรับ R และหลีกเลี่ยงการสร้างเวกเตอร์และรายการระดับกลางจำนวนมากเป็นต้นและยังเป็นวิธีที่ดีในการเขียนในบรรทัดเดียว :))

— Huon
แหล่งที่มา

2

นอกจากคำตอบของโรมันแล้วสิ่งนี้อาจง่ายกว่าด้วยซ้ำ โปรดทราบว่าฉันยังไม่ได้ทดสอบเพราะตอนนี้ฉันไม่สามารถเข้าถึง R ได้

# Note that I use a global variable here
# normally not advisable, but I liked the
# use here to make the code shorter
index <<- 0
new_column = sapply(df$h_no, function(x) {
  if(x == 1) index = index + 1
  return(index)
})

ฟังก์ชันจะวนซ้ำค่าในn_hoและส่งคืนประเภทที่ค่าปัจจุบันเป็นของเสมอ หาก1ตรวจพบค่าเราจะเพิ่มตัวแปรส่วนกลางindexและดำเนินการต่อ

— Paul Hiemstra
แหล่งที่มา

ฉันชอบแฮ็คกับตัวแปรทั่วโลก ดังนั้น Cish : P

— Roman Luštrik

2

ฉันเชื่อว่าการใช้ "cbind" เป็นวิธีที่ง่ายที่สุดในการเพิ่มคอลัมน์ลงในกรอบข้อมูลใน R ด้านล่างตัวอย่าง:

    myDf = data.frame(index=seq(1,10,1), Val=seq(1,10,1))
    newCol= seq(2,20,2)
    myDf = cbind(myDf,newCol)

— เอมานูเอเลคาตาเนีย
แหล่งที่มา

1

Data.frame[,'h_new_column'] <- as.integer(Data.frame[,'h_no'], breaks=c(1, 4, 7))

— user2759975
แหล่งที่มา

0

วิธีการขึ้นอยู่กับการระบุจำนวนกลุ่ม ( xในmapply) และความยาว ( yในmapply)

mytb<-read.table(text="h_no  h_freq  h_freqsq group
1     0.09091 0.008264628 1
2     0.00000 0.000000000 1
3     0.04545 0.002065702 1
4     0.00000 0.000000000 1  
1     0.13636 0.018594050 2
2     0.00000 0.000000000 2
3     0.00000 0.000000000 2
4     0.04545 0.002065702 2
5     0.31818 0.101238512 2
6     0.00000 0.000000000 2
7     0.50000 0.250000000 2 
1     0.13636 0.018594050 3 
2     0.09091 0.008264628 3
3     0.40909 0.167354628 3
4     0.04545 0.002065702 3", header=T, stringsAsFactors=F)
mytb$group<-NULL

positionsof1s<-grep(1,mytb$h_no)

mytb$newgroup<-unlist(mapply(function(x,y) 
  rep(x,y),                      # repeat x number y times
  x= 1:length(positionsof1s),    # x is 1 to number of nth group = g1:g3
  y= c( diff(positionsof1s),     # y is number of repeats of groups g1 to penultimate (g2) = 4, 7
        nrow(mytb)-              # this line and the following gives number of repeat for last group (g3)
          (positionsof1s[length(positionsof1s )]-1 )  # number of rows - position of penultimate group (g2) 
      ) ) )
mytb

— Ferroao
แหล่งที่มา