สำหรับแต่ละแถวส่งคืนชื่อคอลัมน์ที่มีค่ามากที่สุด


100

ฉันมีบัญชีรายชื่อพนักงานและฉันต้องการทราบว่าพวกเขาอยู่ในแผนกใดบ่อยที่สุด เป็นเรื่องเล็กน้อยที่จะจัดตารางรหัสพนักงานเทียบกับชื่อแผนก แต่จะยากกว่าที่จะส่งคืนชื่อแผนกแทนที่จะเป็นจำนวนบัญชีรายชื่อจากตารางความถี่ ตัวอย่างง่ายๆด้านล่าง (ชื่อคอลัมน์ = แผนกชื่อแถว = รหัสพนักงาน)

DF <- matrix(sample(1:9,9),ncol=3,nrow=3)
DF <- as.data.frame.matrix(DF)
> DF
  V1 V2 V3
1  2  7  9
2  8  3  6
3  1  5  4

ตอนนี้ฉันจะได้รับ

> DF2
  RE
1 V3
2 V1
3 V2

ข้อมูลจริงของคุณใหญ่แค่ไหน?
อรุณ

1
@Arun> dim (test) [1] 26746 18
dmvianna

6
ทั่วไปที่น่าสนใจจะเป็นที่ใหญ่ที่สุดnชื่อคอลัมน์ค่าต่อแถว
สับ-R

คำตอบ:


103

ทางเลือกหนึ่งในการใช้ข้อมูลของคุณ (สำหรับการอ้างอิงในอนาคตใช้set.seed()เพื่อสร้างตัวอย่างโดยใช้sampleทำซ้ำได้):

DF <- data.frame(V1=c(2,8,1),V2=c(7,3,5),V3=c(9,6,4))

colnames(DF)[apply(DF,1,which.max)]
[1] "V3" "V1" "V2"

วิธีแก้ปัญหาที่เร็วกว่าการใช้applyอาจเป็นmax.col:

colnames(DF)[max.col(DF,ties.method="first")]
#[1] "V3" "V1" "V2"

... ที่ties.methodสามารถใด ๆ"random" "first"หรือ"last"

แน่นอนว่าสิ่งนี้ทำให้เกิดปัญหาหากคุณมีสองคอลัมน์ซึ่งเท่ากับค่าสูงสุด ฉันไม่แน่ใจว่าคุณต้องการทำอะไรในอินสแตนซ์นั้นเนื่องจากคุณจะมีผลลัพธ์มากกว่าหนึ่งรายการสำหรับบางแถว เช่น:

DF <- data.frame(V1=c(2,8,1),V2=c(7,3,5),V3=c(7,6,4))
apply(DF,1,function(x) which(x==max(x)))

[[1]]
V2 V3 
 2  3 

[[2]]
V1 
 1 

[[3]]
V2 
 2 

ถ้าฉันมีสองคอลัมน์เท่ากันฉันมักจะเลือกคอลัมน์แรก นี่เป็นกรณีชายแดนซึ่งไม่ทำให้การวิเคราะห์ทางสถิติของฉันแย่ลง
dmvianna

1
@dmvianna - ใช้แล้วwhich.maxจะดี
thelatemail

ฉันสมมติว่าคำสั่งซื้อถูกเก็บรักษาไว้ดังนั้นฉันสามารถสร้างคอลัมน์ใหม่ที่มีเวกเตอร์นี้ซึ่งจะจัดแนวให้ตรงกับรหัสพนักงานได้อย่างถูกต้อง ถูกต้องหรือไม่
dmvianna

applyแปลงdata.frameไปmatrixภายใน คุณอาจไม่เห็นความแตกต่างของประสิทธิภาพในมิติข้อมูลเหล่านี้
อรุณ

2
@PankajKaundal - สมมติว่ามีค่าแตกต่างกันอย่างไรcolnames(DF)[max.col(replace(DF, cbind(seq_len(nrow(DF)), max.col(DF,ties.method="first")), -Inf), "first")]
thelatemail

15

หากคุณสนใจdata.tableวิธีแก้ปัญหานี่คือวิธีหนึ่ง ค่อนข้างยุ่งยากเนื่องจากคุณต้องการรับ id เป็นจำนวนสูงสุดครั้งแรก ง่ายกว่ามากถ้าคุณต้องการสูงสุดครั้งสุดท้าย ถึงกระนั้นมันก็ไม่ซับซ้อนและรวดเร็ว!

ที่นี่ฉันสร้างข้อมูลขนาดของคุณ (26746 * 18)

ข้อมูล

set.seed(45)
DF <- data.frame(matrix(sample(10, 26746*18, TRUE), ncol=18))

data.table ตอบ:

require(data.table)
DT <- data.table(value=unlist(DF, use.names=FALSE), 
            colid = 1:nrow(DF), rowid = rep(names(DF), each=nrow(DF)))
setkey(DT, colid, value)
t1 <- DT[J(unique(colid), DT[J(unique(colid)), value, mult="last"]), rowid, mult="first"]

การเปรียบเทียบ:

# data.table solution
system.time({
DT <- data.table(value=unlist(DF, use.names=FALSE), 
            colid = 1:nrow(DF), rowid = rep(names(DF), each=nrow(DF)))
setkey(DT, colid, value)
t1 <- DT[J(unique(colid), DT[J(unique(colid)), value, mult="last"]), rowid, mult="first"]
})
#   user  system elapsed 
#  0.174   0.029   0.227 

# apply solution from @thelatemail
system.time(t2 <- colnames(DF)[apply(DF,1,which.max)])
#   user  system elapsed 
#  2.322   0.036   2.602 

identical(t1, t2)
# [1] TRUE

ข้อมูลของมิติข้อมูลเหล่านี้เร็วขึ้นประมาณ 11 เท่าและdata.tableสเกลก็ค่อนข้างดีด้วย


แก้ไข: หากรหัสสูงสุดใด ๆ ถูกต้องให้ทำดังนี้

DT <- data.table(value=unlist(DF, use.names=FALSE), 
            colid = 1:nrow(DF), rowid = rep(names(DF), each=nrow(DF)))
setkey(DT, colid, value)
t1 <- DT[J(unique(colid)), rowid, mult="last"]

ที่จริงฉันไม่สนใจหรอกว่ามันเป็นค่าสูงสุดแรกหรือสูงสุดสุดท้าย ฉันต้องการความเรียบง่ายก่อน แต่ฉันแน่ใจว่าโซลูชัน data.table จะมีประโยชน์ในอนาคตขอบคุณ!
dmvianna

11

วิธีแก้ปัญหาหนึ่งคือการจัดรูปแบบวันที่จากกว้างไปยาวโดยวางแผนกทั้งหมดในคอลัมน์เดียวและนับในอีกคอลัมน์หนึ่งจัดกลุ่มตามรหัสนายจ้าง (ในกรณีนี้คือหมายเลขแถว) จากนั้นกรองไปยังแผนกด้วย ค่าสูงสุด มีสองทางเลือกในการจัดการความสัมพันธ์กับแนวทางนี้ด้วย

library(tidyverse)

# sample data frame with a tie
df <- data_frame(V1=c(2,8,1),V2=c(7,3,5),V3=c(9,6,5))

# If you aren't worried about ties:  
df %>% 
  rownames_to_column('id') %>%  # creates an ID number
  gather(dept, cnt, V1:V3) %>% 
  group_by(id) %>% 
  slice(which.max(cnt)) 

# A tibble: 3 x 3
# Groups:   id [3]
  id    dept    cnt
  <chr> <chr> <dbl>
1 1     V3       9.
2 2     V1       8.
3 3     V2       5.


# If you're worried about keeping ties:
df %>% 
  rownames_to_column('id') %>%
  gather(dept, cnt, V1:V3) %>% 
  group_by(id) %>% 
  filter(cnt == max(cnt)) %>% # top_n(cnt, n = 1) also works
  arrange(id)

# A tibble: 4 x 3
# Groups:   id [3]
  id    dept    cnt
  <chr> <chr> <dbl>
1 1     V3       9.
2 2     V1       8.
3 3     V2       5.
4 3     V3       5.


# If you're worried about ties, but only want a certain department, you could use rank() and choose 'first' or 'last'
df %>% 
  rownames_to_column('id') %>%
  gather(dept, cnt, V1:V3) %>% 
  group_by(id) %>% 
  mutate(dept_rank  = rank(-cnt, ties.method = "first")) %>% # or 'last'
  filter(dept_rank == 1) %>% 
  select(-dept_rank) 

# A tibble: 3 x 3
# Groups:   id [3]
  id    dept    cnt
  <chr> <chr> <dbl>
1 2     V1       8.
2 3     V2       5.
3 1     V3       9.

# if you wanted to keep the original wide data frame
df %>% 
  rownames_to_column('id') %>%
  left_join(
    df %>% 
      rownames_to_column('id') %>%
      gather(max_dept, max_cnt, V1:V3) %>% 
      group_by(id) %>% 
      slice(which.max(max_cnt)), 
    by = 'id'
  )

# A tibble: 3 x 6
  id       V1    V2    V3 max_dept max_cnt
  <chr> <dbl> <dbl> <dbl> <chr>      <dbl>
1 1        2.    7.    9. V3            9.
2 2        8.    3.    6. V1            8.
3 3        1.    5.    5. V2            5.

11

ตามคำแนะนำข้างต้นdata.tableโซลูชันต่อไปนี้ทำงานได้เร็วมากสำหรับฉัน:

library(data.table)

set.seed(45)
DT <- data.table(matrix(sample(10, 10^7, TRUE), ncol=10))

system.time(
  DT[, col_max := colnames(.SD)[max.col(.SD, ties.method = "first")]]
)
#>    user  system elapsed 
#>    0.15    0.06    0.21
DT[]
#>          V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 col_max
#>       1:  7  4  1  2  3  7  6  6  6   1      V1
#>       2:  4  6  9 10  6  2  7  7  1   3      V4
#>       3:  3  4  9  8  9  9  8  8  6   7      V3
#>       4:  4  8  8  9  7  5  9  2  7   1      V4
#>       5:  4  3  9 10  2  7  9  6  6   9      V4
#>      ---                                       
#>  999996:  4  6 10  5  4  7  3  8  2   8      V3
#>  999997:  8  7  6  6  3 10  2  3 10   1      V6
#>  999998:  2  3  2  7  4  7  5  2  7   3      V4
#>  999999:  8 10  3  2  3  4  5  1  1   4      V2
#> 1000000: 10  4  2  6  6  2  8  4  7   4      V1

และยังมาพร้อมกับข้อดีที่สามารถระบุได้เสมอว่าคอลัมน์.SDใดควรพิจารณาโดยกล่าวถึงใน.SDcols:

DT[, MAX2 := colnames(.SD)[max.col(.SD, ties.method="first")], .SDcols = c("V9", "V10")]

ในกรณีที่เราต้องการชื่อคอลัมน์ที่มีค่าน้อยที่สุดตามที่ @lwshang แนะนำต้องใช้-.SD:

DT[, col_min := colnames(.SD)[max.col(-.SD, ties.method = "first")]]

ฉันมีข้อกำหนดที่คล้ายกัน แต่ต้องการรับชื่อคอลัมน์ที่มีค่าต่ำสุดสำหรับแต่ละแถว ..... เราดูเหมือนจะไม่มี min.col ใน R ..... คุณจะรู้ไหมว่าอะไรจะเป็นทางออกที่เทียบเท่า เหรอ?
user1412

สวัสดี @ user1412 ขอบคุณสำหรับคำถามที่น่าสนใจ ตอนนี้ฉันไม่มีความคิดอื่นใดนอกจากใช้which.minในสิ่งที่ดูเหมือน: DT[, MIN := colnames(.SD)[apply(.SD,1,which.min)]]หรือDT[, MIN2 := colnames(.SD)[which.min(.SD)], by = 1:nrow(DT)]ข้อมูลจำลองด้านบน สิ่งนี้ไม่ถือว่าเป็นความสัมพันธ์และส่งกลับเพียงขั้นต่ำแรก อาจพิจารณาถามคำถามแยกกัน ฉันก็อยากรู้เหมือนกันว่าคุณจะได้รับคำตอบอะไรอีก
Valentin

1
เคล็ดลับที่จะได้รับขั้นต่ำคอลัมน์จะส่งผลเชิงลบของ data.frame ลง max.col colnames(.SD)[max.col(-.SD, ties.method="first")]เช่น:
lwshang

6

dplyrวิธีการแก้ปัญหา:

ความคิด:

  • เพิ่ม rowids เป็นคอลัมน์
  • เปลี่ยนรูปร่างเป็นรูปแบบยาว
  • กรองสูงสุดในแต่ละกลุ่ม

รหัส:

DF = data.frame(V1=c(2,8,1),V2=c(7,3,5),V3=c(9,6,4))
DF %>% 
  rownames_to_column() %>%
  gather(column, value, -rowname) %>%
  group_by(rowname) %>% 
  filter(rank(-value) == 1) 

ผลลัพธ์:

# A tibble: 3 x 3
# Groups:   rowname [3]
  rowname column value
  <chr>   <chr>  <dbl>
1 2       V1         8
2 3       V2         5
3 1       V3         9

วิธีนี้สามารถขยายได้อย่างง่ายดายเพื่อให้ได้nคอลัมน์ด้านบน ตัวอย่างสำหรับn=2:

DF %>% 
  rownames_to_column() %>%
  gather(column, value, -rowname) %>%
  group_by(rowname) %>% 
  mutate(rk = rank(-value)) %>%
  filter(rk <= 2) %>% 
  arrange(rowname, rk) 

ผลลัพธ์:

# A tibble: 6 x 4
# Groups:   rowname [3]
  rowname column value    rk
  <chr>   <chr>  <dbl> <dbl>
1 1       V3         9     1
2 1       V2         7     2
3 2       V1         8     1
4 2       V3         6     2
5 3       V2         5     1
6 3       V3         4     2

1
คุณช่วยแสดงความคิดเห็นเกี่ยวกับความแตกต่างระหว่างแนวทางนี้กับคำตอบของ sbha ข้างต้นได้หรือไม่? พวกเขาดูเหมือนกับฉัน
Gregor Thomas

2

การforวนซ้ำแบบธรรมดายังมีประโยชน์:

> df<-data.frame(V1=c(2,8,1),V2=c(7,3,5),V3=c(9,6,4))
> df
  V1 V2 V3
1  2  7  9
2  8  3  6
3  1  5  4
> df2<-data.frame()
> for (i in 1:nrow(df)){
+   df2[i,1]<-colnames(df[which.max(df[i,])])
+ }
> df2
  V1
1 V3
2 V1
3 V2

2

ทางเลือกหนึ่งจากdplyr 1.0.0อาจเป็น:

DF %>%
 rowwise() %>%
 mutate(row_max = names(.)[which.max(c_across(everything()))])

     V1    V2    V3 row_max
  <dbl> <dbl> <dbl> <chr>  
1     2     7     9 V3     
2     8     3     6 V1     
3     1     5     4 V2     

ข้อมูลตัวอย่าง:

DF <- structure(list(V1 = c(2, 8, 1), V2 = c(7, 3, 5), V3 = c(9, 6, 
4)), class = "data.frame", row.names = c(NA, -3L))

0

นี่คือคำตอบที่ใช้ได้กับ data.table และง่ายกว่า สิ่งนี้ถือว่า data.table ของคุณมีชื่อว่าyourDF:

j1 <- max.col(yourDF[, .(V1, V2, V3, V4)], "first")
yourDF$newCol <- c("V1", "V2", "V3", "V4")[j1]

แทนที่("V1", "V2", "V3", "V4")และ(V1, V2, V3, V4)ด้วยชื่อคอลัมน์ของคุณ


ใครช่วยได้บ้างว่าเราละเว้นค่า NA ได้อย่างไรหากมีอยู่ในค่าคอลัมน์
Partha sarathi
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.