วิธีหมุนกาดาต้าดาต้ารูมประกอบด้วยคอลัมน์พร้อมส่วนและส่วนย่อยใน R


12

ฉันมีชื่อไฟล์ด้านล่าง:

structure(
  list(ID = c("P-1", " P-1", "P-1", "P-2", "P-3", "P-4", "P-5", "P-6", "P-7",
              "P-8"),
       Date = c("2020-03-16 12:11:33", "2020-03-16 13:16:04",
                "2020-03-16 06:13:55", "2020-03-16 10:03:43",
                "2020-03-16 12:37:09", "2020-03-16 06:40:24",
                "2020-03-16 09:46:45", "2020-03-16 12:07:44",
                "2020-03-16 14:09:51", "2020-03-16 09:19:23"),
       Status = c("SA", "SA", "SA", "RE", "RE", "RE", "RE", "XA", "XA", "XA"),
       Flag = c("L", "L", "L", NA, "K", "J", NA, NA, "H", "G"),
       Value = c(5929.81, 5929.81, 5929.81, NA, 6969.33, 740.08, NA, NA, 1524.8,
                 NA),
       Flag2 = c("CL", "CL", "CL", NA, "RY", "", NA, NA, "", NA),
       Flag3 = c(NA, NA, NA, NA, "RI", "PO", NA, "SS", "DDP", NA)),
  .Names=c("ID", "Date", "Status", "Flag", "Value", "Flag2", "Flag3"),
  row.names=c(NA, 10L), class="data.frame")

ฉันกำลังใช้รหัสที่กล่าวถึงด้านล่าง:

    df %>% mutate(L = ifelse(Flag == "L",1,0),
                  K = ifelse(Flag == "K",1,0),
                  # etc for Flag) %>%
      mutate(sub_status = NA) %>%
      mutate(sub_status = ifelse(!is.na(Flag2) & Flag3 == 0, "a", sub_status),
             sub_status = ifelse(is.na(Flag2) & Flag3 != 0, "b", sub_status),
             # etc for sub-status) %>%
      mutate(value_class = ifelse(0 <= Value & Value <= 15000, "0-15000",
                                  "15000-50000")) %>%
      group_by(Date, status, sub_status, value_class) %>%
      summarise(L = sum(L),
                K = sum(K),
                # etc
                count = n())

ซึ่งให้ฉันผลลัพธ์ต่อไปนี้:

    Date         Status  sub_status   value_class G H I J K L NA Count
    2020-03-20   SA      a            0-15000     0 0 0 0 1 1 0  2
    2020-03-20   SA      b            0-15000     0 0 0 0 1 0 0  1
    ................
    ................

ฉันต้องการที่จะได้รับการส่งออกต่อไปโดยใช้DFที่Statusคอลัมน์มีที่แตกต่างกัน 3 ค่านิยมและFlag2มีค่าอย่างใดอย่างหนึ่งหรือ [null] หรือ NA และในที่สุดก็Flag3คอลัมน์มีที่แตกต่างกัน 7 ค่ากับ [null] หรือ NA สำหรับหนึ่งที่แตกต่างIDเรามีหลายรายการของFlag3คอลัมน์

ฉันต้องการสร้าง dataframe ต่อไปนี้โดยการสร้าง 3 กลุ่มตามValueเช่น 0-15000, 15000-50000

  • หากมีรหัสที่แตกต่างกันFlag2มีค่าอื่นที่ไม่ใช่ 0 หรือ [null] / NA บางส่วน แต่Flag3มีค่า 0 หรือ [null] / NA aแล้วมันจะเป็น
  • ถ้าสำหรับ ID ที่แตกต่างFlag3มีค่าอื่นนอกเหนือจาก 0 หรือ [null] / NA แต่Flag2มีค่า 0 หรือ [null] / NA ก็จะเป็นb
  • ถ้าสำหรับ ID ที่แตกต่างกันทั้งสองFlag2& Flag3มีค่าอื่นที่ไม่ใช่ 0 หรือ [Null] / NA ก็จะเป็นเช่นนั้นc
  • หากทั้ง ID ที่แตกต่างกันFlag2และFlag3มีค่าเป็น 0 หรือ [Null] / NA จะเป็นเช่นนั้นd

ฉันต้องการจัดเรียง datafrmae ที่กล่าวถึงข้างต้นในโครงสร้างต่อไปนี้ด้วยpercentและTotalคอลัมน์

ผมได้กล่าวถึงร้อยละเช่น2/5เพื่อแสดงสถานะที่จะถูกแบ่งออกโดยรวมในขณะที่จะถูกหารด้วยตนsub_statusStatus

16/03/2020         0 - 15000                    15000 - 50000
Status  count   percent  L K J H G [Null]    count   percent  L K J H G [Null]   Total
SA        1 1/8 (12.50%) 1 0 0 0 0   0         0       -      0 0 0 0 0    0       1
a         1 1/1(100.00%) 1 0 0 0 0   0         0       -      0 0 0 0 0    0       1
b         0       -      0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
c         0       -      1 0 0 0 0   0         0       -      0 0 0 0 0    0       0
d         0       -      0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
RE        4      50.00%  0 1 1 0 0   2         0       -      0 0 0 0 0    0       4
a         0        -     0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
b         1      25.00%  0 0 1 0 0   1         0       -      0 0 0 0 0    0       1
c         1      25.00%  0 1 0 0 0   1         0       -      0 0 0 0 0    0       1
d         2      50.00%  0 0 0 0 0   2         0       -      0 0 0 0 0    0       2
XA        3      37.50%  0 0 0 1 1   1         0       -      0 0 0 0 0    0       3
a         0        -     0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
b         2      66.67%  0 0 0 1 0   1         0       -      0 0 0 0 0    0       2
c         0        -     0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
d         1      33.33%  0 0 0 0 1   0         0       -      0 0 0 0 0    0       1
Total     8     100.00%  1 1 0 0 1   3         0       -      0 0 0 0 0    0       8

ฉันได้กล่าวถึงการส่งออกที่จำเป็นขึ้นอยู่กับวันที่ล่าสุดซึ่งเป็น 16/03/2020 ถ้า dataframe ไม่มีวันที่ล่าสุดตามstartdateเก็บค่าทั้งหมด 0 ใน dataframe เอาท์พุท คอลัมน์เปอร์เซ็นต์ใช้สำหรับการอ้างอิงเท่านั้นซึ่งจะมีการคำนวณค่าเปอร์เซ็นต์

นอกจากนี้ฉันต้องการให้โครงสร้างคงที่ ตัวอย่างเช่นหากพารามิเตอร์ใด ๆ ไม่มีอยู่ในวันโครงสร้างเอาต์พุตจะเหมือนกันกับค่า 0

ตัวอย่างเช่นสมมติว่าวันที่17/03/2020ไม่ได้มีแถวใด ๆ กับสถานะSAหรือ sub_status เจ้าของสถานที่สำหรับการที่จะมีในการส่งออกมีมูลค่าเป็นc0


@akrun: คอลัมน์ร้อยละที่ฉันได้เก็บไว้2/5เพียงเพื่อวัตถุประสงค์ในการเป็นตัวแทน จะมีค่าร้อยละเฉพาะกับทศนิยม 2 ตำแหน่งที่มีเครื่องหมายเปอร์เซ็นต์
user9211845

@akrun: โปรดแนะนำว่าหากต้องการเอาท์พุทที่ต้องการผ่าน R :(
user9211845

การป้อนข้อมูลของคุณคือ 10 แถว แต่คาดว่าจะมีมากกว่านี้ เป็นไปตามที่คาดหวังจากตัวอย่างอินพุต
akrun

@ akrun: ฉันขอโทษ แต่ผลลัพธ์เป็นเพียงการแสดงภาพเท่านั้น ฉันจำเป็นต้องเข้าใจแนวทางเพื่อให้ได้ผลลัพธ์ดังกล่าว
user9211845

1
คุณสามารถเริ่มต้นด้วยdputชุดข้อมูลที่คุณชอบ - มันคือบล็อกรหัสที่สาม รหัสก่อนหน้านี้ไม่ปรากฏขึ้นเนื่องจากคุณดูเนื้อหาที่มีผลลัพธ์
โคล

คำตอบ:


3

หวังว่ามันจะเพียงพอสำหรับคุณในการเริ่มต้นต่อไปฉันจะต้องการผลลัพธ์ที่คาดหวังซึ่งดูเหมือนว่ามาจาก R และคำอธิบายเพิ่มเติมเกี่ยวกับวิธีคำนวณตัวแปร

library(tidyverse)
df <- structure(
  list(ID = c("P-1", " P-1", "P-1", "P-2", "P-3", "P-4", "P-5", "P-6", "P-7",
              "P-8"),
       Date = c("2020-03-16 12:11:33", "2020-03-16 13:16:04",
                "2020-03-16 06:13:55", "2020-03-16 10:03:43",
                "2020-03-16 12:37:09", "2020-03-16 06:40:24",
                "2020-03-16 09:46:45", "2020-03-16 12:07:44",
                "2020-03-16 14:09:51", "2020-03-16 09:19:23"),
       Status = c("SA", "SA", "SA", "RE", "RE", "RE", "RE", "XA", "XA", "XA"),
       Flag = c("L", "L", "L", NA, "K", "J", NA, NA, "H", "G"),
       Value = c(5929.81, 5929.81, 5929.81, NA, 6969.33, 740.08, NA, NA, 1524.8,
                 NA),
       Flag2 = c("CL", "CL", "CL", NA, "RY", "", NA, NA, "", NA),
       Flag3 = c(NA, NA, NA, NA, "RI", "PO", NA, "SS", "DDP", NA)),
  .Names=c("ID", "Date", "Status", "Flag", "Value", "Flag2", "Flag3"),
  row.names=c(NA, 10L), class="data.frame")

df2 <- df %>%
  mutate(
    # add variables
    Value = ifelse(0 <= Value & Value <= 15000, "0-15000", "15000-50000"),
    substatus = case_when(
      !is.na(Flag2) & is.na(Flag3) ~ "a",
      !is.na(Flag3) & is.na(Flag2) ~ "b",
      !is.na(Flag3) & !is.na(Flag2) ~ "c",
      TRUE ~ "d"),
    # make Date an actual date rather than a timestamp
    Date = as.Date(Date),
    # remove obsolete columns
    Flag2 = NULL,
    Flag3 = NULL,
    ID = NULL,
    # renames NAs into the name of the desired column
    Flag = ifelse(is.na(Flag), "[Null]", Flag),
    # create column of 1 for pivot
    temp = 1,
    # and row id
    id = row_number()
    ) %>%
  # create new columns L K etc, this also drops the Flag col
  pivot_wider(names_from = "Flag", values_from = "temp", values_fill = list(temp=0)) %>%
  # move `[Null]` column to the end
  select(everything(), -`[Null]`, `[Null]`) %>%
  mutate(
    id = NULL,
    count = 1,
    Total = rowSums(select(., L:`[Null]`))) 
df2
#> # A tibble: 10 x 12
#>    Date       Status Value substatus     L     K     J     H     G `[Null]`
#>    <date>     <chr>  <chr> <chr>     <dbl> <dbl> <dbl> <dbl> <dbl>    <dbl>
#>  1 2020-03-16 SA     0-15~ a             1     0     0     0     0        0
#>  2 2020-03-16 SA     0-15~ a             1     0     0     0     0        0
#>  3 2020-03-16 SA     0-15~ a             1     0     0     0     0        0
#>  4 2020-03-16 RE     <NA>  d             0     0     0     0     0        1
#>  5 2020-03-16 RE     0-15~ c             0     1     0     0     0        0
#>  6 2020-03-16 RE     0-15~ c             0     0     1     0     0        0
#>  7 2020-03-16 RE     <NA>  d             0     0     0     0     0        1
#>  8 2020-03-16 XA     <NA>  b             0     0     0     0     0        1
#>  9 2020-03-16 XA     0-15~ c             0     0     0     1     0        0
#> 10 2020-03-16 XA     <NA>  d             0     0     0     0     1        0
#> # ... with 2 more variables: count <dbl>, Total <dbl>

# As you didn't tell what to do with NA values so I left them as NA 

bind_rows(
  df2 %>%
    # add missing combinations of abcd
    complete(nesting(Date, Status, Value), substatus) %>%
    group_by(Date, Value, Status, substatus) %>% 
    summarize_all(~sum(., na.rm=TRUE)) %>%
    group_by(Status, Value) %>%
    mutate(percent = paste(round(100 * Total / sum(Total), 2), "%")) %>%
    ungroup(),
  df2 %>% 
    mutate(substatus = Status, Status = paste0(Status, "_")) %>%
    group_by(Date, Value, Status, substatus) %>% 
    mutate(count = n()) %>%
    group_by(count, add = TRUE) %>%
    summarize_all(~sum(., na.rm=TRUE)) %>%
    group_by(Value) %>%
    mutate(percent = paste(round(100 * Total / sum(Total), 2), "%"))
) %>%
  arrange(Date, Value, desc(Status)) %>%
  mutate(Status = NULL) %>%
  rename(Status = substatus) %>%
  print(n=Inf)
#> # A tibble: 25 x 12
#>    Date       Value Status     L     K     J     H     G `[Null]` count Total
#>    <date>     <chr> <chr>  <dbl> <dbl> <dbl> <dbl> <dbl>    <dbl> <dbl> <dbl>
#>  1 2020-03-16 0-15~ XA         0     0     0     1     0        0     1     1
#>  2 2020-03-16 0-15~ a          0     0     0     0     0        0     0     0
#>  3 2020-03-16 0-15~ b          0     0     0     0     0        0     0     0
#>  4 2020-03-16 0-15~ c          0     0     0     1     0        0     1     1
#>  5 2020-03-16 0-15~ d          0     0     0     0     0        0     0     0
#>  6 2020-03-16 0-15~ SA         3     0     0     0     0        0     3     3
#>  7 2020-03-16 0-15~ a          3     0     0     0     0        0     3     3
#>  8 2020-03-16 0-15~ b          0     0     0     0     0        0     0     0
#>  9 2020-03-16 0-15~ c          0     0     0     0     0        0     0     0
#> 10 2020-03-16 0-15~ d          0     0     0     0     0        0     0     0
#> 11 2020-03-16 0-15~ RE         0     1     1     0     0        0     2     2
#> 12 2020-03-16 0-15~ a          0     0     0     0     0        0     0     0
#> 13 2020-03-16 0-15~ b          0     0     0     0     0        0     0     0
#> 14 2020-03-16 0-15~ c          0     1     1     0     0        0     2     2
#> 15 2020-03-16 0-15~ d          0     0     0     0     0        0     0     0
#> 16 2020-03-16 <NA>  XA         0     0     0     0     1        1     2     2
#> 17 2020-03-16 <NA>  a          0     0     0     0     0        0     0     0
#> 18 2020-03-16 <NA>  b          0     0     0     0     0        1     1     1
#> 19 2020-03-16 <NA>  c          0     0     0     0     0        0     0     0
#> 20 2020-03-16 <NA>  d          0     0     0     0     1        0     1     1
#> 21 2020-03-16 <NA>  RE         0     0     0     0     0        2     2     2
#> 22 2020-03-16 <NA>  a          0     0     0     0     0        0     0     0
#> 23 2020-03-16 <NA>  b          0     0     0     0     0        0     0     0
#> 24 2020-03-16 <NA>  c          0     0     0     0     0        0     0     0
#> 25 2020-03-16 <NA>  d          0     0     0     0     0        2     2     2
#> # ... with 1 more variable: percent <chr>
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.