สร้างตัวแปรจำลอง


87

ฉันมีปัญหาในการสร้างตัวแปรดัมมี่ต่อไปนี้ใน R:

ฉันกำลังวิเคราะห์ข้อมูลอนุกรมเวลารายปี (ช่วงเวลา 2491-2552) ฉันมีสองคำถาม:

  1. ฉันจะสร้างตัวแปรจำลองสำหรับการสังเกต # 10 เช่นปี 2500 ได้อย่างไร (ค่า = 1 ที่ปี 1957 และเป็นศูนย์)

  2. ฉันจะสร้างตัวแปรดัมมี่ซึ่งเป็นศูนย์ก่อนปี 1957 และรับค่า 1 ตั้งแต่ปี 1957 เป็นต้นไปจนถึงปี 2009 ได้อย่างไร

คำตอบ:


113

ตัวเลือกที่สามารถทำงานได้ดีกว่าถ้าคุณมีหลายตัวแปรก็คือและfactormodel.matrix

> year.f = factor(year)
> dummies = model.matrix(~year.f)

ซึ่งจะรวมคอลัมน์สกัดกั้น (คอลัมน์ทั้งหมด) และคอลัมน์หนึ่งคอลัมน์สำหรับแต่ละปีในชุดข้อมูลของคุณยกเว้นคอลัมน์เดียวซึ่งจะเป็น "ค่าเริ่มต้น" หรือค่าการสกัดกั้น

คุณสามารถเปลี่ยนวิธีการ "เริ่มต้น" ถูกเลือกโดยล้อเล่นกับในcontrasts.argmodel.matrix

นอกจากนี้หากคุณต้องการละเว้นการสกัดกั้นคุณสามารถวางคอลัมน์แรกหรือเพิ่มลง+0ในตอนท้ายของสูตรได้

หวังว่านี่จะเป็นประโยชน์


4
จะเป็นอย่างไรหากคุณต้องการสร้างตัวแปรจำลองสำหรับทุกคน (แทน k-1) โดยไม่มีการสกัดกั้น
Fernando Hoces De La Guardia

1
โปรดทราบว่า model.matrix () ยอมรับตัวแปรหลายตัวเพื่อแปลงเป็นหุ่น: model.matrix (~ var1 + var2, data = df) อีกครั้งเพียงตรวจสอบให้แน่ใจว่าเป็นปัจจัย
slizb

3
@ ตาราง Synergist (1: n, ตัวประกอบ) โดยที่ปัจจัยคือตัวแปรดั้งเดิมและ n คือความยาว
Fernando Hoces De La Guardia

1
@Synergist ตารางนั้นเป็นเมทริกซ์วิตกที่มีตัวแปรตัวบ่งชี้ k ทั้งหมด (แทน k-1)
Fernando Hoces De La Guardia

6
@FernandoHocesDeLaGuardia คุณสามารถลบตัดจากสูตรทั้งที่มีหรือ+ 0 - 1ดังนั้นmodel.matrix(~ year.f + 0)จะให้ตัวแปรดัมมี่โดยไม่มีระดับอ้างอิง
Gregor Thomas

60

วิธีที่ง่ายที่สุดในการสร้างตัวแปรจำลองเหล่านี้มีดังต่อไปนี้:

> print(year)
[1] 1956 1957 1957 1958 1958 1959
> dummy <- as.numeric(year == 1957)
> print(dummy)
[1] 0 1 1 0 0 0
> dummy2 <- as.numeric(year >= 1957)
> print(dummy2)
[1] 0 1 1 1 1 1

โดยทั่วไปคุณสามารถใช้ifelseเพื่อเลือกระหว่างสองค่าขึ้นอยู่กับเงื่อนไข ดังนั้นถ้าแทนของตัวแปร 0-1 หุ่นด้วยเหตุผลบางอย่างที่คุณต้องการที่จะใช้การพูด, 4 และ 7 ifelse(year == 1957, 4, 7)คุณสามารถใช้


49

การใช้Dummies :: dummy () :

library(dummies)

# example data
df1 <- data.frame(id = 1:4, year = 1991:1994)

df1 <- cbind(df1, dummy(df1$year, sep = "_"))

df1
#   id year df1_1991 df1_1992 df1_1993 df1_1994
# 1  1 1991        1        0        0        0
# 2  2 1992        0        1        0        0
# 3  3 1993        0        0        1        0
# 4  4 1994        0        0        0        1

บางทีการเพิ่ม "fun = factor" ใน function dummy สามารถช่วยได้หากนั่นคือความหมายของตัวแปร
Filippo Mazza

@FilippoMazza ฉันต้องการเก็บไว้เป็นจำนวนเต็มใช่เราสามารถกำหนดตัวประกอบได้หากจำเป็น
zx8754

คุณจะลบ df1 ก่อนชื่อส่วนหัวคอลัมน์ดัมมี่ได้อย่างไร
ไมค์

1
@mike colnames (df1) <- gsub ("df1_", "", fixed = TRUE, colnames (df1))
zx8754

19

แพ็คเกจmlrนี้รวมcreateDummyFeaturesไว้เพื่อวัตถุประสงค์นี้:

library(mlr)
df <- data.frame(var = sample(c("A", "B", "C"), 10, replace = TRUE))
df

#    var
# 1    B
# 2    A
# 3    C
# 4    B
# 5    C
# 6    A
# 7    C
# 8    A
# 9    B
# 10   C

createDummyFeatures(df, cols = "var")

#    var.A var.B var.C
# 1      0     1     0
# 2      1     0     0
# 3      0     0     1
# 4      0     1     0
# 5      0     0     1
# 6      1     0     0
# 7      0     0     1
# 8      1     0     0
# 9      0     1     0
# 10     0     0     1

createDummyFeatures ลดตัวแปรดั้งเดิม

https://www.rdocumentation.org/packages/mlr/versions/2.9/topics/createDummyFeatures
.....


1
Enrique ฉันได้ลองติดตั้งแพ็คเกจแล้ว แต่ดูเหมือนว่าจะไม่ทำงานหลังจากทำไลบรารี (mlr) ฉันได้รับข้อผิดพลาดต่อไปนี้: «ข้อผิดพลาดใน loadNamespace (j <- i [[1L]], c (lib.loc, .libPaths ()), versionCheck = vI [[j]]): ไม่มีแพ็คเกจที่เรียกว่า 'ggvis 'นอกจากนี้: ข้อความเตือน: แพคเกจ' mlr 'ถูกสร้างขึ้นภายใต้ R เวอร์ชัน 3.2.5 ข้อผิดพลาด: การโหลดแพ็กเกจหรือเนมสเปซล้มเหลวสำหรับ' mlr '»
ชายชราในทะเล

1
คุณต้องติดตั้ง 'ggvis' ก่อน
Ted Mosby

17

คำตอบอื่น ๆ ที่นี่เสนอเส้นทางโดยตรงเพื่อให้งานนี้สำเร็จซึ่งเป็นสิ่งที่หลาย ๆ รุ่น (เช่นlm) จะทำเพื่อคุณเป็นการภายใน อย่างไรก็ตามนี่คือวิธีสร้างตัวแปรจำลองด้วยแพ็คเกจยอดนิยมcaretและrecipesแพ็คเกจของ Max Kuhn แม้ว่าจะดูละเอียดกว่า แต่ทั้งสองก็ปรับขนาดให้เข้ากับสถานการณ์ที่ซับซ้อนมากขึ้นได้อย่างง่ายดายและเหมาะสมกับกรอบของพวกเขา


caret::dummyVars

ด้วยcaretฟังก์ชันที่เกี่ยวข้องคือdummyVarsซึ่งมีpredictวิธีการนำไปใช้กับ data frame:

df <- data.frame(letter = rep(c('a', 'b', 'c'), each = 2),
                 y = 1:6)

library(caret)

dummy <- dummyVars(~ ., data = df, fullRank = TRUE)

dummy
#> Dummy Variable Object
#> 
#> Formula: ~.
#> 2 variables, 1 factors
#> Variables and levels will be separated by '.'
#> A full rank encoding is used

predict(dummy, df)
#>   letter.b letter.c y
#> 1        0        0 1
#> 2        0        0 2
#> 3        1        0 3
#> 4        1        0 4
#> 5        0        1 5
#> 6        0        1 6

recipes::step_dummy

ด้วยrecipesฟังก์ชันที่เกี่ยวข้องคือstep_dummy:

library(recipes)

dummy_recipe <- recipe(y ~ letter, df) %>% 
    step_dummy(letter)

dummy_recipe
#> Data Recipe
#> 
#> Inputs:
#> 
#>       role #variables
#>    outcome          1
#>  predictor          1
#> 
#> Steps:
#> 
#> Dummy variables from letter

ขึ้นอยู่กับบริบทแยกข้อมูลด้วยprepและอย่างใดอย่างหนึ่งbakeหรือjuice:

# Prep and bake on new data...
dummy_recipe %>% 
    prep() %>% 
    bake(df)
#> # A tibble: 6 x 3
#>       y letter_b letter_c
#>   <int>    <dbl>    <dbl>
#> 1     1        0        0
#> 2     2        0        0
#> 3     3        1        0
#> 4     4        1        0
#> 5     5        0        1
#> 6     6        0        1

# ...or use `retain = TRUE` and `juice` to extract training data
dummy_recipe %>% 
    prep(retain = TRUE) %>% 
    juice()
#> # A tibble: 6 x 3
#>       y letter_b letter_c
#>   <int>    <dbl>    <dbl>
#> 1     1        0        0
#> 2     2        0        0
#> 3     3        1        0
#> 4     4        1        0
#> 5     5        0        1
#> 6     6        0        1

11

สำหรับ usecase ตามที่นำเสนอในคำถามคุณสามารถคูณเงื่อนไขตรรกะด้วย1(หรืออาจจะดีกว่าด้วย1L):

# example data
df1 <- data.frame(yr = 1951:1960)

# create the dummies
df1$is.1957 <- 1L * (df1$yr == 1957)
df1$after.1957 <- 1L * (df1$yr >= 1957)

ซึ่งจะช่วยให้:

> df1
     yr is.1957 after.1957
1  1951       0          0
2  1952       0          0
3  1953       0          0
4  1954       0          0
5  1955       0          0
6  1956       0          0
7  1957       1          1
8  1958       0          1
9  1959       0          1
10 1960       0          1

สำหรับกรณีการใช้งานตามที่นำเสนอในตัวอย่างเช่นคำตอบของ @ zx8754 และ @Sotos ยังมีตัวเลือกอื่น ๆ ที่ยังไม่ได้กล่าวถึง imo

1) สร้างmake_dummiesฟังก์ชันของคุณเอง

# example data
df2 <- data.frame(id = 1:5, year = c(1991:1994,1992))

# create a function
make_dummies <- function(v, prefix = '') {
  s <- sort(unique(v))
  d <- outer(v, s, function(v, s) 1L * (v == s))
  colnames(d) <- paste0(prefix, s)
  d
}

# bind the dummies to the original dataframe
cbind(df2, make_dummies(df2$year, prefix = 'y'))

ซึ่งจะช่วยให้:

  id year y1991 y1992 y1993 y1994
1  1 1991     1     0     0     0
2  2 1992     0     1     0     0
3  3 1993     0     0     1     0
4  4 1994     0     0     0     1
5  5 1992     0     1     0     0

2) ใช้dcastฟังก์ชันจากทั้ง หรือ

 dcast(df2, id + year ~ year, fun.aggregate = length)

ซึ่งจะช่วยให้:

  id year 1991 1992 1993 1994
1  1 1991    1    0    0    0
2  2 1992    0    1    0    0
3  3 1993    0    0    1    0
4  4 1994    0    0    0    1
5  5 1992    0    1    0    0

อย่างไรก็ตามสิ่งนี้จะใช้ไม่ได้เมื่อมีค่าที่ซ้ำกันในคอลัมน์ที่ต้องสร้างหุ่น ในกรณีที่จำเป็นต้องใช้ฟังก์ชันการรวมเฉพาะสำหรับdcastและผลลัพธ์ของdcastความต้องการที่จะรวมกลับไปที่เดิม:

# example data
df3 <- data.frame(var = c("B", "C", "A", "B", "C"))

# aggregation function to get dummy values
f <- function(x) as.integer(length(x) > 0)

# reshape to wide with the cumstom aggregation function and merge back to the original
merge(df3, dcast(df3, var ~ var, fun.aggregate = f), by = 'var', all.x = TRUE)

ซึ่งให้ (โปรดทราบว่าผลลัพธ์จะเรียงลำดับตามbyคอลัมน์):

  var A B C
1   A 1 0 0
2   B 0 1 0
3   B 0 1 0
4   C 0 0 1
5   C 0 0 1

3) ใช้spreadฟังก์ชันจาก(ด้วยmutateจาก)

library(dplyr)
library(tidyr)

df2 %>% 
  mutate(v = 1, yr = year) %>% 
  spread(yr, v, fill = 0)

ซึ่งจะช่วยให้:

  id year 1991 1992 1993 1994
1  1 1991    1    0    0    0
2  2 1992    0    1    0    0
3  3 1993    0    0    1    0
4  4 1994    0    0    0    1
5  5 1992    0    1    0    0

10

โดยปกติสิ่งที่ฉันทำเพื่อทำงานกับตัวแปรดัมมี่ประเภทนี้คือ:

(1) ฉันจะสร้างตัวแปรจำลองสำหรับการสังเกต # 10 ได้อย่างไรเช่นสำหรับปี 2500 (ค่า = 1 ที่ 1957 และเป็นศูนย์)

data$factor_year_1 <- factor ( with ( data, ifelse ( ( year == 1957 ), 1 , 0 ) ) )

(2) ฉันจะสร้างตัวแปรดัมมี่ซึ่งเป็นศูนย์ก่อนปี 2500 และรับค่า 1 ตั้งแต่ปี 2500 เป็นต้นไปถึงปี 2552 ได้อย่างไร

data$factor_year_2 <- factor ( with ( data, ifelse ( ( year < 1957 ), 0 , 1 ) ) )

จากนั้นฉันสามารถแนะนำปัจจัยนี้เป็นตัวแปรจำลองในแบบจำลองของฉัน ตัวอย่างเช่นหากต้องการดูว่ามีแนวโน้มระยะยาวในตัวแปรหรือไม่y :

summary ( lm ( y ~ t,  data = data ) )

หวังว่านี่จะช่วยได้!


7

หากคุณต้องการรับตัวแปรดัมมี่ K แทนที่จะเป็น K-1 ให้ลอง:

dummies = table(1:length(year),as.factor(year))  

ดีที่สุด


ตารางผลลัพธ์ไม่สามารถใช้เป็น data.frame ได้ หากเป็นปัญหาให้ใช้as.data.frame.matrix(dummies)เพื่อแปลเป็นหนึ่ง
sheß

7

ฉันอ่านสิ่งนี้ในฟอรัม kaggle:

#Generate example dataframe with character column
example <- as.data.frame(c("A", "A", "B", "F", "C", "G", "C", "D", "E", "F"))
names(example) <- "strcol"

#For every unique value in the string column, create a new 1/0 column
#This is what Factors do "under-the-hood" automatically when passed to function requiring numeric data
for(level in unique(example$strcol)){
  example[paste("dummy", level, sep = "_")] <- ifelse(example$strcol == level, 1, 0)
}

5

ifelseฟังก์ชั่นที่ดีที่สุดสำหรับตรรกะง่ายๆเช่นนี้

> x <- seq(1950, 1960, 1)

    ifelse(x == 1957, 1, 0)
    ifelse(x <= 1957, 1, 0)

>  [1] 0 0 0 0 0 0 0 1 0 0 0
>  [1] 1 1 1 1 1 1 1 1 0 0 0

นอกจากนี้หากคุณต้องการให้ส่งคืนข้อมูลอักขระคุณสามารถทำได้

> x <- seq(1950, 1960, 1)

    ifelse(x == 1957, "foo", "bar")
    ifelse(x <= 1957, "foo", "bar")

>  [1] "bar" "bar" "bar" "bar" "bar" "bar" "bar" "foo" "bar" "bar" "bar"
>  [1] "foo" "foo" "foo" "foo" "foo" "foo" "foo" "foo" "bar" "bar" "bar"

ตัวแปรจัดหมวดหมู่ที่มีการซ้อน ...

> x <- seq(1950, 1960, 1)

    ifelse(x == 1957, "foo", ifelse(x == 1958, "bar","baz"))

>  [1] "baz" "baz" "baz" "baz" "baz" "baz" "baz" "foo" "bar" "baz" "baz"

นี่คือตัวเลือกที่ตรงไปตรงมาที่สุด


5

อีกวิธีหนึ่งคือการใช้งานmtabulateจากqdapToolsแพ็คเกจเช่น

df <- data.frame(var = sample(c("A", "B", "C"), 5, replace = TRUE))
  var
#1   C
#2   A
#3   C
#4   B
#5   B

library(qdapTools)
mtabulate(df$var)

ซึ่งจะช่วยให้,

  A B C
1 0 0 1
2 1 0 0
3 0 0 1
4 0 1 0
5 0 1 0

3

ซับในฐาน R

model.matrix( ~ iris$Species - 1)

ให้

    iris$Speciessetosa iris$Speciesversicolor iris$Speciesvirginica
1                    1                      0                     0
2                    1                      0                     0
3                    1                      0                     0
4                    1                      0                     0
5                    1                      0                     0
6                    1                      0                     0
7                    1                      0                     0
8                    1                      0                     0
9                    1                      0                     0
10                   1                      0                     0
11                   1                      0                     0
12                   1                      0                     0
13                   1                      0                     0
14                   1                      0                     0
15                   1                      0                     0
16                   1                      0                     0
17                   1                      0                     0
18                   1                      0                     0
19                   1                      0                     0
20                   1                      0                     0
21                   1                      0                     0
22                   1                      0                     0
23                   1                      0                     0
24                   1                      0                     0
25                   1                      0                     0
26                   1                      0                     0
27                   1                      0                     0
28                   1                      0                     0
29                   1                      0                     0
30                   1                      0                     0
31                   1                      0                     0
32                   1                      0                     0
33                   1                      0                     0
34                   1                      0                     0
35                   1                      0                     0
36                   1                      0                     0
37                   1                      0                     0
38                   1                      0                     0
39                   1                      0                     0
40                   1                      0                     0
41                   1                      0                     0
42                   1                      0                     0
43                   1                      0                     0
44                   1                      0                     0
45                   1                      0                     0
46                   1                      0                     0
47                   1                      0                     0
48                   1                      0                     0
49                   1                      0                     0
50                   1                      0                     0
51                   0                      1                     0
52                   0                      1                     0
53                   0                      1                     0
54                   0                      1                     0
55                   0                      1                     0
56                   0                      1                     0
57                   0                      1                     0
58                   0                      1                     0
59                   0                      1                     0
60                   0                      1                     0
61                   0                      1                     0
62                   0                      1                     0
63                   0                      1                     0
64                   0                      1                     0
65                   0                      1                     0
66                   0                      1                     0
67                   0                      1                     0
68                   0                      1                     0
69                   0                      1                     0
70                   0                      1                     0
71                   0                      1                     0
72                   0                      1                     0
73                   0                      1                     0
74                   0                      1                     0
75                   0                      1                     0
76                   0                      1                     0
77                   0                      1                     0
78                   0                      1                     0
79                   0                      1                     0
80                   0                      1                     0
81                   0                      1                     0
82                   0                      1                     0
83                   0                      1                     0
84                   0                      1                     0
85                   0                      1                     0
86                   0                      1                     0
87                   0                      1                     0
88                   0                      1                     0
89                   0                      1                     0
90                   0                      1                     0
91                   0                      1                     0
92                   0                      1                     0
93                   0                      1                     0
94                   0                      1                     0
95                   0                      1                     0
96                   0                      1                     0
97                   0                      1                     0
98                   0                      1                     0
99                   0                      1                     0
100                  0                      1                     0
101                  0                      0                     1
102                  0                      0                     1
103                  0                      0                     1
104                  0                      0                     1
105                  0                      0                     1
106                  0                      0                     1
107                  0                      0                     1
108                  0                      0                     1
109                  0                      0                     1
110                  0                      0                     1
111                  0                      0                     1
112                  0                      0                     1
113                  0                      0                     1
114                  0                      0                     1
115                  0                      0                     1
116                  0                      0                     1
117                  0                      0                     1
118                  0                      0                     1
119                  0                      0                     1
120                  0                      0                     1
121                  0                      0                     1
122                  0                      0                     1
123                  0                      0                     1
124                  0                      0                     1
125                  0                      0                     1
126                  0                      0                     1
127                  0                      0                     1
128                  0                      0                     1
129                  0                      0                     1
130                  0                      0                     1
131                  0                      0                     1
132                  0                      0                     1
133                  0                      0                     1
134                  0                      0                     1
135                  0                      0                     1
136                  0                      0                     1
137                  0                      0                     1
138                  0                      0                     1
139                  0                      0                     1
140                  0                      0                     1
141                  0                      0                     1
142                  0                      0                     1
143                  0                      0                     1
144                  0                      0                     1
145                  0                      0                     1
146                  0                      0                     1
147                  0                      0                     1
148                  0                      0                     1
149                  0                      0                     1
150                  0                      0                     1

2

แปลงข้อมูลของคุณเป็น data.table และใช้การตั้งค่าโดยการอ้างอิงและการกรองแถว

library(data.table)

dt <- as.data.table(your.dataframe.or.whatever)
dt[, is.1957 := 0]
dt[year == 1957, is.1957 := 1]

ตัวอย่างของเล่นพิสูจน์แนวคิด:

library(data.table)

dt <- as.data.table(cbind(c(1, 1, 1), c(2, 2, 3)))
dt[, is.3 := 0]
dt[V2 == 3, is.3 := 1]

1

ฉันใช้ฟังก์ชันดังกล่าว (สำหรับ data.table):

# Ta funkcja dla obiektu data.table i zmiennej var.name typu factor tworzy dummy variables o nazwach "var.name: (level1)"
factorToDummy <- function(dtable, var.name){
  stopifnot(is.data.table(dtable))
  stopifnot(var.name %in% names(dtable))
  stopifnot(is.factor(dtable[, get(var.name)]))

  dtable[, paste0(var.name,": ",levels(get(var.name)))] -> new.names
  dtable[, (new.names) := transpose(lapply(get(var.name), FUN = function(x){x == levels(get(var.name))})) ]

  cat(paste("\nDodano zmienne dummy: ", paste0(new.names, collapse = ", ")))
}

การใช้งาน:

data <- data.table(data)
data[, x:= droplevels(x)]
factorToDummy(data, "x")


0

สวัสดีฉันเขียนฟังก์ชันทั่วไปนี้เพื่อสร้างตัวแปรจำลองซึ่งโดยพื้นฐานแล้วจะจำลองฟังก์ชันแทนที่ใน Stata

ถ้า x คือ data frame คือ x และฉันต้องการให้ตัวแปร dummy เรียกว่าaซึ่งจะรับค่า1เมื่อx$bใช้ค่าc

introducedummy<-function(x,a,b,c){
   g<-c(a,b,c)
  n<-nrow(x)
  newcol<-g[1]
  p<-colnames(x)
  p2<-c(p,newcol)
  new1<-numeric(n)
  state<-x[,g[2]]
  interest<-g[3]
  for(i in 1:n){
    if(state[i]==interest){
      new1[i]=1
    }
    else{
      new1[i]=0
    }
  }
    x$added<-new1
    colnames(x)<-p2
    x
  }

0

เรายังสามารถใช้cSplit_eจากsplitstackshape. ใช้ข้อมูลของ @ zx8754

df1 <- data.frame(id = 1:4, year = 1991:1994)
splitstackshape::cSplit_e(df1, "year", fill = 0)

#  id year year_1 year_2 year_3 year_4
#1  1 1991      1      0      0      0
#2  2 1992      0      1      0      0
#3  3 1993      0      0      1      0
#4  4 1994      0      0      0      1

ที่จะทำให้การทำงานสำหรับข้อมูลอื่น ๆ กว่าความจำเป็นที่เราเป็นตัวเลขเพื่อระบุtypeเป็น"character"อย่างชัดเจน

df1 <- data.frame(id = 1:4, let = LETTERS[1:4])
splitstackshape::cSplit_e(df1, "let", fill = 0, type = "character")

#  id let let_A let_B let_C let_D
#1  1   A     1     0     0     0
#2  2   B     0     1     0     0
#3  3   C     0     0     1     0
#4  4   D     0     0     0     1
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.