R dummy_cols()

1 개요[ | ]

R dummy_cols()

"Fast Creation Of Dummy Variables → 빠른 가변수 생성"

2 예제 1[ | ]

library("fastDummies")
iris
##     Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1            5.1         3.5          1.4         0.2  setosa
## 2            4.9         3.0          1.4         0.2  setosa
## ...
## 149          6.2         3.4          5.4         2.3 virginica
## 150          5.9         3.0          5.1         1.8 virginica

dummy_cols(iris)
##     Sepal.Length Sepal.Width Petal.Length Petal.Width   Species Species_setosa Species_versicolor Species_virginica
## 1            5.1         3.5          1.4         0.2    setosa              1                  0                 0
## 2            4.9         3.0          1.4         0.2    setosa              1                  0                 0
## ...
## 149          6.2         3.4          5.4         2.3 virginica              0                  0                 1
## 150          5.9         3.0          5.1         1.8 virginica              0                  0                 1

3 예제 2[ | ]

library("fastDummies")
df <- data.frame(
  sex = c("남자", "남자", "여자", "여자", "여자"),
  edu = c("고졸", "대졸", "고졸", "대졸", "석박사"),
  score = c(60, 70, 80, 90, 100)
)
df
##    sex    edu score
## 1 남자   고졸    60
## 2 남자   대졸    70
## 3 여자   고졸    80
## 4 여자   대졸    90
## 5 여자 석박사   100

dummy_cols(df)
##    sex    edu score sex_남자 sex_여자 edu_고졸 edu_대졸 edu_석박사
## 1 남자   고졸    60        1        0        1        0          0
## 2 남자   대졸    70        1        0        0        1          0
## 3 여자   고졸    80        0        1        1        0          0
## 4 여자   대졸    90        0        1        0        1          0
## 5 여자 석박사   100        0        1        0        0          1

dummy_cols(df, select_columns = c("sex"))
##    sex    edu score sex_남자 sex_여자
## 1 남자   고졸    60        1        0
## 2 남자   대졸    70        1        0
## 3 여자   고졸    80        0        1
## 4 여자   대졸    90        0        1
## 5 여자 석박사   100        0        1

dummy_cols(df, select_columns = c("sex", "edu"), remove_first_dummy = TRUE)
##    sex    edu score sex_여자 edu_대졸 edu_석박사
## 1 남자   고졸    60        0        0          0
## 2 남자   대졸    70        0        1          0
## 3 여자   고졸    80        1        0          0
## 4 여자   대졸    90        1        1          0
## 5 여자 석박사   100        1        0          1

4 같이 보기[ | ]

5 참고[ | ]

https://www.rdocumentation.org/packages/fastDummies/versions/1.4.0/topics/dummy_cols