"R 그룹별 합 구하기"의 두 판 사이의 차이

2021년 11월 27일 (토) 02:24 기준 최신판

1 개요[ | ]

R 그룹별 합 구하기

대략 "SELECT fruit, SUM(ea) FROM df GROUP BY fruit"

df <- read.csv( header=T, stringsAsFactors=F, text="
day,fruit,ea
2019-06-01,apple,1
2019-06-11,apple,1
2019-06-21,banana,2
2019-07-01,apple,3
2019-07-11,banana,4
2019-08-25,orange,2
")
df

2 방법 1: aggregate ★[ | ]

aggregate(ea ~ fruit, df, sum)

3 방법 2: tapply[ | ]

tapply(df$ea, df$fruit, sum)

4 방법 3: sqldf[ | ]

library(sqldf)
sqldf("SELECT fruit, SUM(ea) AS s FROM df GROUP BY fruit")

5 같이 보기[ | ]

6 참고[ | ]

https://stackoverflow.com/questions/1660124/how-to-sum-a-variable-by-group

@@ 1번째 줄: / 1번째 줄: @@
 ==개요==
 ;R 그룹별 합 구하기
+* 대략 "SELECT fruit, SUM(ea) FROM df GROUP BY fruit"
-<source lang='r'>
+<syntaxhighlight lang='r' notebook>
-df <- read.csv( header=T, stringsAsFactors=FALSE, text="
+df <- read.csv( header=T, stringsAsFactors=F, text="
 day,fruit,ea
 -06-01,apple,1
@@ 12번째 줄: / 12번째 줄: @@
 -08-25,orange,2
 ")
+df
+</syntaxhighlight>
+==방법 1: aggregate ★==
+<syntaxhighlight lang='r' notebook>
 aggregate(ea ~ fruit, df, sum)
-##    fruit ea
+</syntaxhighlight>
-## 1  apple  5
-## 2 banana  6
-## 3 orange  2
+==방법 2: tapply==
+<syntaxhighlight lang='r' notebook>
 tapply(df$ea, df$fruit, sum)
-## apple banana orange
+</syntaxhighlight>
-##     5      6      2
-</source>
+==방법 3: sqldf==
+<syntaxhighlight lang='r' notebook hideerr>
+library(sqldf)
+sqldf("SELECT fruit, SUM(ea) AS s FROM df GROUP BY fruit")
+</syntaxhighlight>
 ==같이 보기==
 * [[R tapply()]]
 * [[R aggregate()]]
+* [[R 그룹별 평균 구하기]]
+* [[R 그룹별 건수 구하기]]
+* [[SQL 그룹별 합 구하기]]
 ==참고==
@@ 32번째 줄: / 42번째 줄: @@
 [[분류: R 데이터 전처리]]
+[[분류: R sqldf]]
+[[분류: R 그룹]]