R TermDocumentMatrix 병합

Jmnote bot (토론 | 기여)님의 2021년 10월 18일 (월) 18:53 판 (봇: 자동으로 텍스트 교체 (-<source +<syntaxhighlight , -</source> +</syntaxhighlight>))

1 개요

R TermDocumentMatrix 병합
R tm_combine
R zTdmMerge()
  • tdm은 c()로 간단히 병합할 수 있는데, Doc번호가 겹치기 때문에 약간의 수정이 필요하다.
  • 공식문서에는 'tm_combine'라는 제목이 달려 있지만 실제로 그런 이름의 함수가 있는 것은 아니다.
library(tm) # TermDocumentMatrix()

zTdmMerge = function(tdm1, tdm2) {
  colnames(tdm2) = as.numeric(colnames(tdm2)) + ncol(tdm1)
  return(c(tdm1,tdm2))
}

#### tdm1
docs1 = c("안녕, 안녕.", "반갑다, 친구들.", "반갑다, 친구야, 친구야")
## docs1 = iconv(docs1, "CP949", "UTF-8") ## 윈도우 R스튜디오 하드코딩 데이터입력시 인코딩 변환
tdm1 = TermDocumentMatrix(Corpus(VectorSource(docs1)),control=list(removePunctuation=T,stopwords=F))
inspect(tdm1)
#### tdm2
docs2 = c("안녕, 안녕.", "우리는 친구야.")
## docs2 = iconv(docs2, "CP949", "UTF-8") ## 윈도우 R스튜디오 하드코딩 데이터입력시 인코딩 변환
tdm2 = TermDocumentMatrix(Corpus(VectorSource(docs2)),control=list(removePunctuation=T,stopwords=F))
inspect(tdm2)
#### tdm1과 tdm2를 병합하여 tdm3 생성
tdm3 = zTdmMerge(tdm1, tdm2)
inspect(tdm3)

2 같이 보기

3 참고

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}