"R TermDocumentMatrix 단어 병합"의 두 판 사이의 차이

잔글 (봇: 자동으로 텍스트 교체 (-<source +<syntaxhighlight , -</source> +</syntaxhighlight>))
8번째 줄: 8번째 줄:
** 정규식으로 잡히는 용어들을 하나로 병합(합산)한다.
** 정규식으로 잡히는 용어들을 하나로 병합(합산)한다.


<source lang='r' notebook hideerr>
<syntaxhighlight lang='r' notebook hideerr>
library(tm) # TermDocumentMatrix()
library(tm) # TermDocumentMatrix()


42번째 줄: 42번째 줄:
tdm1 = TermDocumentMatrix(Corpus(VectorSource(docs1)),control=list(removePunctuation=T,stopwords=F))
tdm1 = TermDocumentMatrix(Corpus(VectorSource(docs1)),control=list(removePunctuation=T,stopwords=F))
inspect(tdm1)
inspect(tdm1)
</source>
</syntaxhighlight>
<source lang='r' notebook>
<syntaxhighlight lang='r' notebook>
inspect(zTdmMergeTerms(tdm1,"반갑다","안녕"))
inspect(zTdmMergeTerms(tdm1,"반갑다","안녕"))
</source>
</syntaxhighlight>
<source lang='r' notebook>
<syntaxhighlight lang='r' notebook>
inspect(zTdmMergeTerms(tdm1,c("반갑다","안녕","친구야"),"인사"))
inspect(zTdmMergeTerms(tdm1,c("반갑다","안녕","친구야"),"인사"))
</source>
</syntaxhighlight>
<source lang='r' notebook>
<syntaxhighlight lang='r' notebook>
inspect(zTdmMergeTerms(tdm1,c("반갑다","안녕","친구야"),"안녕"))
inspect(zTdmMergeTerms(tdm1,c("반갑다","안녕","친구야"),"안녕"))
</source>
</syntaxhighlight>
<source lang='r' notebook>
<syntaxhighlight lang='r' notebook>
inspect(zTdmMergeTermsGrep(tdm1, "^친구", "친구"))
inspect(zTdmMergeTermsGrep(tdm1, "^친구", "친구"))
</source>
</syntaxhighlight>


==같이 보기==
==같이 보기==

2021년 10월 18일 (월) 18:56 판

1 개요

R TermDocumentMatrix 용어 병합
  • zTdmMergeTerms()
    • 1개 또는 여러 개의 기존용어(froms)를 하나의 신규용어(to)로 병합(합산)한다.
    • 새로운 용어(to)가 tdm 내에 있어도 되고 없어도 된다.
    • 기존용어(froms)에 to가 들어있는 경우 무시된다.
  • zTdmMergeTermsGrep()
    • 정규식으로 잡히는 용어들을 하나로 병합(합산)한다.
library(tm) # TermDocumentMatrix()

zTdmMergeTerms = function(tdm, froms, to) {
  froms = froms[froms!=to & froms %in% rownames(tdm)]
  if(length(froms)<1) return(tdm)
  if(!to %in% rownames(tdm)) {
    tdm$nrow = as.integer(tdm$nrow + 1)
    rownames(tdm) = append(rownames(tdm),to)
  }
  for(from in froms) {
    nms = rownames(tdm)
    t1 = tdm[which(nms==from),] + tdm[which(nms==to),]
    rownames(t1) = to
    t2 = tdm[which(nms!=from & nms !=to),]
    t1$i = t1$i + t2$nrow
    t2$i = c(t2$i, t1$i)
    t2$j = c(t2$j, t1$j)
    t2$v = c(t2$v, t1$v)
    t2$nrow = as.integer(t2$nrow + 1)
    rownames(t2) = append(rownames(t2),to)
    tdm = t2
  }
  return(tdm)
}
zTdmMergeTermsGrep = function(tdm, pattern, to) {
  return(zTdmMergeTerms(tdm, rownames(tdm)[grep(pattern,rownames(tdm))], to))
}

#### tdm1
docs1 = c("안녕, 안녕.", "반갑다, 친구들.", "반갑다, 친구야, 친구야")
## docs1 = iconv(docs1, "CP949", "UTF-8") ## 윈도우 R스튜디오 하드코딩 데이터입력시 인코딩 변환
tdm1 = TermDocumentMatrix(Corpus(VectorSource(docs1)),control=list(removePunctuation=T,stopwords=F))
inspect(tdm1)
inspect(zTdmMergeTerms(tdm1,"반갑다","안녕"))
inspect(zTdmMergeTerms(tdm1,c("반갑다","안녕","친구야"),"인사"))
inspect(zTdmMergeTerms(tdm1,c("반갑다","안녕","친구야"),"안녕"))
inspect(zTdmMergeTermsGrep(tdm1, "^친구", "친구"))

2 같이 보기

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}