토큰화

1 개요[ | ]

tokenization, tokenizing
token
토큰화, 토크나이징
  • 텍스트 데이터 전처리의 한 과정
  • 자연어 처리에서 중요 단계 중 하나
  • 텍스트를 작은 단위(토큰)로 분할하는 과정
  • 주어진 텍스트 데이터를 토큰 단위로 나누는 작업
  • 텍스트에 대해 특정 기준 단위로 문장을 나누는 것
주로 단어나 문장 등의 단위로 분할한다.
  • 문장을 단어 기준으로 나누거나 전체 글을 문장 단위로 나누는 것
  • 텍스트를 토큰 단위로 분할함으로써, 컴퓨터는 텍스트를 더 쉽게 이해하고 처리할 수 있게 된다.
  • 자연어 처리 작업에서는 주로 토크나이징된 텍스트를 기반으로 다양한 분석 및 모델링 작업을 수행한다.

2[ | ]

  • 입력: "나는 고양이를 좋아해"
  • 결과: ["나는", "고양이를", "좋아해"]

3 한국어 토큰화 방식[ | ]

  • 형태소 분리(전통적, 언어학 기반)
  • 형태소 분리 안함(데이터 처리 수월)
  • 통계적 자동화(예: SentencePiece )

4 같이 보기[ | ]

5 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}