"토큰화"의 두 판 사이의 차이

 
43번째 줄: 43번째 줄:
* {{리브레위키}}
* {{리브레위키}}


[[분류: 토크나이저]]
[[분류: 자연어 처리]]
[[분류: 자연어 처리]]
[[분류: 3음절 혼종어 명사]]
[[분류: 3음절 혼종어 명사]]
[[분류: 化]]
[[분류: 化]]

2024년 1월 25일 (목) 11:31 기준 최신판

1 개요[ | ]

tokenization, tokenizing
token
토큰화, 토크나이징
  • 텍스트 데이터 전처리의 한 과정
  • 자연어 처리에서 중요 단계 중 하나
  • 텍스트를 작은 단위(토큰)로 분할하는 과정
  • 주어진 텍스트 데이터를 토큰 단위로 나누는 작업
  • 텍스트에 대해 특정 기준 단위로 문장을 나누는 것
주로 단어나 문장 등의 단위로 분할한다.
  • 문장을 단어 기준으로 나누거나 전체 글을 문장 단위로 나누는 것
  • 텍스트를 토큰 단위로 분할함으로써, 컴퓨터는 텍스트를 더 쉽게 이해하고 처리할 수 있게 된다.
  • 자연어 처리 작업에서는 주로 토크나이징된 텍스트를 기반으로 다양한 분석 및 모델링 작업을 수행한다.

2[ | ]

  • 입력: "나는 고양이를 좋아해"
  • 결과: ["나는", "고양이를", "좋아해"]

3 한국어 토큰화 방식[ | ]

  • 형태소 분리(전통적, 언어학 기반)
  • 형태소 분리 안함(데이터 처리 수월)
  • 통계적 자동화(예: SentencePiece )

4 같이 보기[ | ]

5 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}