위키

포럼

도구

"토큰화"의 두 판 사이의 차이

2024-01-25

편집

역링크

토론

2024년 1월 25일 (목) 11:31 기준 최신판

1 개요[ | ]

tokenization, tokenizing
token 化
토큰화, 토크나이징

텍스트 데이터 전처리의 한 과정
자연어 처리에서 중요 단계 중 하나
텍스트를 작은 단위(토큰)로 분할하는 과정
주어진 텍스트 데이터를 토큰 단위로 나누는 작업
텍스트에 대해 특정 기준 단위로 문장을 나누는 것

주로 단어나 문장 등의 단위로 분할한다.

문장을 단어 기준으로 나누거나 전체 글을 문장 단위로 나누는 것
텍스트를 토큰 단위로 분할함으로써, 컴퓨터는 텍스트를 더 쉽게 이해하고 처리할 수 있게 된다.
자연어 처리 작업에서는 주로 토크나이징된 텍스트를 기반으로 다양한 분석 및 모델링 작업을 수행한다.

2 예[ | ]

입력: "나는 고양이를 좋아해"
결과: ["나는", "고양이를", "좋아해"]

3 한국어 토큰화 방식[ | ]

형태소 분리(전통적, 언어학 기반)
형태소 분리 안함(데이터 처리 수월)
통계적 자동화(예: SentencePiece )

4 같이 보기[ | ]

5 참고[ | ]

원본 주소 "https://zetawiki.com/w/index.php?title=토큰화&oldid=892344"

수정 2024-01-25 생성 2024-01-04

편집자

문서 댓글 ({{ doc_comments.length }})

{{ comment.name }} {{ comment.created | snstime }}

분류 댓글:
{{cat.name.replace(/_/g,' ')}} ({{cat.cnt}})

{{comment.page_title}}
― {{comment.name}}

CC-BY-SA 3.0 · Powered by MediaWiki

개인정보처리방침 · ABOUT