말뭉치

1 개요[편집]

corpus, text corpus
말뭉치, 말모둠, 코퍼스 [kɔ́ːrpəs]
  • 어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치
  • 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합
  • 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료
  • 컴퓨터의 발달로 말뭉치 분석이 용이해졌으며 분석의 정확성을 위해 해당 자연언어를 형태소 분석하는 경우가 많음
  • 확률/통계적 기법과 시계열적인 접근으로 전체를 파악함
  • 언어의 빈도와 분포를 확인할 수 있는 자료이며, 현대 언어학 연구에 필수적인 자료
  • 매체, 시간, 공간, 주석 단계 등의 기준에 따라 다양한 종류가 있음

2 같이 보기[편집]

3 참고[편집]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}