구문주석
구문 주석 : 트리뱅크
- Syntactic Annotation : Treebank
- Geoffrey Leech & Elizabeth Eyes(1997)
- from the book Corpus Annotation(1997, Longman) Chapter 3
구문 주석
- 말뭉치에 문장의 구문 정보 구분 기호를 부착하는 것
- 기본적으로 구구조 분석, 어휘들 간의 의존관계 등이 이루어진 다음에 할 수 있다.
구문 주석의 목적
- 구문 분석기 개발 & 성능 향상
- 구문 주석된 말뭉치에 구문 분석기를 노출하여 학습시킴
- 구문 분석기를 테스트하고 평가하는 데이터로 활용
- 확률 구문분석기 : 말뭉치를 통해 규칙, 빈도, 문법정보 등을 주어 귀납적으로 구성한 구문분석기
- 사전적 정보의 추출
- 수작업으로 추출해야 했던 어휘, 연어, 격틀 등의 상대빈도와 분포를 자동으로 추출 가능
트리뱅크와 골격 구문 분석
- 트리뱅크 : 구문 분석 말뭉치
- 골격 구문 분석 : 입력의 편의를 위해 간소하게 수행하는 1차적인 구문 분석
- 구문 분석 계획 (Box 3.2)
- 구문 주석 기호의 종류 규정
- 구문 주석 기호의 정의
- 구문 주석 기호의 상세 설명과 용례
- 대표 트리유형 제시(헬싱키 말뭉치에서 채택)
- 구문 주석의 정확성
- 가능한 정확하게, 하지만 정답은 없음 : 사실상의 정답을 만들어나가는 과정
- 일관성 유지 : 매우 중요한 작업이나 언어 자체의 중의성 때문에 어쩔 수 없는 부분들도 존재
구문 주석의 다양한 사례
펜 트리뱅크 : 1차
- 1990-1992, 펜실베니아 대학, 미국
- 랭카스터 트리뱅크와 유사
- 가장 접근하기 쉽고 많이 활용된 트리뱅크
- 330만 어절(1997년 2월 현재)
- 100만 어절 이상이 브라운 말뭉치에서 나온 것
- 월 스트리트 저널이 다수를 차지하고 있는 등 약간 제한된 텍스트로 구성
펜 트리뱅크 : 2차
- 1992-
- 분류 태그 뿐 아니라 기능 태그를 포함
- 주어, 목적어 생략형을 추적
- 상호참조관계 추적(예 -self)
- 의미론적인 태그 추가
- 부사의 종류 확장, 등
네이메헌 트리뱅크
- 1980년대, 네이메헌 카톨릭 대학, 네덜란드
수잔 코퍼스
- 1995, 제프리 샘슨
- 랭카스터 트리뱅크와 유사하나 더욱 상세
- 수작업으로 이루어진 13만 어절
헬싱키 제약 문법
- 1995, 헬싱키 대학, 핀란드
- 말뭉치 데이터의 처리 방법에 중점
- 구구조 분석 트리가 아닌 중심어 의존 트리 방식 채택
같이 보기