구문주석

1 구문 주석 : 트리뱅크[ | ]

  • Syntactic Annotation : Treebank
    • Geoffrey Leech & Elizabeth Eyes(1997)
    • from the book Corpus Annotation(1997, Longman) Chapter 3

1.1 구문 주석[ | ]

  • 말뭉치에 문장의 구문 정보 구분 기호를 부착하는 것
  • 기본적으로 구구조 분석, 어휘들 간의 의존관계 등이 이루어진 다음에 할 수 있다.

1.1.1 구문 주석의 목적[ | ]

  • 구문 분석기 개발 & 성능 향상
    • 구문 주석된 말뭉치에 구문 분석기를 노출하여 학습시킴
    • 구문 분석기를 테스트하고 평가하는 데이터로 활용
    • 확률 구문분석기 : 말뭉치를 통해 규칙, 빈도, 문법정보 등을 주어 귀납적으로 구성한 구문분석기
  • 사전적 정보의 추출
    • 수작업으로 추출해야 했던 어휘, 연어, 격틀 등의 상대빈도와 분포를 자동으로 추출 가능

1.1.2 트리뱅크와 골격 구문 분석[ | ]

  • 트리뱅크 : 구문 분석 말뭉치
  • 골격 구문 분석 : 입력의 편의를 위해 간소하게 수행하는 1차적인 구문 분석
  • 구문 분석 계획 (Box 3.2)
    • 구문 주석 기호의 종류 규정
    • 구문 주석 기호의 정의
    • 구문 주석 기호의 상세 설명과 용례
  • 대표 트리유형 제시(헬싱키 말뭉치에서 채택)
  • 구문 주석의 정확성
    • 가능한 정확하게, 하지만 정답은 없음 : 사실상의 정답을 만들어나가는 과정
    • 일관성 유지 : 매우 중요한 작업이나 언어 자체의 중의성 때문에 어쩔 수 없는 부분들도 존재

1.2 구문 주석의 다양한 사례[ | ]

1.2.1 펜 트리뱅크 : 1차[ | ]

  • 1990-1992, 펜실베니아 대학, 미국
  • 랭카스터 트리뱅크와 유사
  • 가장 접근하기 쉽고 많이 활용된 트리뱅크
  • 330만 어절(1997년 2월 현재)
  • 100만 어절 이상이 브라운 말뭉치에서 나온 것
  • 월 스트리트 저널이 다수를 차지하고 있는 등 약간 제한된 텍스트로 구성

1.2.2 펜 트리뱅크 : 2차[ | ]

  • 1992-
  • 분류 태그 뿐 아니라 기능 태그를 포함
  • 주어, 목적어 생략형을 추적
  • 상호참조관계 추적(예 -self)
  • 의미론적인 태그 추가
  • 부사의 종류 확장, 등

1.2.3 네이메헌 트리뱅크[ | ]

  • 1980년대, 네이메헌 카톨릭 대학, 네덜란드

1.2.4 수잔 코퍼스[ | ]

  • 1995, 제프리 샘슨
  • 랭카스터 트리뱅크와 유사하나 더욱 상세
  • 수작업으로 이루어진 13만 어절

1.2.5 헬싱키 제약 문법[ | ]

  • 1995, 헬싱키 대학, 핀란드
  • 말뭉치 데이터의 처리 방법에 중점
  • 구구조 분석 트리가 아닌 중심어 의존 트리 방식 채택

1.3 같이 보기[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}