결정트리 학습

(결정트리 분석에서 넘어옴)

1 개요[ | ]

decision tree learning
결정 트리 학습법, 결정트리 분석, 결정나무 분석, 트리분석
  • 트리의 노드 수가 증가할수록 학습데이터에 대한 정확도는 향상되는 경향이 있다.
반면, 테스트데이터에 대한 정확도는 떨어질 수 있다. (과적합)

Decision Tree.jpg

Cart tree kyphosis.png

2 장점[ | ]

  • 결과를 해석하고 이해하기 쉽다.
    • 다른 접근방식에 비해 사람의 의사결정과 비슷하다.
  • 수치 자료와 범주 자료 모두에 적용할 수 있다.
  • 자료를 가공할 필요가 거의 없다.
  • 화이트박스 또는 오픈박스 모델을 사용한다.
  • 통계검정으로 모델을 검증할 수 있다.
  • 큰 데이터셋도 잘 처리한다.
  • 공선성에 강하다(robust, 특히 부스팅).
  • 불 함수XOR로 근사(approximate)할 수 있다.

3 제한점[ | ]

  • 트리가 매우 약할 수 있다(non-robust).
    • 훈련 데이터가 조금만 바뀌어도 결과가 크게 바뀔 수 있다.
  • 최적의 결정트리를 학습하는 문제는 NP-완전한 것으로 알려져 있다.
    • 각 노드에서 지역적 최적을 추구하는, 탐욕 알고리즘 같은 휴리스틱 기반이다.
    • 전체적 최적이라는 보장이 없다.
  • 잘 일반화되지 않는 지나치게 복잡한 트리(과적합)를 만들 수 있다.
    • 단, 가지치기(pruning) 등의 방법으로 해소할 수 있다.
  • 범주형 변수의 경우, 사례가 더 많은 쪽으로 편향될 수 있다.
    • 단, 조건부 추론접근법, 2단계 접근법, 적응적 leave-one-out 특성 선택(adaptive leave-one-out feature selection) 등으로 방지할 수 있다.

4 같이 보기[ | ]

5 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}