"결정트리 학습"의 두 판 사이의 차이

 
(같은 사용자의 중간 판 13개는 보이지 않습니다)
3번째 줄: 3번째 줄:
;결정 트리 학습법, 결정트리 분석, 결정나무 분석, 트리분석
;결정 트리 학습법, 결정트리 분석, 결정나무 분석, 트리분석
* 트리의 노드 수가 증가할수록 학습데이터에 대한 정확도는 향상되는 경향이 있다.
* 트리의 노드 수가 증가할수록 학습데이터에 대한 정확도는 향상되는 경향이 있다.
:반면, 테스트데이터에 대한 정확도는 떨어질 수 있다. (과적합)
[[File:Decision_Tree.jpg]]


[[파일:Cart_tree_kyphosis.png|800px]]
[[파일:Cart_tree_kyphosis.png|800px]]
==장점==
* 결과를 해석하고 이해하기 쉽다.
** 다른 접근방식에 비해 사람의 의사결정과 비슷하다.
* 수치 자료와 범주 자료 모두에 적용할 수 있다.
* 자료를 가공할 필요가 거의 없다.
* 화이트박스 또는 오픈박스 모델을 사용한다.
* 통계검정으로 모델을 검증할 수 있다.
* 큰 데이터셋도 잘 처리한다.
** [[특성 선택]]이 내재되어 있다.
* [[공선성]]에 강하다(robust, 특히 [[부스팅]]).
* [[불 함수]]나 [[XOR]]로 근사(approximate)할 수 있다.
==제한점==
* 트리가 매우 약할 수 있다(non-robust).
** 훈련 데이터가 조금만 바뀌어도 결과가 크게 바뀔 수 있다.
* 최적의 결정트리를 학습하는 문제는 NP-완전한 것으로 알려져 있다.
** 각 노드에서 지역적 최적을 추구하는, 탐욕 알고리즘 같은 휴리스틱 기반이다.
** 전체적 최적이라는 보장이 없다.
* 잘 일반화되지 않는 지나치게 복잡한 트리(과적합)를 만들 수 있다.
** 단, 가지치기(pruning) 등의 방법으로 해소할 수 있다.
* 범주형 변수의 경우, 사례가 더 많은 쪽으로 편향될 수 있다.
** 단, 조건부 추론접근법, 2단계 접근법, 적응적 leave-one-out 특성 선택(adaptive leave-one-out feature selection) 등으로 방지할 수 있다.


==같이 보기==
==같이 보기==
13번째 줄: 39번째 줄:
* [[결정 트리 vs 선형 모델]]
* [[결정 트리 vs 선형 모델]]
* [[R 결정트리]]
* [[R 결정트리]]
* [[앙상블 방법]]
* [[ID3 알고리즘]]
* [[C4.5 알고리즘]]
* [[랜덤 포레스트]]
* [[AdaBoosting]]
* [[계층적 클러스터링]]
}}
}}


==참고==
==참고==
* {{위키백과}}
* {{위키백과|결정 트리 학습법}}
* {{다음백과}}
* {{다음백과}}
* {{네이버백과}}
* {{네이버백과}}

2020년 12월 18일 (금) 23:41 기준 최신판

1 개요[ | ]

decision tree learning
결정 트리 학습법, 결정트리 분석, 결정나무 분석, 트리분석
  • 트리의 노드 수가 증가할수록 학습데이터에 대한 정확도는 향상되는 경향이 있다.
반면, 테스트데이터에 대한 정확도는 떨어질 수 있다. (과적합)

Decision Tree.jpg

Cart tree kyphosis.png

2 장점[ | ]

  • 결과를 해석하고 이해하기 쉽다.
    • 다른 접근방식에 비해 사람의 의사결정과 비슷하다.
  • 수치 자료와 범주 자료 모두에 적용할 수 있다.
  • 자료를 가공할 필요가 거의 없다.
  • 화이트박스 또는 오픈박스 모델을 사용한다.
  • 통계검정으로 모델을 검증할 수 있다.
  • 큰 데이터셋도 잘 처리한다.
  • 공선성에 강하다(robust, 특히 부스팅).
  • 불 함수XOR로 근사(approximate)할 수 있다.

3 제한점[ | ]

  • 트리가 매우 약할 수 있다(non-robust).
    • 훈련 데이터가 조금만 바뀌어도 결과가 크게 바뀔 수 있다.
  • 최적의 결정트리를 학습하는 문제는 NP-완전한 것으로 알려져 있다.
    • 각 노드에서 지역적 최적을 추구하는, 탐욕 알고리즘 같은 휴리스틱 기반이다.
    • 전체적 최적이라는 보장이 없다.
  • 잘 일반화되지 않는 지나치게 복잡한 트리(과적합)를 만들 수 있다.
    • 단, 가지치기(pruning) 등의 방법으로 해소할 수 있다.
  • 범주형 변수의 경우, 사례가 더 많은 쪽으로 편향될 수 있다.
    • 단, 조건부 추론접근법, 2단계 접근법, 적응적 leave-one-out 특성 선택(adaptive leave-one-out feature selection) 등으로 방지할 수 있다.

4 같이 보기[ | ]

5 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}