"결정트리 학습"의 두 판 사이의 차이

2020년 12월 18일 (금) 23:41 기준 최신판

1 개요[ | ]

decision tree learning
결정 트리 학습법, 결정트리 분석, 결정나무 분석, 트리분석

트리의 노드 수가 증가할수록 학습데이터에 대한 정확도는 향상되는 경향이 있다.

반면, 테스트데이터에 대한 정확도는 떨어질 수 있다. (과적합)

2 장점[ | ]

결과를 해석하고 이해하기 쉽다.
- 다른 접근방식에 비해 사람의 의사결정과 비슷하다.
수치 자료와 범주 자료 모두에 적용할 수 있다.
자료를 가공할 필요가 거의 없다.
화이트박스 또는 오픈박스 모델을 사용한다.
통계검정으로 모델을 검증할 수 있다.
큰 데이터셋도 잘 처리한다.
- 특성 선택이 내재되어 있다.
공선성에 강하다(robust, 특히 부스팅).
불 함수나 XOR로 근사(approximate)할 수 있다.

3 제한점[ | ]

트리가 매우 약할 수 있다(non-robust).
- 훈련 데이터가 조금만 바뀌어도 결과가 크게 바뀔 수 있다.
최적의 결정트리를 학습하는 문제는 NP-완전한 것으로 알려져 있다.
- 각 노드에서 지역적 최적을 추구하는, 탐욕 알고리즘 같은 휴리스틱 기반이다.
- 전체적 최적이라는 보장이 없다.
잘 일반화되지 않는 지나치게 복잡한 트리(과적합)를 만들 수 있다.
- 단, 가지치기(pruning) 등의 방법으로 해소할 수 있다.
범주형 변수의 경우, 사례가 더 많은 쪽으로 편향될 수 있다.
- 단, 조건부 추론접근법, 2단계 접근법, 적응적 leave-one-out 특성 선택(adaptive leave-one-out feature selection) 등으로 방지할 수 있다.

4 같이 보기[ | ]

5 참고[ | ]

@@ 3번째 줄: / 3번째 줄: @@
 ;결정 트리 학습법, 결정트리 분석, 결정나무 분석, 트리분석
 * 트리의 노드 수가 증가할수록 학습데이터에 대한 정확도는 향상되는 경향이 있다.
+:반면, 테스트데이터에 대한 정확도는 떨어질 수 있다. (과적합)
+[[File:Decision_Tree.jpg]]
 [[파일:Cart_tree_kyphosis.png|800px]]
+==장점==
+* 결과를 해석하고 이해하기 쉽다.
+** 다른 접근방식에 비해 사람의 의사결정과 비슷하다.
+* 수치 자료와 범주 자료 모두에 적용할 수 있다.
+* 자료를 가공할 필요가 거의 없다.
+* 화이트박스 또는 오픈박스 모델을 사용한다.
+* 통계검정으로 모델을 검증할 수 있다.
+* 큰 데이터셋도 잘 처리한다.
+** [[특성 선택]]이 내재되어 있다.
+* [[공선성]]에 강하다(robust, 특히 [[부스팅]]).
+* [[불 함수]]나 [[XOR]]로 근사(approximate)할 수 있다.
+==제한점==
+* 트리가 매우 약할 수 있다(non-robust).
+** 훈련 데이터가 조금만 바뀌어도 결과가 크게 바뀔 수 있다.
+* 최적의 결정트리를 학습하는 문제는 NP-완전한 것으로 알려져 있다.
+** 각 노드에서 지역적 최적을 추구하는, 탐욕 알고리즘 같은 휴리스틱 기반이다.
+** 전체적 최적이라는 보장이 없다.
+* 잘 일반화되지 않는 지나치게 복잡한 트리(과적합)를 만들 수 있다.
+** 단, 가지치기(pruning) 등의 방법으로 해소할 수 있다.
+* 범주형 변수의 경우, 사례가 더 많은 쪽으로 편향될 수 있다.
+** 단, 조건부 추론접근법, 2단계 접근법, 적응적 leave-one-out 특성 선택(adaptive leave-one-out feature selection) 등으로 방지할 수 있다.
 ==같이 보기==
@@ 13번째 줄: / 39번째 줄: @@
 * [[결정 트리 vs 선형 모델]]
 * [[R 결정트리]]
+* [[앙상블 방법]]
+* [[ID3 알고리즘]]
+* [[C4.5 알고리즘]]
+* [[랜덤 포레스트]]
+* [[AdaBoosting]]
+* [[계층적 클러스터링]]
 }}
 ==참고==
-* {{위키백과}}
+* {{위키백과|결정 트리 학습법}}
 * {{다음백과}}
 * {{네이버백과}}