"랜덤 포레스트"의 두 판 사이의 차이

 
(같은 사용자의 중간 판 22개는 보이지 않습니다)
1번째 줄: 1번째 줄:
==개요==
==개요==
;[[random]] [[forest]]
;[[random]] [[forest]], random forests, random decision forests
;랜덤 포레스트
;랜덤 포레스트, 랜덤 결정 포레스트
* 다수의 결정 트리들을 학습하는 [[앙상블 방법]]
* 배깅의 원리 + input에 무작위성을 추가한 것
* [[배깅]]된 트리들(bagged trees)을 decorrelating하는 것
* [[배깅]]된 트리들(bagged trees)을 decorrelating하는 것
* 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종
* 분류, 회귀 분석 등에 사용되는 [[앙상블 학습 방법]]의 일종
* 훈련 과정에서 구성한 다수의 결정 트리로부터 부류(분류) 또는 평균 예측치(회귀 분석)를 출력함으로써 동작함
* 결정트리를 여러 개 만들고 통합하여 예측 성능을 향상시키는 것
* 샘플도 랜덤 추출, 변수도 랜덤 추출
 
[[File:Random_forest_diagram_complete.png|440px]]
 
==특징==
* 샘플도 랜덤 추출하고, 변수도 랜덤 추출한다.
* 분류에 활용되는 경우가 많지만, 회귀에도 활용 가능하다.
* 랜덤성(randomness)에 의해 트리들이 서로 조금씩 다른 특성을 갖는다.
* 훈련 과정에서 구성한 다수의 결정 트리로부터 분류 또는 평균 예측치(회귀 분석)를 출력함으로써 작동한다.
: 멀티코어 환경에서 여러 결정트리를 병렬로 처리하여 빠른 처리가 가능하다.
* 랜덤화(randomization)는 포레스트가 노이즈가 포함된 데이터에 대해서도 강인하게 만들어 준다.
* 이 특성은 각 트리들의 예측(prediction)들이 비상관화(decorrelation)되게 하여, 결과적으로 일반화(generalization) 성능을 향상시킨다.
* 랜덤화는 각 트리들의 훈련 과정에서 진행되며, 랜덤 학습 데이터 추출 방법을 이용한 앙상블 학습법인 배깅(bagging)과 랜덤 노드 최적화(randomized node optimization)가 자주 사용된다.
* 이 두 가지 방법은 서로 동시에 사용되어 랜덤화 특성을 더욱 증진시킬 수 있다.
 
==주요 파라미터==
* 포레스트의 크기(트리의 개수)
* 최대 허용 깊이
* 임의성의 정도와 종류
* 노드 분할 함수 선택
* 훈련 목적 함수 정의
* 실제 적용에서의 특성 벡터 선택
 
==k-NN과의 관계==
{{참고|랜덤 포레스트와 k-NN의 관계}}


==같이 보기==
==같이 보기==
* [[결정 트리 학습법]]
{{z컬럼3|
* [[부스팅]]
* [[기계 학습]]
* [[비모수 통계]]
* [[경사 부스팅]](gradient boosting)
* [[결정 트리 학습]]
* [[랜덤 부분공간 방법]](random subspace method)
* [[나이브 베이즈 분류]]
* [[k-최근접 이웃 알고리즘|''k''-최근접 이웃 알고리즘]]
* [[k-최근접 이웃 알고리즘|''k''-최근접 이웃 알고리즘]]
* [[나이브 베이즈 분류]]
}}
* [[비모수 통계]]
* [[기계 학습]]


==참고==
==참고==
19번째 줄: 49번째 줄:
* {{네이버백과}}
* {{네이버백과}}


[[분류:랜덤 포레스트]]
[[분류: 머신러닝]]
[[분류: 머신러닝]]
[[분류: 분류 알고리즘]]
[[분류: 분류 알고리즘]]
[[분류: 결정 트리]]
[[분류: 결정 트리]]

2020년 12월 18일 (금) 23:04 기준 최신판

1 개요[ | ]

random forest, random forests, random decision forests
랜덤 포레스트, 랜덤 결정 포레스트
  • 다수의 결정 트리들을 학습하는 앙상블 방법
  • 배깅의 원리 + input에 무작위성을 추가한 것
  • 배깅된 트리들(bagged trees)을 decorrelating하는 것
  • 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종
  • 결정트리를 여러 개 만들고 통합하여 예측 성능을 향상시키는 것

440px

2 특징[ | ]

  • 샘플도 랜덤 추출하고, 변수도 랜덤 추출한다.
  • 분류에 활용되는 경우가 많지만, 회귀에도 활용 가능하다.
  • 랜덤성(randomness)에 의해 트리들이 서로 조금씩 다른 특성을 갖는다.
  • 훈련 과정에서 구성한 다수의 결정 트리로부터 분류 또는 평균 예측치(회귀 분석)를 출력함으로써 작동한다.
멀티코어 환경에서 여러 결정트리를 병렬로 처리하여 빠른 처리가 가능하다.
  • 랜덤화(randomization)는 포레스트가 노이즈가 포함된 데이터에 대해서도 강인하게 만들어 준다.
  • 이 특성은 각 트리들의 예측(prediction)들이 비상관화(decorrelation)되게 하여, 결과적으로 일반화(generalization) 성능을 향상시킨다.
  • 랜덤화는 각 트리들의 훈련 과정에서 진행되며, 랜덤 학습 데이터 추출 방법을 이용한 앙상블 학습법인 배깅(bagging)과 랜덤 노드 최적화(randomized node optimization)가 자주 사용된다.
  • 이 두 가지 방법은 서로 동시에 사용되어 랜덤화 특성을 더욱 증진시킬 수 있다.

3 주요 파라미터[ | ]

  • 포레스트의 크기(트리의 개수)
  • 최대 허용 깊이
  • 임의성의 정도와 종류
  • 노드 분할 함수 선택
  • 훈련 목적 함수 정의
  • 실제 적용에서의 특성 벡터 선택

4 k-NN과의 관계[ | ]

5 같이 보기[ | ]

6 참고[ | ]