1 개요[ | ]
- 머신러닝의 한 영역
- 컴퓨터가 주어진 상태(state)에 대해 최적의 행동(action)을 선택하는 학습방법
- 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법
- 에이전트가 시행착오를 통해 학습한다.
- 결정을 순서대로 해야 하는 문제에 적용할 수 있다.
- 강화 학습에서 다루는 '환경'은 주로 마르코프 결정 과정으로 주어진다.
- 입출력 쌍으로 이루어진 훈련 집합이 제시되지 않으며, 잘못된 행동에 대해서도 명시적으로 정정이 일어나지 않는다는 점에서 일반적인 지도 학습과 다르다.