Q-러닝

1 개요[ | ]

Q-learning
Q 러닝, Q-러닝, Q학습
  • 강화학습의 일종
  • 모델 없이 학습하는 강화학습 기법
  • 개념 자체는 오래 전부터 있었음
'Q-러닝'이라는 이름으로 정리된 것은 1989년 크리스 와토킨즈(Chris Watkins)의 논문
  • 유한 마르코프 결정과정에서 모든 상태를 충분히 추출할 수 있는 에피소드를 무한번 시행할 경우 최적의 값에 도달한다는 것이 이론적으로 증명되었다.
실제의 문제에서 이 조건을 충족시키기는 쉽지 않다.

2 같이 보기[ | ]

3 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}