인간 피드백을 통한 강화 학습

1 개요[ | ]

reinforcement learning from human feedback (RLHF)
인간 피드백을 통한 강화 학습
  • 인간의 피드백으로부터 직접 '보상 모델'을 학습시키고, 해당 모델을 보상 함수로 사용하여 근거리 정책 최적화(Proximal Policy Optimization)와 같은 최적화 알고리즘을 통해 강화 학습(RL)을 사용하여 에이전트의 정책을 최적화하는 기술

2 같이 보기[ | ]

3 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}