📖STUDY 강화학습 입문 파이썬 예제와 함께하는 | 강화학습 소개

급하게 면접 준비로 톺아보는 시간을 갖기 위해 이 책을 급하게 꺼냈다..!
사실 대학원 가기전에 읽으려고 사놨는데, 어쩌다보니 4년 지나서 정리하게 되었다.
해당 포스트 시리즈는 내 생각을 주로 정리해놓은 것들이라 조금은 두서가 없을 수 있겠다.

강화학습이란?

보상을 주면서 어떤 행동을 유도(강화)하기 위한 학습이라고 보면된다.
사실 내 개인적인 생각으로 아래 Terminology만 잘 정리하고 이해하면 강화학습의 이해는 절반을 한 거나 마찬가지..라고 생각한다. 그래서 어떤 문제를 풀때, 아래와 같이 템플릿으로 문제를 정의를 할 수 있다.

Agent: 판단의 주체
Environment
- deterministic environment: 행동의 결과를 알 수 있다.(ex. 체스)
- stochastic environment: 행동의 결과를 알 수 없다.
- partially observable environment
- discrete environment
- continuous environment
- episodic/nonepisodic environment: 전자는 과거 행동에서 독립적이나 후자는 그렇지 않다.
- single and multi agent environment
Action: 결과에 따라 trial and error을 겪는다.
State: agent의 상태
Reward: action에 따른 보상 ➡ 해당 행동이 좋은지 나쁜지 판단의
- Exploit: 긍정적인 보상을 얻었다면 행동에 대한 활용을,
- Exploration: 부정적인 보상을 얻었다면 다른 행동을 탐험한다.

따라서 정리하면, environment에 agent가 있고, agent는 action을 하고 그에 따른 state로 표현이되고, 행동에 따른 reward를 얻음으로써 reward에 최대 이익이 되는 행동으로 이어진다. 이때 행동에 대한 기준은 policy function($\pi$), 특정 상태에서 얼마나 좋은지 평가하는 기준은 value function이 되겠다.