📖STUDY 강화학습 입문 파이썬 예제와 함께하는 | MDP와 다이내믹 프로그래밍

대부분의 강화학습 문제는 MDP로 모델링이 가능하다. MDP의 해는 곧 최적의 정책함수와 최적 가치함수이다.

마코프 프로세스

기존 강화학습 프레임워크에서 아래 요소들로 확장할 수 있다.

Markov property/chain: 미래의 상태가 오로지 현재 상태에만 의존한다.
transition: 한 상태에서 다른 상태로 옮겨가는 것, 어떤 행동을 수행하여 상태 s에서 다른 s+1로 옮겨가는 확률이 전이 확률이라고 한다.
discount factor: 현재와 미래의 보상에 대한 중요도를 제어

Termniology

episodic task: 끝이 있는 작업. 에이전트의 상호작용을 episode라고 일컫는다.
continuous task: 끝이 없는 작업.
policy function $\pi: S → A$ : 최적 정책 찾는 것이 최종 목표

보상과 총누적보상

보상은 행동의 좋고 나쁨을 판별하는 기준이 된다. 이 때 에이전트 최대한 좋은 보상을 얻기 위해 보상의 총합을 최대화 한다.

$G_t = \sum_{k=0}^\infty \gamma^k R_{t+k+1}$

여기서 감마 $\gamma$ 가 곧 감가율인데, 감가율은 연속 작업, 즉 끝이 없는 문제에서 누적 보상을 정의할 수 있다. 범위는 보통 0~1인데, 0일 수록, 현재 보상을 1은 미래보상이 중요함을 시사한다. 따라서 현재보단 미래의 더 좋은 보상을 찾아 끊임없이 학습한다.

무조건 미래 보상이 좋게 설정하는 게 아니라 문제에 따라 감가율을 설정하면 된다.

벨만 방정식

상태 가치함수: $V(s) = \mathbb{E}_\pi \left[ \sum_{k=0}^\infty \gamma^k R_{t+k+1} \,|\, S_t = s \right]$
상태-행동 가치함수(Q function): $Q(s, a) = \mathbb{E}_\pi \left[ \sum_{k=0}^\infty \gamma^k R_{t+k+1} \,|\, S_t = s, A_t = a \right]$

벨만 방정식은 아래와 같이 표현할 수 있다.

V^*(s) = \max_a \mathbb{E} \left[ r(s,a) + \gamma V^*(s^{'}) \right]

Q^*(s,a) = \mathbb{E} \left[ r(s,a) + \gamma \max_{a^{'}} Q^{\pi}(s^{'}, a^{'})\right]

다른 방식으로 풀어쓰면, $Q^*(s,a) =$ 전이확률 _ (보상확률 + 감가율 _ 다음 상태의 가치)로 정의할 수 있다. 각 현 상태에서 가능한 다음상태에 대한 모든 값들의 합이라고 볼 수 있다. Q 테이블에서는 행동 중 가장 큰 값으로 기록된다.

벨만 방정식 유도

다이내믹 프로그래밍을 이용한 벨만 방정식의 해

동적 프로그래밍은 문제를 여러개의 하위 문제로 두어 하위 문제의 해를 구하면서 문제의 해를 재활용하는 방식이다.

가치 이터레이션 및 정책 이터레이션을 이용한 얼음호수 문제의 풀이

가치 이터레이션

가치함수를 임의의 값으로 초기화
모든 상태 행동에 대한 Q함수 구하기
최댓값으로 가치함수 업데이트
가치함수의 변화가 아주 작을 때까지 반복

정책 이터레이션

임의의 정책으로 초기화하고 그 정책에 따라 가치함수를 찾는다.
가치함수가 최적일 때까지 새로운 정책을 찾으면서 반복한다.

policy evaluation: 현재 정책의 가치함수를 평가한다
policy improvement: 가치함수 평가 후 만약 최적이 아니면 새로운 정책으로 개선한다.

정책 임의의 값으로 초기화
가치함수가 최적인지 평가
if 최적, 최적 정책 else, 정책 개선
최적의 정책을 찾을 때까지 반복