Published on

๐Ÿ“–STUDY ๊ฐ•ํ™”ํ•™์Šต ์ž…๋ฌธ ํŒŒ์ด์ฌ ์˜ˆ์ œ์™€ ํ•จ๊ป˜ํ•˜๋Š” | MDP์™€ ๋‹ค์ด๋‚ด๋ฏน ํ”„๋กœ๊ทธ๋ž˜๋ฐ

๋Œ€๋ถ€๋ถ„์˜ ๊ฐ•ํ™”ํ•™์Šต ๋ฌธ์ œ๋Š” MDP๋กœ ๋ชจ๋ธ๋ง์ด ๊ฐ€๋Šฅํ•˜๋‹ค. MDP์˜ ํ•ด๋Š” ๊ณง ์ตœ์ ์˜ ์ •์ฑ…ํ•จ์ˆ˜์™€ ์ตœ์  ๊ฐ€์น˜ํ•จ์ˆ˜์ด๋‹ค.

๋งˆ์ฝ”ํ”„ ํ”„๋กœ์„ธ์Šค

๊ธฐ์กด ๊ฐ•ํ™”ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ์•„๋ž˜ ์š”์†Œ๋“ค๋กœ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋‹ค.

  • Markov property/chain: ๋ฏธ๋ž˜์˜ ์ƒํƒœ๊ฐ€ ์˜ค๋กœ์ง€ ํ˜„์žฌ ์ƒํƒœ์—๋งŒ ์˜์กดํ•œ๋‹ค.
  • transition: ํ•œ ์ƒํƒœ์—์„œ ๋‹ค๋ฅธ ์ƒํƒœ๋กœ ์˜ฎ๊ฒจ๊ฐ€๋Š” ๊ฒƒ, ์–ด๋–ค ํ–‰๋™์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ์ƒํƒœ s์—์„œ ๋‹ค๋ฅธ s+1๋กœ ์˜ฎ๊ฒจ๊ฐ€๋Š” ํ™•๋ฅ ์ด ์ „์ด ํ™•๋ฅ ์ด๋ผ๊ณ  ํ•œ๋‹ค.
  • discount factor: ํ˜„์žฌ์™€ ๋ฏธ๋ž˜์˜ ๋ณด์ƒ์— ๋Œ€ํ•œ ์ค‘์š”๋„๋ฅผ ์ œ์–ด

Termniology

  • episodic task: ๋์ด ์žˆ๋Š” ์ž‘์—…. ์—์ด์ „ํŠธ์˜ ์ƒํ˜ธ์ž‘์šฉ์„ episode๋ผ๊ณ  ์ผ์ปซ๋Š”๋‹ค.
  • continuous task: ๋์ด ์—†๋Š” ์ž‘์—….
  • policy function ฯ€:Sโ†’A\pi: S โ†’ A: ์ตœ์  ์ •์ฑ… ์ฐพ๋Š” ๊ฒƒ์ด ์ตœ์ข… ๋ชฉํ‘œ

๋ณด์ƒ๊ณผ ์ด๋ˆ„์ ๋ณด์ƒ

๋ณด์ƒ์€ ํ–‰๋™์˜ ์ข‹๊ณ  ๋‚˜์จ์„ ํŒ๋ณ„ํ•˜๋Š” ๊ธฐ์ค€์ด ๋œ๋‹ค. ์ด ๋•Œ ์—์ด์ „ํŠธ ์ตœ๋Œ€ํ•œ ์ข‹์€ ๋ณด์ƒ์„ ์–ป๊ธฐ ์œ„ํ•ด ๋ณด์ƒ์˜ ์ดํ•ฉ์„ ์ตœ๋Œ€ํ™” ํ•œ๋‹ค.

Gt=โˆ‘k=0โˆžฮณkRt+k+1G_t = \sum_{k=0}^\infty \gamma^k R_{t+k+1}

์—ฌ๊ธฐ์„œ ๊ฐ๋งˆฮณ\gamma๊ฐ€ ๊ณง ๊ฐ๊ฐ€์œจ์ธ๋ฐ, ๊ฐ๊ฐ€์œจ์€ ์—ฐ์† ์ž‘์—…, ์ฆ‰ ๋์ด ์—†๋Š” ๋ฌธ์ œ์—์„œ ๋ˆ„์  ๋ณด์ƒ์„ ์ •์˜ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ฒ”์œ„๋Š” ๋ณดํ†ต 0~1์ธ๋ฐ, 0์ผ ์ˆ˜๋ก, ํ˜„์žฌ ๋ณด์ƒ์„ 1์€ ๋ฏธ๋ž˜๋ณด์ƒ์ด ์ค‘์š”ํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ํ˜„์žฌ๋ณด๋‹จ ๋ฏธ๋ž˜์˜ ๋” ์ข‹์€ ๋ณด์ƒ์„ ์ฐพ์•„ ๋Š์ž„์—†์ด ํ•™์Šตํ•œ๋‹ค.

๋ฌด์กฐ๊ฑด ๋ฏธ๋ž˜ ๋ณด์ƒ์ด ์ข‹๊ฒŒ ์„ค์ •ํ•˜๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ ๋ฌธ์ œ์— ๋”ฐ๋ผ ๊ฐ๊ฐ€์œจ์„ ์„ค์ •ํ•˜๋ฉด ๋œ๋‹ค.

๋ฒจ๋งŒ ๋ฐฉ์ •์‹

  • ์ƒํƒœ ๊ฐ€์น˜ํ•จ์ˆ˜: V(s)=Eฯ€[โˆ‘k=0โˆžฮณkRt+k+1โ€‰โˆฃโ€‰St=s]V(s) = \mathbb{E}_\pi \left[ \sum_{k=0}^\infty \gamma^k R_{t+k+1} \,|\, S_t = s \right]
  • ์ƒํƒœ-ํ–‰๋™ ๊ฐ€์น˜ํ•จ์ˆ˜(Q function): Q(s,a)=Eฯ€[โˆ‘k=0โˆžฮณkRt+k+1โ€‰โˆฃโ€‰St=s,At=a]Q(s, a) = \mathbb{E}_\pi \left[ \sum_{k=0}^\infty \gamma^k R_{t+k+1} \,|\, S_t = s, A_t = a \right]

๋ฒจ๋งŒ ๋ฐฉ์ •์‹์€ ์•„๋ž˜์™€ ๊ฐ™์ด ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

Vโˆ—(s)=maxโกaE[r(s,a)+ฮณVโˆ—(sโ€ฒ)]V^*(s) = \max_a \mathbb{E} \left[ r(s,a) + \gamma V^*(s^{'}) \right] Qโˆ—(s,a)=E[r(s,a)+ฮณmaxโกaโ€ฒQฯ€(sโ€ฒ,aโ€ฒ)]Q^*(s,a) = \mathbb{E} \left[ r(s,a) + \gamma \max_{a^{'}} Q^{\pi}(s^{'}, a^{'})\right]

๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ํ’€์–ด์“ฐ๋ฉด, Qโˆ—(s,a)=Q^*(s,a) = ์ „์ดํ™•๋ฅ  _ (๋ณด์ƒํ™•๋ฅ  + ๊ฐ๊ฐ€์œจ _ ๋‹ค์Œ ์ƒํƒœ์˜ ๊ฐ€์น˜)๋กœ ์ •์˜ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ฐ ํ˜„ ์ƒํƒœ์—์„œ ๊ฐ€๋Šฅํ•œ ๋‹ค์Œ์ƒํƒœ์— ๋Œ€ํ•œ ๋ชจ๋“  ๊ฐ’๋“ค์˜ ํ•ฉ์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค. Q ํ…Œ์ด๋ธ”์—์„œ๋Š” ํ–‰๋™ ์ค‘ ๊ฐ€์žฅ ํฐ ๊ฐ’์œผ๋กœ ๊ธฐ๋ก๋œ๋‹ค.

๋‹ค์ด๋‚ด๋ฏน ํ”„๋กœ๊ทธ๋ž˜๋ฐ์„ ์ด์šฉํ•œ ๋ฒจ๋งŒ ๋ฐฉ์ •์‹์˜ ํ•ด

๋™์  ํ”„๋กœ๊ทธ๋ž˜๋ฐ์€ ๋ฌธ์ œ๋ฅผ ์—ฌ๋Ÿฌ๊ฐœ์˜ ํ•˜์œ„ ๋ฌธ์ œ๋กœ ๋‘์–ด ํ•˜์œ„ ๋ฌธ์ œ์˜ ํ•ด๋ฅผ ๊ตฌํ•˜๋ฉด์„œ ๋ฌธ์ œ์˜ ํ•ด๋ฅผ ์žฌํ™œ์šฉํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.

๊ฐ€์น˜ ์ดํ„ฐ๋ ˆ์ด์…˜ ๋ฐ ์ •์ฑ… ์ดํ„ฐ๋ ˆ์ด์…˜์„ ์ด์šฉํ•œ ์–ผ์Œํ˜ธ์ˆ˜ ๋ฌธ์ œ์˜ ํ’€์ด

๊ฐ€์น˜ ์ดํ„ฐ๋ ˆ์ด์…˜

  1. ๊ฐ€์น˜ํ•จ์ˆ˜๋ฅผ ์ž„์˜์˜ ๊ฐ’์œผ๋กœ ์ดˆ๊ธฐํ™”
  2. ๋ชจ๋“  ์ƒํƒœ ํ–‰๋™์— ๋Œ€ํ•œ Qํ•จ์ˆ˜ ๊ตฌํ•˜๊ธฐ
  3. ์ตœ๋Œ“๊ฐ’์œผ๋กœ ๊ฐ€์น˜ํ•จ์ˆ˜ ์—…๋ฐ์ดํŠธ
  4. ๊ฐ€์น˜ํ•จ์ˆ˜์˜ ๋ณ€ํ™”๊ฐ€ ์•„์ฃผ ์ž‘์„ ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณต

์ •์ฑ… ์ดํ„ฐ๋ ˆ์ด์…˜

์ž„์˜์˜ ์ •์ฑ…์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•˜๊ณ  ๊ทธ ์ •์ฑ…์— ๋”ฐ๋ผ ๊ฐ€์น˜ํ•จ์ˆ˜๋ฅผ ์ฐพ๋Š”๋‹ค.
๊ฐ€์น˜ํ•จ์ˆ˜๊ฐ€ ์ตœ์ ์ผ ๋•Œ๊นŒ์ง€ ์ƒˆ๋กœ์šด ์ •์ฑ…์„ ์ฐพ์œผ๋ฉด์„œ ๋ฐ˜๋ณตํ•œ๋‹ค.

  • policy evaluation: ํ˜„์žฌ ์ •์ฑ…์˜ ๊ฐ€์น˜ํ•จ์ˆ˜๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค
  • policy improvement: ๊ฐ€์น˜ํ•จ์ˆ˜ ํ‰๊ฐ€ ํ›„ ๋งŒ์•ฝ ์ตœ์ ์ด ์•„๋‹ˆ๋ฉด ์ƒˆ๋กœ์šด ์ •์ฑ…์œผ๋กœ ๊ฐœ์„ ํ•œ๋‹ค.
  1. ์ •์ฑ… ์ž„์˜์˜ ๊ฐ’์œผ๋กœ ์ดˆ๊ธฐํ™”
  2. ๊ฐ€์น˜ํ•จ์ˆ˜๊ฐ€ ์ตœ์ ์ธ์ง€ ํ‰๊ฐ€
  3. if ์ตœ์ , ์ตœ์  ์ •์ฑ… else, ์ •์ฑ… ๊ฐœ์„ 
  4. ์ตœ์ ์˜ ์ •์ฑ…์„ ์ฐพ์„ ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณต
Authors