Published on

πŸ“–STUDY κ°•ν™”ν•™μŠ΅ μž…λ¬Έ 파이썬 μ˜ˆμ œμ™€ ν•¨κ»˜ν•˜λŠ” | κ°•ν™”ν•™μŠ΅ μ†Œκ°œ

κΈ‰ν•˜κ²Œ λ©΄μ ‘ μ€€λΉ„λ‘œ ν†Ίμ•„λ³΄λŠ” μ‹œκ°„μ„ κ°–κΈ° μœ„ν•΄ 이 책을 κΈ‰ν•˜κ²Œ κΊΌλƒˆλ‹€..!
사싀 λŒ€ν•™μ› 가기전에 읽으렀고 μ‚¬λ†¨λŠ”λ°, μ–΄μ©Œλ‹€λ³΄λ‹ˆ 4λ…„ μ§€λ‚˜μ„œ μ •λ¦¬ν•˜κ²Œ λ˜μ—ˆλ‹€.
ν•΄λ‹Ή 포슀트 μ‹œλ¦¬μ¦ˆλŠ” λ‚΄ 생각을 주둜 정리해놓은 것듀이라 μ‘°κΈˆμ€ λ‘μ„œκ°€ 없을 수 μžˆκ² λ‹€.

κ°•ν™”ν•™μŠ΅μ΄λž€?

보상을 μ£Όλ©΄μ„œ μ–΄λ–€ 행동을 μœ λ„(κ°•ν™”)ν•˜κΈ° μœ„ν•œ ν•™μŠ΅μ΄λΌκ³  λ³΄λ©΄λœλ‹€.
사싀 λ‚΄ 개인적인 μƒκ°μœΌλ‘œ μ•„λž˜ Terminology만 잘 μ •λ¦¬ν•˜κ³  μ΄ν•΄ν•˜λ©΄ κ°•ν™”ν•™μŠ΅μ˜ μ΄ν•΄λŠ” μ ˆλ°˜μ„ ν•œ κ±°λ‚˜ λ§ˆμ°¬κ°€μ§€..라고 μƒκ°ν•œλ‹€. κ·Έλž˜μ„œ μ–΄λ–€ 문제λ₯Ό ν’€λ•Œ, μ•„λž˜μ™€ 같이 ν…œν”Œλ¦ΏμœΌλ‘œ 문제λ₯Ό μ •μ˜λ₯Ό ν•  수 μžˆλ‹€.

  • Agent: νŒλ‹¨μ˜ 주체
  • Environment
    • deterministic environment: ν–‰λ™μ˜ κ²°κ³Όλ₯Ό μ•Œ 수 μžˆλ‹€.(ex. 체슀)
    • stochastic environment: ν–‰λ™μ˜ κ²°κ³Όλ₯Ό μ•Œ 수 μ—†λ‹€.
    • partially observable environment
    • discrete environment
    • continuous environment
    • episodic/nonepisodic environment: μ „μžλŠ” κ³Όκ±° ν–‰λ™μ—μ„œ λ…λ¦½μ μ΄λ‚˜ ν›„μžλŠ” κ·Έλ ‡μ§€ μ•Šλ‹€.
    • single and multi agent environment
  • Action: 결과에 따라 trial and error을 κ²ͺλŠ”λ‹€.
  • State: agent의 μƒνƒœ
  • Reward: action에 λ”°λ₯Έ 보상 ➑ ν•΄λ‹Ή 행동이 쒋은지 λ‚˜μœμ§€ νŒλ‹¨μ˜
    • Exploit: 긍정적인 보상을 μ–»μ—ˆλ‹€λ©΄ 행동에 λŒ€ν•œ ν™œμš©μ„,
    • Exploration: 뢀정적인 보상을 μ–»μ—ˆλ‹€λ©΄ λ‹€λ₯Έ 행동을 νƒν—˜ν•œλ‹€.

λ”°λΌμ„œ μ •λ¦¬ν•˜λ©΄, environment에 agentκ°€ 있고, agentλŠ” action을 ν•˜κ³  그에 λ”°λ₯Έ state둜 ν‘œν˜„μ΄λ˜κ³ , 행동에 λ”°λ₯Έ rewardλ₯Ό μ–»μŒμœΌλ‘œμ¨ reward에 μ΅œλŒ€ 이읡이 λ˜λŠ” ν–‰λ™μœΌλ‘œ 이어진닀. μ΄λ•Œ 행동에 λŒ€ν•œ 기쀀은 policy function($\pi$), νŠΉμ • μƒνƒœμ—μ„œ μ–Όλ§ˆλ‚˜ 쒋은지 ν‰κ°€ν•˜λŠ” 기쀀은 value function이 λ˜κ² λ‹€.

Authors