- Published on
πSTUDY κ°ννμ΅ μ λ¬Έ νμ΄μ¬ μμ μ ν¨κ»νλ | κ°ννμ΅ μκ°
κΈνκ² λ©΄μ μ€λΉλ‘ νΊμ보λ μκ°μ κ°κΈ° μν΄ μ΄ μ±
μ κΈνκ² κΊΌλλ€..!
μ¬μ€ λνμ κ°κΈ°μ μ μ½μΌλ €κ³ μ¬λ¨λλ°, μ΄μ©λ€λ³΄λ 4λ
μ§λμ μ 리νκ² λμλ€.
ν΄λΉ ν¬μ€νΈ μ리μ¦λ λ΄ μκ°μ μ£Όλ‘ μ 리ν΄λμ κ²λ€μ΄λΌ μ‘°κΈμ λμκ° μμ μ μκ² λ€.
κ°ννμ΅μ΄λ?
보μμ μ£Όλ©΄μ μ΄λ€ νλμ μ λ(κ°ν)νκΈ° μν νμ΅μ΄λΌκ³ 보면λλ€.
μ¬μ€ λ΄ κ°μΈμ μΈ μκ°μΌλ‘ μλ Terminologyλ§ μ μ 리νκ³ μ΄ν΄νλ©΄ κ°ννμ΅μ μ΄ν΄λ μ λ°μ ν κ±°λ λ§μ°¬κ°μ§..λΌκ³ μκ°νλ€. κ·Έλμ μ΄λ€ λ¬Έμ λ₯Ό νλ, μλμ κ°μ΄ ν
νλ¦ΏμΌλ‘ λ¬Έμ λ₯Ό μ μλ₯Ό ν μ μλ€.
- Agent: νλ¨μ 주체
- Environment
- deterministic environment: νλμ κ²°κ³Όλ₯Ό μ μ μλ€.(ex. 체μ€)
- stochastic environment: νλμ κ²°κ³Όλ₯Ό μ μ μλ€.
- partially observable environment
- discrete environment
- continuous environment
- episodic/nonepisodic environment: μ μλ κ³Όκ±° νλμμ λ 립μ μ΄λ νμλ κ·Έλ μ§ μλ€.
- single and multi agent environment
- Action: κ²°κ³Όμ λ°λΌ trial and errorμ κ²ͺλλ€.
- State: agentμ μν
- Reward: actionμ λ°λ₯Έ 보μ β‘ ν΄λΉ νλμ΄ μ’μμ§ λμμ§ νλ¨μ
- Exploit: κΈμ μ μΈ λ³΄μμ μ»μλ€λ©΄ νλμ λν νμ©μ,
- Exploration: λΆμ μ μΈ λ³΄μμ μ»μλ€λ©΄ λ€λ₯Έ νλμ νννλ€.
λ°λΌμ μ 리νλ©΄, environmentμ agentκ° μκ³ , agentλ actionμ νκ³ κ·Έμ λ°λ₯Έ stateλ‘ ννμ΄λκ³ , νλμ λ°λ₯Έ rewardλ₯Ό μ»μμΌλ‘μ¨ rewardμ μ΅λ μ΄μ΅μ΄ λλ νλμΌλ‘ μ΄μ΄μ§λ€. μ΄λ νλμ λν κΈ°μ€μ policy function($\pi$)
, νΉμ μνμμ μΌλ§λ μ’μμ§ νκ°νλ κΈ°μ€μ value function
μ΄ λκ² λ€.
- Authors
- Name
- Amelia Young
- GitHub
- @ameliacode