강화 학습 개념 정리노트 - CS234 2강 (MDP / MRP / Policy Iteration / Value Iteration)
본 포스팅은 강화 학습 강의인 CS234 2강의 내용을 정리합니다.
매우 간단하게 용어 정리 및 공식만 적으므로, 자세한 내용은 강의 정리 포스팅을 보시기 바랍니다.
Markov Process : Markov한 상태를 띄는 Action / Control이 없는 random한 state들의 집합.
이를 행렬으로 나타낸 것을 Markov Chain 이라고 부른다.
Markov Reward Process (MRP) : Markov Process + Reward.
Markov Process에다가 Reward를 추가함.
Horizon : 각각의 에피소드에 대한 time step의 개수.
Return function (Gₜ) - time step t부터 horizon까지의 reward의 discounted sum.
State Value Function (V(s)) - state s에서 얻을 수 있는 reward의 기댓값.
Discount Factor (𝛾) - immediate reward (즉각적 보상)과 future reward (미래에 얻을 보상)과의 연관관계.
0이면 연관 없음, 1이면 immediate = future
일반적으로 MRP value를 계산하는데 Dynamic Programming 방식이 사용됨. (Iterative Algorithm이라고도 함.)
Vₖ(s) = R(s) + ∑s'∈S 𝛾P(s'|s) Vₖ₋₁(s')
(위 ppt에 더 정확하게 나와있음.)
Markov Decision Process (MDP) - MRP + Action.
이젠 Action까지 포함되어 있음.
(S, A, P, R, 𝛾)의 튜플로 표현함.
지금까지의 기호들을 설명하자면,
S는 Markov State s의 집합.
A는 actions 의 집합.
P는 각 action에 따른 dymanics/transition model. (위의 MRP / MP와 다르게 action이 포함되어 있음!)
R은 Reward function으로, 각 state와 action에 따른 reward의 기댓값.
𝛾는 Discount Factor.
Policy : 각각의 state에서 어떤 action을 취할지를 선택하는 것. (그냥 말 그대로 정책이다.)
Deterministic : 결정론적임. 취하고자 하는 행동은 무조건 일어남.
Stochastic : 무작위적임. 취하고자 하는 행동이 확률적으로 일어나거나 일어나지 않을 수도 있음.
MDP + Policy = MRP이다.
이를 활용하여, MDP의 Policy Evaluation에서도 MRP와 비슷한 공식을 응용할 수 있다.
MDP Control : optimal policy를 계산함.
이때 optimal policy는 π*(s)로 표현함.
optimal policy는 유니크한 optimal value function을 가짐.
Policy Iteration : optimal policy를 구하기 위한 Iterative Algorithm.
현재 policy가 특정 값에 수렴할 때까지 지속적으로 policy를 바꿔준다.
State-Action Value Qπ(s, a)
Qπ(s, a) = R(s, a) + 𝛾∑s'∈S P(s'|s, a)Vπ(s')
로 정의되는 함수.
Policy Improvement : Policy를 강화함.
모든 state와 action 중에서 Qπ(s,a) 값이 가장 큰 state s,action a를 구해서 그 값들을 policy로 적용시킴.
즉, Policy Iteration (PI) 는 다음과 같은 행동을 반복한다.
πᵢ의 값 V을 구한다.
그 값을 사용하여 Q(s,a)도 구한 뒤,
Policy Improvement를 사용하여 πᵢ₊₁을 구함.
이를 ||πᵢ - πᵢ₋₁||₁ > 0 일 때까지 (즉, 새로운 policy와 저번 policy의 차이가 없을 때까지) 반복함.
이러면 optimal policy를 찾아낼 수 있다!
(위 세 슬라이드는 수학적 내용임으로 설명하진 않으나, ppt를 보면 이해가 갈 것임.)
Value Iteration (VI) : Value를 활용하여 optimal policy를 구하는 방법.
V의 값이 수렴할 때 까지,
최대의 Reward가 나오는 R(s, a)와 𝛾∑s'∈S P(s'|s,a)Vπ(s') 를 더한 값을 V에 집어넣어줌.
PI와는 다르게 Policy Improvement 과정 없이 진행됨.
'인공지능 > 강화 학습 개념 정리노트 (CS234)' 카테고리의 다른 글
강화 학습 개념 정리노트 - CS234 1강 (강화 학습의 개념, MDP) (0) | 2019.04.09 |
---|