이번 포스트에서는 TD와 Monte Carlo method를 통합 및 일반화하는 eligibility traces에 대해 다룰 것이다. Introduction eligibility traces는 TD와 Monte Carlo (MC) method를 통합 및 일반화하는 방법으로 스펙트럼에 걸쳐 있다. 스펙트럼의 양 끝에는 MC method ($\lam...
Off-policy Methods with Approximation
이 포스트에서는 on-policy function approximation을 off-policy로의 확장과 이로 인해 발생하는 문제들에 대해 다룰 것이다. Introduction off-policy method는 behavior policy $b$에 의해 생성된 experience로부터 target policy $\pi$에 대한 value func...
On-policy Control with Approximation
이 포스트에서는 function approximation을 사용한 prediction을 control로 확장할 것이다. 이를 위해 state-value function이 아닌 action-value function을 추정한다. 그 후 on-policy GPI의 일반적인 패턴을 따라 학습을 진행하는 방법을 알아본다. 이 포스트에서는 특히 semi-gra...
On-policy Prediction with Approximation
이 포스트에서는 reinforcement learning을 수행하는 새로운 방법인 function approximation에 대한 소개와 이를 바탕으로 on-policy method에서 prediction을 수행하는 방법을 소개한다. What is Function Approximation and Why needed? 지금까지 알아본 기존 Reinf...
Planning and Learning with Tabular Methods
이 포스트는 나중에 업데이트 될 예정입니다.
n-step Bootstrapping
이 포스트에서는 TD method의 확장된 형태인 $n$-step TD methods를 간략히 소개한다. What is $n$-step TD method $n$-step TD method는 1-step TD method와 Monte Carlo (MC) method를 통합한 방법이다. $n$-step TD method는 일종의 스펙트럼으로 양 끝단에...
Temporal-Difference Learning
이 포스트에서는 RL에서 반드시 알아야 하는 RL의 핵심인 Temporal-Difference learning method를 소개한다. What is TD learning Temporal-Difference (TD) learning method는 Monte Carlo (MC) method와 Dynamic Programming (DP)의 아이디어를 ...
Monte Carlo Methods in RL
이 포스트에서는 RL에서 environment에 대한 지식을 완전히 알 수 없을 때 experience를 통해 문제를 해결하는 Monte Carlo methods를 소개한다. Introduction Monte Carlo (MC) methods는 반복된 random sampling을 통해 numerical한 근사해를 얻는 방법으로 일종의 simula...
Dynamic Programming in RL
이 포스트에서는 RL에서 MDP로 environment의 perfect model이 주어졌을 때 optimal policy를 구하는데 사용되는 기초적인 방식인 Dynamic Programming (DP)를 소개한다. Introduction Reinforcement Learning (RL)에서 environment가 perfect model로 env...
Finite Markov Decision Processes
이 포스트에서는 Reinforcement Learning에서 기반이 되는 finite Markov Decision Processes (MDPs)와 finite MDPs 문제를 해결하기 위한 Bellman equations에 대해 소개한다. What is MDPs Markov Decision Processes (MDPs)는 연속적인 의사 결정을 형식...