Eligibility Traces

이번 포스트에서는 TD와 Monte Carlo method를 통합 및 일반화하는 eligibility traces에 대해 다룰 것이다. Introduction eligibility traces는 TD와 Monte Carlo (MC) method를 통합 및 일반화하는 방법으로 스펙트럼에 걸쳐 있다. 스펙트럼의 양 끝에는 MC method ($\lam...

Sep 1, 2022 Reinforcement Learning/RL Fundamental

Off-policy Methods with Approximation

이 포스트에서는 on-policy function approximation을 off-policy로의 확장과 이로 인해 발생하는 문제들에 대해 다룰 것이다. Introduction off-policy method는 behavior policy $b$에 의해 생성된 experience로부터 target policy $\pi$에 대한 value func...

Aug 30, 2022 Reinforcement Learning/RL Fundamental

On-policy Control with Approximation

이 포스트에서는 function approximation을 사용한 prediction을 control로 확장할 것이다. 이를 위해 state-value function이 아닌 action-value function을 추정한다. 그 후 on-policy GPI의 일반적인 패턴을 따라 학습을 진행하는 방법을 알아본다. 이 포스트에서는 특히 semi-gra...

Aug 23, 2022 Reinforcement Learning/RL Fundamental

On-policy Prediction with Approximation

이 포스트에서는 reinforcement learning을 수행하는 새로운 방법인 function approximation에 대한 소개와 이를 바탕으로 on-policy method에서 prediction을 수행하는 방법을 소개한다. What is Function Approximation and Why needed? 지금까지 알아본 기존 Reinf...

Aug 18, 2022 Reinforcement Learning/RL Fundamental

Planning and Learning with Tabular Methods

이 포스트는 나중에 업데이트 될 예정입니다.

Aug 16, 2022 Reinforcement Learning/RL Fundamental

n-step Bootstrapping

이 포스트에서는 TD method의 확장된 형태인 $n$-step TD methods를 간략히 소개한다. What is $n$-step TD method $n$-step TD method는 1-step TD method와 Monte Carlo (MC) method를 통합한 방법이다. $n$-step TD method는 일종의 스펙트럼으로 양 끝단에...

Jul 19, 2022 Reinforcement Learning/RL Fundamental

Temporal-Difference Learning

이 포스트에서는 RL에서 반드시 알아야 하는 RL의 핵심인 Temporal-Difference learning method를 소개한다. What is TD learning Temporal-Difference (TD) learning method는 Monte Carlo (MC) method와 Dynamic Programming (DP)의 아이디어를 ...

Jul 7, 2022 Reinforcement Learning/RL Fundamental

Monte Carlo Methods in RL

이 포스트에서는 RL에서 environment에 대한 지식을 완전히 알 수 없을 때 experience를 통해 문제를 해결하는 Monte Carlo methods를 소개한다. Introduction Monte Carlo (MC) methods는 반복된 random sampling을 통해 numerical한 근사해를 얻는 방법으로 일종의 simula...

Jul 3, 2022 Reinforcement Learning/RL Fundamental

Dynamic Programming in RL

이 포스트에서는 RL에서 MDP로 environment의 perfect model이 주어졌을 때 optimal policy를 구하는데 사용되는 기초적인 방식인 Dynamic Programming (DP)를 소개한다. Introduction Reinforcement Learning (RL)에서 environment가 perfect model로 env...

Jun 25, 2022 Reinforcement Learning/RL Fundamental

Finite Markov Decision Processes

이 포스트에서는 Reinforcement Learning에서 기반이 되는 finite Markov Decision Processes (MDPs)와 finite MDPs 문제를 해결하기 위한 Bellman equations에 대해 소개한다. What is MDPs Markov Decision Processes (MDPs)는 연속적인 의사 결정을 형식...

May 30, 2022 Reinforcement Learning/RL Fundamental

1
2
3
4
2 / 4