Home
DevSlem Blog
Cancel

DTQN: Deep Transformer Q-Networks for Partially Observable Reinforcement Learning

이 포스트에서는 요즘 가장 핫한 딥러닝 모델인 Transformer를 DQN에 적용한 Deep Transformer Q-Networks for Partially Observable Reinforcement Learning 논문에 대해 소개한다. 이 논문의 주 목적은 POMDP 상황에서 RNN 계열의 한계를 극복하고자 Transformer를 DQN에 적...

DQN: Deep Q-Networks

이 포스트에서는 deep RL의 기본이자 시대를 열어준 DQN(Deep Q-Networks)을 도입한 Playing Atari with Deep Reinforcement Learning 논문에 대해 소개한다. Introduction DQN 이전에는, 강화학습에서 사용되는 Q-learning과 같은 tabular method는 state와 actio...

Windows Subsystem for Linux (WSL) Setup for Reinforcement Learning

이 포스트에서는 Reinforcement Learning (RL) 작업을 위한 Windows Subsystem for Linux (WSL) 설치 및 Setup에 대해 소개한다. WSL에 대한 보다 자세한 내용은 MS 공식 문서를 참조하기 바란다. 이 포스트는 추후 더 자세한 내용과 함께 업데이트 될 예정입니다. WSL PowerShell을...

[알고리즘] 합병 정렬

합병 정렬은 효율적이고 일반적인 목적으로 사용되는 divide-and-conquer 기반의 정렬 알고리즘이다. 합병 정렬의 특징은 아래와 같다. 비교 기반 non-in-place 시간 복잡도: $O(n \log n)$ stable Key Idea 합병 정렬의 핵심 아이디어는 아래와 같다. 정렬되지 않은 $n$개의 서브 리...

[알고리즘] 쉘 정렬

쉘 정렬은 삽입 정렬을 최적화한 알고리즘으로 $h$ 간격으로 부분적으로 정렬한다. 특징은 아래와 같다. 비교 기반 in-place 시간 복잡도: 간격 $h$에 따라 다름 unstable Key Idea 기존 삽입 정렬에서 왼쪽은 정렬된 리스트, 오른쪽은 정렬이 안된 리스트로 구분했었다. 따라서 삽입 정렬은 어느 정도 정렬이 되어...

[알고리즘] 선택 정렬

선택 정렬은 가장 간단한 컨셉을 가지는 정렬 방법 중 하나이다. 선택 정령의 특징은 아래와 같다. 비교 기반 in-place 시간 복잡도: $O(n^2)$ unstable Key Idea 오름차순으로 정렬한다고 할 때 선택 정렬의 핵심 아이디어 다음과 같다. 가장 작은 원소를 선택 해 0번 원소와 교환 그 다음 작은 ...

[알고리즘] 삽입 정렬

삽입 정렬은 선택된 원소를 이미 정렬된 영역에 삽입하는 방식의 간단한 정렬 알고리즘으로, 실제 사람이 카드 게임 시 카드를 정렬할 때와 유사한 방식이다. 특징은 아래와 같다. 비교 기반 in-place 시간 복잡도: $O(n^2)$ stable Key Idea 삽입 정렬의 과정은 아래와 같다. $i$번째 원소를 선택 ...

[알고리즘] 버블 정렬

버블 정렬은 인접한 두 원소를 비교하여 정렬하는 간단한 방식의 알고리즘이다. 버블 정렬의 특징은 아래와 같다. 비교 기반 in-place 시간 복잡도: $O(n^2)$ stable Key Idea 컨셉은 간단하다. 오름차순으로 정렬한다고 할 떄, $i$번째 원소와 $i+1$번째 원소를 비교해 $i$번째 원소가 더 크면 교환한다....

Policy Gradient Methods

드디어 긴 장정 끝에 대망의 마지막 챕터로 왔다. 이번 포스트에서는 그 유명한 policy gradient method에 대해 소개하려고 한다. 길고 긴 여정이 드디어 끝났다. Introduction 지금까지 우리는 value-based 기반의 방법을 다뤘었다. policy는 추정된 action value에 기반해 action을 선택했다. 이번에는...

Exploration by Random Network Distillation

이 포스트에서는 exploration을 쉽고 효과적으로 수행할 수 있는 방법인 Exploration by Random Network Distillation 논문을 소개한다. Abstract exploration bonus는 observation feature의 예측 error임 고정 랜덤 초기화 신경망이 사용됨 extrinsic rew...