Model-based RL

Untitled

RL algorithm에 대해 복습해보면, 어떤 policy에 따라 sample들을 만들어내고, 그 sample에 따른 reward를 계산하여 model을 fit 한다. 이때 크게 3가지 방법으로 구분할 수 있는데, policy gradient, Q-learning, 그리고 model-based가 있다. 이렇게 fit 된 model을 바탕으로 policy를 update한다.

이전 강의(Lecture 6)에서는 policy gradient와 Q-learning 기반의 방법들을 다뤘고, 이번 강의에서는 model-based RL을 다룬다.

Untitled

Model-based RL은 기본적으로 environment에 대한 model을 학습하는 것이다. 이 방법의 장점은 대부분의 경우에 sample efficient 하고, model이 서로 다른 task와 objective에 대해서도 재사용될 수 있다는 점이다.

Model-based RL은 dynamics에 대한 model을 estimate 하기 위함이고, 이는 결국 environment에서 현재 state($\mathbf{s}$)와 action($\mathbf{a}$) 선택지를 이용해 다음 state($\mathbf{s}'$)를 예측하는 일종의 supervised learning problem이 된다.

이 때, dynamics라는 것은 $p(\mathbf{s}' | \mathbf{s}, \mathbf{a})$를 의미한다.

State는 discrete하거나 continuous 할 수도 있고, model이 deterministic하거나 stochastic할 수도 있다.

Untitled

그런데 왜 model-based RL이 multi-task RL과 meta-RL에 중요할까?

Untitled

이에 대답을 하기 위해서는 RL task가 무엇인지 다시 복습해볼 필요가 있다.

Table of Contents

Model-based RL