[CS330] Lecture 6: Reinforcement Learning Primer

Multi-task reinforcement learning problem
Policy gradients & their multi-task/meta counterparts
Q-learning
Multi-task Q-learning

Multi-task reinforcement learning problem

Untitled

사실 많은 task가 sequential decision making이 필요하다. 그렇지 않은 것들의 예시는 단순한 classification, regression 등이 있다. 이외에 robotics, language, autonomous driving 등에서는 순차적인 결정이 최종 결과에 큰 영향을 미친다.

Untitled

Object classification와 manipulation은 위와 같이 나눌 수 있다.

Untitled

단순한 예로, 사람이 운전하는 것을 그대로 따라하는 imitation learning도 RL의 일종이라고 볼 수 있다.

Untitled

이런 상황에서는 어떤 policy를 학습함에 있어서 reward는 안전하게 운전하는 경우 높게 주고, 사고가 발생하면 낮게 주는 방식으로 제공할 수 있다.

Untitled

RL의 목표는 policy $\pi$를 학습하는 것이다.

Markov property는 reward function과 dynamics가 현재 state에만 의존하고, 이전 state와는 관련이 없다는 것을 의미한다.

Untitled

Table of Contents

Multi-task reinforcement learning problem