Table of Contents

Multi-Task & Meta-Learning Principles

Training과 testing이 match 해야한다.

Task들은 어떤 structure를 공유 해야한다.

Untitled

Task-specific parameter $\phi_i$는 $\theta$에 의존하고 있고, 각 $\phi_i$ 들은 given $\theta$에서 독립이다.즉, 이 경우에는 $\mathcal{H}(p(\phi_i|\theta))$가 $\mathcal{H}(p(\phi_i)$ 보다 작다.

#1 $\mathcal{H}(p(\phi_i|\theta))$가 $\mathcal{H}(p(\phi_i)$ 보다 매우 작을 경우, learning from scratch 보다 $\theta$로부터 $\phi_i$에 대한 힌트를 얻는게 더 학습이 빨리 될 것이다.

#2 $\mathcal{H}(p(\phi_i|\theta)) = 0$일 경우는 $\theta$ 자체가 $\phi$의 task를 푸는데 학습이 필요 없이 그대로 모두 잘 수행하는 경우이다.

Untitled

#3 Task가 많이 없이 meta-learning을 하면 어떻게 될까? Overfitting이 발생할 것이다.

Why be Bayesian?

Untitled

Parametric 접근방법에서, deterministic한 point estimate인 $p(\phi_i | \mathcal{D}^{\text{tr}}_i, \theta)$에서 나온 dataset을 사용하면, 그 양이 충분하지 않을 경우 task 자체가 ambiguous 해질 수 있다.

이때는, $p(\phi_i | \mathcal{D}^{\text{tr}}_i, \theta)$에서 sampling을 해서 hypotheses를 생성해내는 아이디어를 생각해볼 수 있다.

이 상황은 safety가 중요한 분야나 active learning(부족한 부분은 알아서 더 학습하는), meta-RL에서 탐색하는 부분에서 중요하다.