[논문리뷰] Generalized Zero-Shot Learning with Deep Calibration Network

 Paper Overview

NeurIPS'18


Abstract

기존의 zero-shot learning은 source data의 seen data에 overfitting되는 경향이 있기 때문에 target class의 representation을 제대로 인식 못하는 경향이 있다. (논문에서는 blind라 표현)
저자들은 Deep Calibration Netwrok (DCN)을 제안하여 source class들의 confidence와 target class의 uncertainty를 동시에 calibration하도록 한다.
저자들의 접근법은 visual feature와 class prototype의 semantic representation을 common embedding space에 매핑하도록 한다.
 
Keywords

Zero-Shot Learning, Deep Calibration Network

Introduction

최근 supervised Learning을 기반으로 한 모델은 탁월한 성능을 보인다.
그러나 label이 없는 "in the wild" object를 인식하는것은 기존의 supervised 방식으로 한계가 있다. (특히 천연기념물과 같은 object는 데이터수집이 까다롭다.)
이러한 이유들 때문에 one-shot 또는 zero-shot 연구가 필요하다.
 
Zero-shot Learning의 주된 아이디어는 source와 target class들의 semantic representation을 통해 source class들의 지식을 transfer하여 target class들을 인식하는 것이다.
이를 위해 두가지 기술적 문제가 있다.
(i) 어떻게 source class의 지식을 target class로 transfer할 것인가?
(ii) training data없이 어떻게 target class들의 예측을 만들어 낼 것인가?
 
첫번째 문제를 다루기 위해 visual attribute와 word embedding이 탐구되었다.
두번째 문제를 다루기 위해서는 probabilistic model이 zero-shot learning의 baseline이 되었다.
 
이러한 zero-shot learning의 기본 전제는 입력 데이터가 오직 target (unseen) class만이 입력된다는것을 가정하므로 현실 application과는 괴리가 있다.
따라서 2016년에 source와 target 데이터를 동시에 예측하는 generalized zero-shot learning이 제안되었다.
불행히도 zero-shot method는 generalized zero-shot learning에 적용하면 source class에 overfitting 현상이 발생한다.
위 그림은 직관적으로 generalized zero-shot learning의 어려움을 보여준다.
색있는 원이 semantic representation인데 모델이 source data에 overfitting하게 되면 노란색 세모 데이터가 들어왔을 때 source, target 카테고리 모두 불확실한 예측을 하게 된다.
여기서 불확실한 예측이란 모델의 entropy가 크다는 것이고 예측 확률이 uniform distritution에 가까울수록 entropy가 크다.
 
저자들은 Deep Calibratoin Network (DCN)을 제안하고 이것은 이 source confidence와 target uncertainty를 동시에 calibration 한다.
target class의 uncertainty가 generalized zero-shot learning의 주된 장애물이고 DCN은 이 entropy를 최소화하도록 학습한다.
즉 source class 데이터가 입력됐을 때 target class들의 확률을 uniform하게 가져가는것 보다 어느 한 target class에 집중하도록 하는것이 훨씬 낫다는 것이다. (해당 방법이 GZSL 성능을 boost시켰다고 한다.)
source class의 confidence 문제는 temperature distillation method를 통해 해결한다.

Generalized Zero-Shot Learning

zero shot learning에서 $N$개의 seen data $\mathcal{D} = \left\{(\textbf{x}_{n}, \textbf{y}_{n})\right\}_{n=1}^{N}$가 주어진다.
이때 source class는 $\mathcal{S} = \left\{ 1, ..., S \right\}$로 나타내고 $\textbf{y}_{n} \in \mathcal{S}$이다.
이외에 target class는 $\mathcal{T} = \left\{ S+1, ..., S + T \right\}$로 나타낸다.
zero shot learning의 transfer을 위한 semantic representation은 $\mathcal{A} = \left\{ \textbf{a}_{c} \right\}_{c=1}^{S+T}$다.
그리고 $M$개의 unseen data는 $\mathcal{D}' = \left\{(\textbf{x}_{m})\right\}_{m=N+1}^{N+M}$로 나타낸다.
저자들은 target class에 대한 semantic representation이 이용가능하다는 가정은 zero-shot learning에서는 매우 강력하지만 generalized zero-shot learning에서 모델 예측을 하는데에는 부족하다고 한다.
따라서 저자들은 다음과 같은 모델을 제안한다.

1. Prediction Function

DCN의 구조에서는 CNN 네트워크인 visual model $\phi$과 MLP 네트워크인 text model $\psi$이 있다.
이 모델들은 각 입력을 $K$차원 임베딩 space에 매핑한다.
이때 모델의 예측은 매핑된 visual feature와 text embedding의 similarity로 한다.
이렇게 예측하는 것을 nearest prototype classifier (NPC)라 한다.
이 $\text{sim}$ 함수는 내적 또는 cosine sim.이 될 수 있고
각 모델의 output에 비선형성을 강화하기 위해 $\text{tanh}$ 함수를 사용한다고 한다.
그리고 최종 예측은 다음과 같이 진행한다.

2. Risk Minimization

최근 딥러닝 모델에서는 모델의 calibrated를 고려하지 않고 softmax+cross entropy 학습을 진행한다.
이렇게 학습하면 over-confidence 문제가 발생하는데 이것은 generalized zero-shot learning에서 transfer에 부정적인 영향을 준다.
따라서 저자들은 temperature calibration을 사용하여 overfitting 문제를 완화한다.
그다음 다음과 같이 cross-entropy 학습을 한다.

3. Uncertainty Calibration

위의 방법은 zero-shot learning에서는 효과적일 수 있으나 generalized zero-shot learning에서는 target class를 위한 추가적 method 없이는 task 수행이 불가능하다.
왜냐하면 학습과정에서 target data에 접근이 불가능하기 때문에 target class에 대해 blind 모델이 만들어지기 때문이다.
이 blind 문제를 지우기 위해 저자들은 예측 $f_{c}$를 target class위의 확률로 변환한다.
식 (5)와 달리 식(7)은 분모가 target class들로만 구성된다는 것에 주목해야 한다.
 
직관적으로, source data가 입력되었을 경우 target class들에 대해 고른 확률을 할당하는것이 아닌 특정 target class에 확률이 최대한 할당되도록 만드는 것이 더 좋다.
즉 target class들의 확률 $q_{c}$의 enropy를 낮추는 것이 필요하다는 것이다.
따라서 다음과 같이 entropy loss를 정의한다.

4. Deep Calibration Network

DCN은 따라서 다음과 같은 loss를 구성하여 학습한다.

$\Omega$는 파라미터 L2 norm 같은 규제항이다.

Experiments


Conclusions

This paper proposed a deep calibration network towards generalized zero-shot learning. The approach enables simultaneous calibration of deep networks on the confidence of source classes and uncertainty of target classes, and as a consequence, bridges the source and target classes through both semantic representations of classes and visual embeddings of seen images. Experiments show that our approach yields state of the art performance for generalized zero-shot learning tasks on four benchmark datasets.

댓글