[논문리뷰] ANEDL: Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning

 Paper Overview

AAAI'24


Abstract
Open-set semi-supervised learning (Open-set SSL)은 unlabeled data와 test data가 새로운 카테고리(outliers)를 가질 수 있는 경우를 고려한다.
(basic SSL은 labeled, unlabeled, test가 모두 같은 분포를 가정한다)
대부분의 previous works들은 binary classifier로 outlier detection에 집중했는데, 이것은 다양한 유형의 불확실성(uncertainty)를 구별할 수 없다.
따라서 본 논문은 Adaptive Negative Evidential Deep Learning (ANEDL) 프레임워크를 제안한다.

먼저 evidential deep learning (EDL)을 outlier detector로 도입하여 다양한 유형의 uncertainty를 측정하고 self-training과 inference를 위해 다양한 uncertainty metrics를 설계한다.
나아가 novel adaptive negative optimization strategy를 제안하여 EDL을 inlier와 outlier가 모두 있는 unlabeled dataset에 더 알맞게 만든다.
이 논문을 보기 전, 공동 1저자 Deng이 쓴 $\mathcal{I}$-EDL을 먼저 읽어보는게 좋다.

Keywords

Open-set semi-supervised learning, Evidence Deep Learning

Introduction

대부분의 previous works는 binary detector를 기반으로 confidence scores를 추정한다.
softmax-based network는 class 확률의 점 추정 값만을 제공하기 때문에 epistemic uncertainty와 aleatoric uncertainty를 정량화 할 수 없다.
거기다 K-way classification 문제를 binary로 해결하는 것은 안정적이지 못하다.

따라서 저자들은 다음과 같이 EDL을 outlier detector로 도입한다.

EDL은 multinomial detector로 각 class의 evidence를 출력한다.
따라서 binary detector의 문제를 완화할 수 있다.

EDL은 uncertainty 정량화가 가능함을 보여주지만 classification 성능 자체는 떨어진다.
따라서, 저자들은 Softmax와 EDL의 장점을 모두 가질 수 있도록 프레임워크를 구성했다.

저자들은 adaptive negative optimization을 제안한다.
이 negative optimization은 EDL detector를 규제하여 outlier sample에 대해 K low evidence를 출력하도록 한다.

Method

Problem Setting

labeled dataset: $\mathcal{D}_{l} = \{(x_{j}^{l}, y_{j}^{l}) \}_{j=1}^{N_{l}}$
unlabeled dataset: $\mathcal{D}_{u} = \{x_{j}^{i}\}_{j=1}^{N_{i}} \cup \{x_{j}^{o}\}_{j=1}^{N_{o}}$
$o$는 outlier, $i$는 inlier

Adaptive Negative Evidential Deep Learning

Evidential Outlier Detector

EDL은 network $g(\theta)$를 사용하여 evidence vector $\mathbf{e} = g(\boldsymbol{x}|\boldsymbol{\theta})$를 계산한다.
여기에 1을 더하여 Dirichlet distribution $\mathcal{D}(\boldsymbol{p}|\boldsymbol{\alpha})$의 concentration parameter $\boldsymbol{\alpha}$를 구한다.
따라서 예측 확률과 uncertainty는 다음과 같이 계산한다.
$\alpha_{0}$는 모든 $\boldsymbol{\alpha}$의 elements 합이다.

Joint Optimization with Softmax and EDL

본 프레임워크는 Softmax와 EDL head를 둘 다 사용한다.
학습 중에 EDL로 outlier를 제외하고 저자들은 Softmax 헤드에 SSL method인 FixMatch를 적용한다.
FixMatch의 pseudo-label의 편향을 제거하기 위해 DebiasPL에서 제안한 counterfactual reasoning과 adaptive margin을 활용한다.

Adaptive Negative Optimization

negative learning에 영감을 받아 저자들은 Adaptive Negative Optimization (ANO)를 제안한다.
이것은 불확실한 class에 집중함으로써 EDL detector가 잘못된정보를 피하도록 한다.
특히 negative optimization은 detector를 규제하여 불확실한 class에 대해서 low evidence를 출력하도록 한다.
마찬가지로, 제안하는 adaptive loss weights도 EDL detector가 학습 과정중에 불확실한 class에 대해 서 많은 attention이 가해지도록 한다.

저자들은 $\mathcal{I}$-EDL에서 제안된 Fisher information matrix(FIM)를 각 sample의 각 class에 포함된 정보의 양을 나타내도록 한다.
$\mathcal{I}$-EDL은 한 class의 evidence가 그것의 Fisher information 반비례 관계라는 것을 증명하였다.
그러므로 저자들은 FIM을 indicator로 하용하여 outlier로부터 inlier를 구별하는 데에 사용하고 적응적으로 불확실한 class에 대해 더 attention하도록 모델을 규제한다.
저자들은 이를 위해 KL divergence term을 사용한다.
$\mathcal{U} = \mathcal{N}(\mathbf{1}/K, \lambda^{2}\boldsymbol{I})$, $\boldsymbol{\alpha} = g(\boldsymbol{x}|\boldsymbol{\theta})+1$, $\mathcal{I}(\boldsymbol{\alpha})$는 $Dir(\boldsymbol{\alpha})$의 FIM을 나타낸다.

식(1)은 probabilistic graphical model로 이해할 수 있고, 관측된 label $\hat{\boldsymbol{y}}$는 Dirichlet distribution $\boldsymbol{p}$와 그것의 파라미터 $\boldsymbol{\alpha}$로부터 얻어진다.
Open-SSL은 unlabeled data에 novel과 known을 둘다 포함하기 때문에, 저자들은 $\hat{\boldsymbol{y}} \sim \mathcal{N}(\boldsymbol{y}, \sigma^{2}\mathcal{I}(\boldsymbol{\alpha})^{-1})$가 model을 불확실한 classes에 더 attention하도록 만든다고 가정한다.
target 변수 $\boldsymbol{y}$에 대해 저자들은 그것의 Dirichlet distribution $\boldsymbol{p}$가 $\boldsymbol{y} \sim \mathcal{N}(\mathbf{1}/K, \lambda^{2}\boldsymbol{I})$와 같은 uniform distribution에 따른다고 예측한다.
따라서, 저자들은 KL divergence를 사용하여 관측된 $\hat{\boldsymbol{y}}$와 target $\boldsymbol{y}$가 같은 분포로 작용하도록 한다.
따라서 식(1)을 다음과 같이 간단하게 나타낼 수 있다.
$\psi_{1}(\cdot)$는 trigamma 함수로, 디감마 함수를 한번 미분한것 또는 감마 함수를 두번 미분한 것을 의미한다.
저자들은 위 loss를 adaptive negative EDL loss라 한다.
$\psi_{1}(x)$가 $x>0$일때 단조함수 이므로, less evidence를 가진 class label은 분포가 평평해지도록 강하게 규제된다.
결과적으로 일단 특정 class의 evidence가 얻어지면, weight는 그림 1과 같이 줄어들게 되고, inlier features은 outlier feature에 간섭하지 않게 된다.
이뿐만 아니라 labeled dataset으로 inlier feature를 향상시킨다. ($\mathcal{I}-EDL과 같이 학습)

Strengthened KL Loss

classical EDL loss의 KL divergence loss는 evidence에 패널티를 주어 잘못된 class에 sample이 속하지 않도록 한다.
$\hat{\boldsymbol{\alpha}}$는 정답 $\alpha$만 1인 벡터다.

위 loss는 정답에 대해서는 무시하기 때문에 저자들은 $\boldsymbol{\beta} = [1, ..., P, ..., 1]$ 벡터를 사용하여 ground truth 값이 커지도록 하는 loss를 제안한다.
labeled data는 $P=100$이고 unlabeled data는 $P=1$이다.

Overall Loss Function

저자들은 detector에 smoothness를 강화하기 위해 다음과 같은 loss를 제안한다.
$\boldsymbol{\alpha}^{s}$는 strong augmentation이 적용된 것이고 $\boldsymbol{\alpha}^{w}$는 weak augmentation이 적용된 것이다.


따라서 최종 loss는 다음과 같다.

위 loss를 학습하기 위해 저자들은 학습을 2-stage로 나눈다.
첫번째 단계에서는 식(7)에서 $\mathcal{L}_{FM}$을 제외한 나머지 loss만을 사용하여 일정 epoch만큼 학습한다.
두번째 단계에서는 classifier의 self-training을 적용하고 식(7) loss 전체를 활용한다.

Uncertainty Metric for Open-set SSL

Inlier Selection in Self-training

unlabeled data에 대한 recognition performance를 개선하기 위해, 저자들은 self-training동안 unlabeled data로부터 정확한 inlier pseudo label을 선택하는것을 목표로 한다.
따라서 저자들은 EDL head와 Softmax head의 one-hot output을 곱하여 confidence value를 계산한 다음 hyperparameter threshold $O$를 통해 선택한다.

Outlier Detection for Inference

test data에서 outliers를 검출하는 것도 Open-set SSL의 task에 포함된다.
그러므로 inference를 위한 uncertainty metric은 inlier와 outlier 구분을 위한 정확한 epistemic uncertainty 측정에 중요한 요소이다.

EDL 원래 방법은 total evidence $\alpha_{0}= \sum_{k=1}^{K}\alpha_{k}$를 사용하지만 이것은 long-tail 문제 때문에 작은 evidence value가 발생할 수 있다고 한다.
따라서 저자들은 이 $\boldsymbol{\alpha}$를 크기 순서대로 정렬하여 상위 $M$개의 evidence를 선택하는 방법을 취한다.
$\bar{\boldsymbol{\alpha}}$는 $\boldsymbol{\alpha}$를 순서대로 정렬한 것이다.

Experiments

Datasets

CIFAR-10, CIFAR-100, InmageNet-30

Implementation Details

Comparison with Other Methods




Ablation Studies

Component Analysis of ANO

Evaluation of Uncertainty Metric

Conclusion

In this work, we propose a novel framework, adaptive negative evidential deep learning (ANEDL), for open-set semisupervised learning. ANEDL adopts evidential deep learning (EDL) to Open-set SSL for the first time and designs novel adaptive negative optimization method. In particular, EDL, as an advanced uncertainty quantification method, is deployed to estimate different types of uncertainty for inliers selection in self-training and outlier detection in inference. Furthermore, to enhance the separation between inliers and outliers, we propose adaptive negative optimization to explicitly compress the evidence value of outliers in unlabeled data and avoid interfering with the learning of inliers in unlabeled data with adaptive loss weight. Our extensive experiments on four datasets demonstrate that our method is superior to other SOTAs.

댓글