[논문리뷰] Evidential Deep Learning to Quantify Classification Uncertainty

 Paper Overview

NeurIPS'18


Abstract

Deterministic (결정론적인) neural network는 머신러닝 문제에서 매우 효과적인 모습을 보여준다.
기존 softmax 기반 접근법은 단순히 loss를 최소화 시키도록 네트워크를 학습하기 때문에 학습된 모델은 예측 신뢰도(confidence)를 고려하지 않고 무식한(ignorant) 예측을 하게된다.
이때 저자들은 Bayesian neural network와 독립적으로 subjective logic을 사용한하여 명시적으로 모델링 하는 방법을 제안한다.
(subjective logic은 epistemic uncertainty와 source trust를 명시적으로 다루는 probability logic이다.)
(epistemic uncertainty는 확률 모델의 불확실성이다.)
class probability에 Dirichlet distribution를 둠으로써, 저자들은 신경망의 예측을 subjective opinion으로 다루고 결정론적 neural network로부터 데이터의 evidence를 구하는 함수를 학습한다.
저자들이 결정론적인 neural network라는 말을 계속 강조하는 이유는 Bayesian neural network와 달리 network의 파라미터가 일반적인 network와 같이 fix된 값을 가짐을 나타내기 위해서다.
저자들은  새로운 loss가 어떻게 uncertainty estimation을 개선하는지 preliminary analysis를 제공한다.

Keywords

Evidential Deep Learning, Dirichlet distribution

Introduction

저자들은 우선 neural network가 학습 했던 data 분포에 속하지 않은 입력에 대해 neural network 스스로 "모른다"라고 할 수 있는지 질문을 하고 이에 대한 대답은 Bayesian Neural Network 연구 흐름에서 다룬다는 알려준다.

저자들은 이 uncertainty estimation 문제를 "Theory of Evidence perspective"에서 접근하고자 한다.
저자들은 softmax라는 것을 categorical distribution의 파라미터로 해석한다.
이 파라미터를 Dirichlet density의 파라미터로 대체함으로써 모델 예측을 softmax 출력의 점 추정치 (point estimate)가 아닌 softmax 출력 자체에 대한 distribution으로 표현한다. 즉 우리가 softmax라는 활성화 함수를 통해 softmax의 출력을 얻는게 아니라 softmax output 자체를 추정한다고 생각하면 되고 softmax 활성화 함수를 사용하지 않기 때문에 출력 node마다 독립적인 수치를 가지고 있고 이것을 논문에서는 점 추정의 "factory"라고 표현을 한다.

softmax를 기반으로 학습된 모델은 잘못된 예측도 높은 confidence 값을 가질 수 있다.

위 그림을 보면 입력 데이터에 회전이 들어갔을 때, softmax 모델의 output은 확률값이 들쑥날쑥한 것을 알 수 있다.
이와달리 저자들이 제안하는 모델은 data를 인식하기 어려운 상황에 output 확률이 일관성 있게 감소하고 그에 따라 데이터에 대한 uncertainty가 증가하는 것을 알 수 있다.

softmax 모델은 network output이 단순히 확률 정보만을 출력하는 반면, 저자들의 모델은 한 모델이 확률 정보 + 불확실성을 동시에 출력한다.

Deficiencies of Modeling Class Probability with Softmax

일반적인 deep neural network는 output layer의 continuous한 output을 softmax 함수를 사용하여 class probability로 변환한다.
최종 모델은 따라서 multinomial distribution의 파라미터를 가진다고 해석될 수 있다.

$Mult$ 는 multinomial mass func.을 타나내고 $\sigma$는 softmax를 나타낸다.

continuous neural network는 클래스 probability의 비율을 조정하는 역할을 하지만, softmax는 이 비율을 하나의 simplex (어떤 확률분포)로 짓누른다.

왜냐하면 다음과 같은 cross-entropy loss를 학습하기 때문이다.

이때 cross-entropy는 Maximum Likelihood Estimation (MLE)로 해석이 가능한데
MLE는 하나의 파라미터 만을 추정하기 때문에 예측 분포 분산의 추론이 불가능하다.
따라서 uncertainty estimation에 대해 믿을 수 없는 결과를 출력한다.

Uncertainty and the Theory of Evidence

Dempster-Shafer Theory of Evidence는 주관적 확률론 (subjective probabilities)에 대한 Bayesian theory의 일반화다.

이것은 belief mass(믿음에 대한 정도)를 배타적 확률 상태의 집합으로 나타내고 배타적 확률 상태의 집합이기 때문에 "I do not know"를 표현할 수 있다.

Subjective Logic은 이 Dempster-Shafer Theory of Evidence의 믿에 대한 정도를 Dirichlet Distribution으로 공식화한다.

즉, Subjective Logic은 각 singleton $k = 1, ..., K$에 대한 belief mass $b_k$를 제공하고 전반적인 uncertainty mass(불확실성 정도) $u$를 제공하는 $K$개의 상호 배타적 singleton frame을 고려한다.

이 $K + 1$개의 mass value는 non-negative고 합은 1이다.

singleton $k$에 대한 믿음에 대한 정도 $b_k$는 singleton에 대한 evidence를 사용하여 계산된다.

$e_{k}\geq0$는 $k$번째 singleton으로부터 얻은 evidence라 할때 $b_k$와 $u$는 다음과 같이 계산된다.

uncertainty는 total evidence와 반비례한다.
만약에 evidence가 없으면 각 singleton은 0이고 uncertainty는 1이다.
Bayesian modeling 용어와 달리 저자들은 evidence를 data로부터 얻은 sopport의 양을 지칭한다.
위 belief mass assignment (즉 subjective opinion)은 parameter $\alpha_{k} = e_{k} + 1$으로 구성된 Dirichlet 분포에 대응된다.

기존 신경망의 output은 그 자체가 각 sample에 대한 probability assignment이지만 evidence로 파라미터화된 Dirichlet distribution은 probability assignment의 density를 나타낸다.
따라서 이것은 second-order probability와 uncertainty를 모델링한다.

Dirichlet distribution은 probability mass function $p$ (이산적)의 possible value에 대한 probability density function (연속적)이다.

이것은 $K$개의 파라미터 $\boldsymbol{\alpha} = [\alpha_{1}, ..., \alpha_{K}]$로 구성된다.
$S_{K}$는 K차원 unit simplex 이며
$B(\alpha)$는 K차원 multinomial beta function이다.
이 말은 $K$개의 class들의 확률을 dirichlet distribution으로 표현하겠다는 뜻이다.

예시를 들면 아래와 같다.
먼저 우리가 10개의 class에 대한 belief mass로 $\mathbf{b} = \langle 0, ...,0 \rangle$가 주어진다고 하자.
그러면 classification에 대한 prior distribution은 uniform distribution이 된다. ($D(\mathbf{p}|\langle1,...,1\rangle)$)
이것은 evidence가 관측되지 않았다는 것이고 subject probability의 opinion으로 "정보가 없다"는 것과 동일하다.
따라서 uncertainty는 1.0이 된다.
이제 belief mass로 $\mathbf{b} = \langle 0.8, 0, ...,0 \rangle$가 주어진다고 하자.
이것은 전체적인 belief mass가 0.8이라는 것이고 uncertainty는 0.2라는 것이다.
이때 Dirichlet strength는 $S = 10/0.2 = 50$으로 계산된다.
따라서 첫번째 class에 대한 evidence는 $50 \times 0.8 = 40$이므로 $D(\mathbf{p}|\langle41,1,...,1\rangle)$ dirichlet distribution을 가지게 된다.

한 opinion이 주어지면 $k$번째 singleton에 대한 예측 확률은 대응되는 Dirichlet distribution의 평균이고 다음과 같이 계산할 수 있다.
본 논문에서는 신경망이 classification task에 대한 opinion을 Dirichlet distribution으로 표현할 수 있도록 한다.
저자들은 $\boldsymbol{\alpha_{i}} = \langle \alpha_{i1}, ..., \alpha_{iK}\rangle$을 sample $i$의 classification을 위한 Dirichlet distribution의 파라미터라고 한다.
이를 계산하기 위해 신경망을 통해 evidence $e_{ij}$를 추정하도록 한다.
이러한 파라미터를 기반으로 classification의 epistemic uncertainty를 식(1)을 통해 쉽게 계산할 수 있다.
이때 epistemic uncertainty란 모델에 존재하는 불확실성을 의미한다.

Learning to Form Opinions

softmax function은 class probabilities에 대한 점추정 결과만을 제공하고 uncertainty에 대해서는 제공하지 않는다.
반대로, multinomial opinion 또는 equivalently Dirichlet distribution은 class probabilities에 대한 probability distributoin을 모델링하는데 사용될 수 있다.
그러므로 저자들은 sample $i$의 classification에 대한 multinomial opinion을 Dirichlet distribution $D(p_{i}| \alpha _{i})$ 형태로 하여 모델을 학습한다.

저자들의 모델은 기존 softmax 네트워크와 거의 똑같은데, evidence값을 non-negative로 만들기 위해 최종 활성화 함수가 ReLU인것만 다르다.
이때 output은 예측된 Dirichlet distribution에 대한 evidence vector다.
따라서 $f(x_{i}|\Theta)$를 evidence라 하면 $\alpha = f(x_{i}| \Theta) + 1$이다.

$y_{i}$를 ground truth의 one-hot vector라 하면 $D(p_{i} | \alpha_{I})$를 likelihood $Mult (y_{i} | p_{i})$로 다룰 수 있고 class probability out을 적분하여 marginal likelihood의 negated logarithm을 얻을 수 있다.
이것은 Type II Maximum Likelihood로 잘 알려져있다.

대신에, 저자들은 prior 분포를 Dirichlet distribution로 하고 cross-entropy를 loss함수로 설정하여 Bayes risk를 loss 함수로 정의하고 계산할 수 있다.
$\psi$는 digamma function이다.

같은 접근법으로 MSE를 loss 함수로 설정하면 다음과 같이 MSE Bayes risk loss도 얻을 수 있다.
저자들은 실험해보니 식(3)과 식(4)는 극단적으로 높은 belief mass를 생성한다고 한다.
따라서 식(5)보다 덜 안정적인 결과를 낸다.

저자들은 위 loss 단점은 향후 연구에 맡기고 식 (5)의 이론적 장점을 강조한다.
식 (5)의 첫번째 장점은 다음과 같은 항등식을 사용한다는 것이다.
따라서 식(5)를 쉽게 해석 가능한 형태로 변환할 수 있다.
식 (5)를 위와같이 분해함으로써 위 식은 예측 error 뿐만 아니라 training set의 각 sample에 대한 신경망에 의해 만들어진 Dirichlet experiment의 variance를 최소화하는 공동 목표를 달성하도록 학습한다.
그러면서 아래 proposition에서 보장하는 것 처럼 variance 추정보다 data fit을 우선시하도록 한다.


위 proposition을 종합하면 식(5)로 학습된 신경망이 각 sample에 대해 알맞은 class label에 대한 더 많은 evidence를 생성하도록 최적화 되고, 과하게 잘못된 evidence를 지움으로써 신명망이 잘못 예측하는 것을 피하도록 도와준다.
이 loss는 또한 evidence가 증가함으로써 training set에 대한 예측의 variance를 줄이는 경향이 있지만 이것은 생성된 evidence가 더 나은 data fit을 만들때만 발생한다.

위 loss들을 사용하여 학습하면 올바른 class에 대해 더 많은 evidence를 만들도록 모델이 학습된다.
그러나 잘못된 예측에 대해서는 counter-example (0 같은 6 이미지)를 학습해야 하는데 이러한 case가 dataset 내에 잘 존재하지 않는다.
따라서 모델은 예측 자체는 정확히 하지만 잘못된 예측에 대해서 evidence가 0이 되는 상황은 만들기 어렵다.
저자들은 모델이 올바르게 데이터를 분류할 수 없는 경우 sample에 대해 전체적인 evidence가 0이 되는 것을 선호한다.
따라서 이러한 상황을 학습하기 위해 uniform distribution에 대해서 KL divergence 항을 추가하여 예측 분포를 규제한다.
$t$는 epoch이다.

이것은 정답 label 외의 $\alpha$ 값을 1로 만들도록 한다.

점진적으로 $\lambda$를 증가시켜 신경망이 파라미터 space를 더 탐사하도록 하고
지역 최적점에 수렴하지 않도록 만든다.

Experiments

저자들은 LeNet을 사용한다.
데이터는 MNIST와 CIFAR10을 쓴다.

5.1 Predictive Uncetainty Performance


5.2. Accuracy and Uncertatinty on Adversarial Examples

Conclusions

In this work, we design a predictive distribution for classification by placing a Dirichlet distribution on the class probabilities and assigning neural network outputs to its parameters. We fit this predictive distribution to data by minimizing the Bayes risk with respect to the L2-Norm loss which is regularized by an information-theoretic complexity term. The resultant predictor is a Dirichlet distribution on class probabilities, which provides a more detailed uncertainty model than the point estimate of the standard softmax-output deep nets. We interpret the behavior of this predictor from an evidential reasoning perspective by building the link from its predictions to the belief mass and uncertainty decomposition of the subjective logic. Our predictor improves the state of the art significantly in two uncertainty modeling benchmarks: i) detection of out-of-distribution queries, and ii) endurance against adversarial perturbations.

댓글