【論文紹介】Recent Advances in Adversarial Training for Adversarial Robustness

本記事では、『Recent Advances in Adversarial Training for Adversarial Robustness』という論文を簡単に紹介する。

arXiv:2102.01356

論文要点

敵対的学習を新たな分類法（後述）に基づきレビュー
敵対的学習の汎化問題を三つの観点（後述）からレビュー

以下、簡単に論文の内容を説明する。

敵対的事例と敵対的学習

本題に入る前に敵対的事例と敵対的学習について簡単に説明する。

敵対的事例

敵対的事例とは、よく学習した学習モデルを騙すように細工を施したデータのことである。

現在、敵対的事例は安全性に関して大きな問題を引き起こしている。

以下、分類問題を例に敵対的事例の生成方法を簡単に説明する。

まず、入力を$x \in \mathbb{R}^{n}$、学習モデルを$f(x;\theta) : \mathbb{R}^{n} \to \{1, \ldots, k\}$とする。ここで、$\theta$は学習モデルの全てのパラメータを表し、$k$は分類ラベルのクラス数を表す。

敵対的事例の作成の基本的なアイデアは、入力$x$に微小な摂動$\delta \in \mathbb{R}^{n}$を加算した$x + \delta$を学習モデルに入力したときに、正解ラベルとは異なるクラスを予測するように$\delta$を決定することである。

このような$\delta$を得る方法の一つとして以下の最適化問題を解く方法が提案されている。

$$\delta^{\ast} := \mathrm{argmax}_{\|\delta\|_{p} \le \epsilon} \mathcal{L}(\theta, x + \delta, y)$$

ここで、$y$は$x$に対応する真のラベルで、$p$は、$0, 1, 2, \infty$が用いられることが多い。

敵対的学習

次に、敵対的学習について簡単に説明する。

敵対的学習とは、敵対的事例に対しても正しく分類ができるように学習する方法のことである。

一般的には、以下のmin-max問題として定式化される。

$$\mathrm{argmin}_{\theta} \mathbb{E}_{(x, y) \sim \mathcal{D}} \left[\max_{\delta \in B(x, \epsilon)} \mathcal{L}(\theta, x + \delta, y) \right]$$

ここで、$\mathbb{E}_{(x, y) \sim \mathcal{D}}$は、データの経験分布に関する期待値を表し、$B(x, \epsilon)$は摂動範囲を表し、$B(x, \epsilon) := \{x + \delta \in \mathbb{R}^{n} \mid \|\delta\|_{p} \le \epsilon\} $とするのが一般的である。

min-max問題の解釈は以下の通りである。

内部最大化 : 与えられたデータに関する敵対的事例の探索
外部最小化 : 敵対的事例に対してモデル全体の損失関数の最小化

このmin-max問題を近似的に解くために、最も基本的であり、現在ベースラインとなっているPGD-ATでは、内部最大化問題をPGD法により以下のように更新する。

$$x^{t+1} = \mathrm{Pro}_{x + B(x, \epsilon)}(x^{t} + \alpha \mathrm{sign}(\nabla_{x^{t}} \mathcal{L}(\theta, x^{t}, y)))$$

ここで、$t$は内部最大化のためのステップ数、$\alpha$はステップサイズを表す。

それ以外の方法も含め新しい分類方法でレビューしたのが今回紹介する論文である。

敵対的学習の新たな分類方法

近年、PGD-AT以外にも上述のmin-max問題を近似的に解く方法が開発されている。

このレビュー論文では以下の分類に従って、様々な方法のレビューを行なっている。

本記事では具体的な概念、アルゴリズムの説明は、レビューまたはレビューの参照論文に任せて、各分類のざっくりとした説明を行う。

以下にレビュー論文の分類法と重要な概念のみをまとめる。

Adversarial Regularization（敵対的な正則化）: min-max問題を直接解かずに、敵対的事例を対策するような関数を目的関数に加える方法
- 具体的な手法 : FGSM(2015), TRADES(2019), MART(2020)
Curriculum-based Adversarial Training（カリキュラムベース敵対的学習）: 与えられた敵対的事例に対して高い精度を達成するまで、PGDの反復ステップ数を徐々に増やす方法（内部最大化のための敵対的事例の強力さを調整する方法）
- 初期段階の弱い敵対的攻撃は汎化性能の向上に関係していることが予測されるため弱い敵対的攻撃も重要
- 敵対的事例に関するロバスト性をある程度保持して、clean data（敵対的ノイズのないデータ）の汎化性能を向上できる
Ensemble Adversarial Training（アンサンブル敵対的学習）: 複数の学習モデルから構成される敵対的事例を用いて敵対的学習を行う
- 敵対的事例が多様性を持つことが重要
- 内部最大化をより精度良く行うことが動機
- 理論的な評価は困難
Adversarial Training with Adaptive $\epsilon$（適合\epsilonな敵対的学習）: データごとに個別な摂動範囲$\epsilon$を持つ敵対的事例により敵対的学習を行う
- 具体的な手法 : IAAT(2019), MMA(2020), CAT(2020)
- 個別のデータごとに$\epsilon$を適合するアイデアは良いが、経験的にほとんどのデータは、各クラスごとに分離して分布していることが予測され、そのクラス間の距離が多くの場合$\epsilon$以下であることが指摘されている
Adversarial Training with Semi/Unsupervised Learning（半教師, 教師なし学習と敵対的学習）: 半教師、教師なし学習によりラベル無しデータを用いて敵対的学習の精度を上げる方法
- 理論的および経験的な結果から、敵対的学習は多くのデータが必要であることが指摘されている。
- ラベル無しデータにより通常の学習と敵対的学習のsample complexity gapが大きく減少することが理論的に示された（2019）
- self-supervised learningにより敵対的ロバスト性が上がることが理論的に示された（2019）
- どの程度ラベル無しデータが必要となるかは理論的にあまり議論できていない。

敵対的学習の汎化問題

このレビューでは、以下の三つの観点で敵対的学習の汎化性能を議論している。

その内容と重要課題にフォーカスして以下で簡単に説明する。

Standard Generalization（通常の汎化性能）
- 通常の汎化誤差と敵対的ロバスト性にはトレードオフが存在するしないで意見が割れている
  - unlabeled dataがこのトレードオフを緩和することも主張されている
  - トレードオフはmin-max問題固有の問題ではなく、学習アルゴリズムに起因するとも言われている
Adversarially Robust Generalization（敵対的ロバスト性汎化性能）
- 訓練データの敵対的ロバスト性とテストデータの敵対的ロバスト性には大きなギャップが存在する
- このギャップを埋めるためには今のところearly stooppingが有効らしい（2020）
- Rademacher complexityやVC次元による理論的に解析もいくつかある
Generalization on Unseen Attacks（未知の敵対的事例に関する汎化）
- 複数のモデルやさまざまなノルムの敵対的事例を混ぜ合わせたりして内部最大化をより正確に行う方法が提案されている
- そもそも敵対的事例の理解が完全ではないことに起因して、あまり研究はなされていない

今後の発展

この論文の最後に紹介されている今後の発展について簡単にまとめる。

敵対的学習のmin-max問題
- 目的関数が非凸であるため大域的な最適解探索は困難
- PGDを用いた最適解探索が用いられるが、ロバスト性を保証することは難しい
- 非凸なmin-max問題を解く新たな方法が求められている
敵対的事例の過学習
- 訓練データとテストデータの敵対的ロバスト性には大きなギャップが必要
- 理論的には学習データが通常より多く必要
敵対的学習を超えて
- 敵対的ロバスト性と汎化性能のトレードオフは敵対的学習の潜在的なものであり、敵対的学習を超えた方法が必要と示唆されている