Kaji, Manresa & Pouliot (2020) An adversarial approach to structural estimation, arXiv.

Introduction

Genaratice adversarial networks (GAN) を使って経済データをシミュレートして構造推定する．
GAN = minimax game

$\displaystyle \min_{generator} \max_{discriminator} \text{classification accuracy}$

genarator: シミュレーションによって仮想データを生成

discriminator: 仮想データと実データを判別

上の minimax 問題を解くことで，実データに最も近い仮想データを生成する generator を作る．

Goodfellow のオリジナルの GAN では generator と discriminator をどちらもニューラルネットワークで作っていたが，ここでは DGP が明示的に仮定されているので，

generator = structural econometric model

Discriminator は何でもOK（この論文ではニューラルネットワーク）．

Adversarial Estimation Framework

尤度関数を直接計算することは困難だがシミュレーションは可能なモデルを考える．
観測データ： $\{X_i\}_{i = 1}^n \overset{iid}{\sim} P_0$
パラメータ： $\theta$ such that $P_0 = P_{\theta_0}$
疑似データ： $\{X_i^\theta\}_{i = 1}^m \overset{iid}{\sim} P _\theta$ . $\{X_i^\theta\}$ は $\theta$ に依存しない潜在変数 $\tilde X_i$ によって決まるとする $X_i^\theta = T_\theta(\tilde X_i)$ .

例：First-price aucion. $X_i = \text{bid}$ , $\tilde X_i = \text{value}$

Classification: $D: \mathcal{X} \to [0, 1]$ ; $\{D(X) = 1\}$ = $X$ は真のDGPから生成されたデータと分類， $\{D(X) = 0\}$ = $X$ は疑似データと分類

The adversarial estimator*1

\begin{align} \hat \theta = \arg\min_{\theta \in \Theta} \max_{D \in \mathcal{D}} \frac{1}{n} \sum_{i = 1}^n \log D(X_i) + \frac{1}{m} \sum_{i = 1}^m \log (1 - D(X_i^\theta))\end{align}

目的関数は $2 \log(1/2)$ から $0$ の間の値に収まる：

下限： $P_0$ と $P_\theta$ が区別できない場合， $D(X_i) = D(X_i^\theta) = 1/2$
上限： $P_0$ と $P_\theta$ が完全に区別できる場合， $D(X_i) =1$ かつ $D(X_i^\theta) = 0$

このminimax 問題の population counterpart は

\begin{align} \min_{\theta \in \Theta} \max_{D \in \mathcal{D}} \mathbb{E}_{P_0}[ \log D(X_i)] + \mathbb{E}_{P_\theta}[ \log (1 - D(X_i^\theta))]\end{align}

と表すことができる．

このとき，内側の $D$ に関する最大化問題は明示的に解くことができて

\begin{align} D_\theta(X) := \frac{p_0(X)}{p_0(X) + p_\theta(X)} \end{align}

となる（Goodfellow et al., 2014, Proposition 1）．ただし， $p$ は $P$ の density.

$D_\theta(X)$ を $D$ として使うとき，上の population 目的関数は $P_0$ と $P_\theta$ の Jensen-Shannon deivergence に他ならない：

\begin{align} \min_{\theta \in \Theta} \max_{D \in \mathcal{D}} \mathbb{E}_{P_0}[ \log D(X_i)] + \mathbb{E}_{P_\theta}[ \log (1 - D(X_i^\theta))] = \min_{\theta \in \Theta} \text{JS}(P_0 || P_\theta)\end{align}

さらに， $\theta_0$ が識別可能ならば $\theta_0 = \min_{\theta \in \Theta} \text{JS}(P_0 || P_\theta)$ が成り立つ（Goodfellow et al., 2014, Theorem 1）．
Example 2 (Logistic discriminator) $\displaystyle D(X) = \frac{\exp(\lambda'X)}{1 + \exp(\lambda' X)}$ . このとき， $\hat \theta$ について解いてみると， $n^{-1}\sum_{i = 1}^n X_i \approx m^{-1}\sum_{i = 1}^m X_i^{\hat \theta}$ となる．
Example 3 (Oracle discriminator) $D_\theta$ を使って $\theta$ を推定すると

\begin{align} \hat \theta & = \arg\min_{\theta \in \Theta} \text{sample JS}(P_0 || P_\theta)\\& = \arg\min_{\theta \in \Theta} \frac{1}{n} \sum_{i = 1}^n \log \frac{p_0(X_i)}{p_0(X_i) + p_\theta(X_i)} + \frac{1}{m} \sum_{i = 1}^m \log \frac{p_\theta(X_i^\theta)}{p_0(X_i^\theta) + p_\theta(X_i^\theta)}\end{align}

このとき， $n/m \to 0$ の下で $\hat \theta$ は効率的（MLEに等しい）．

Statistical Properties

Bauer and Kohler (2019) Definition 2：

定義：Generalized hierarchical interaction model (GHIM)

$d \in \mathbb{N}_0$ , $d^* \in \{1, \dots , d\}$ , $m(\cdot): \mathbb{R}^d \to \mathbb{R}$ .

$m$ = GHIM of order $d^*$ and level $0$

$\iff$ For all $x \in \mathbb{R}^d$ , $\exists (a_1, \dots , a_{d^*}) \in \mathbb{R}^d$ and $f(\cdot): \mathbb{R}^d \to \mathbb{R}$ such that $m(x) = f(a_1'x, \dots, a_{d^*}'x)$

$m$ = GHIM of order $d^*$ and level $l + 1$

$\iff$ For all $x \in \mathbb{R}^d$ , $\exists K \in \mathbb{N}_0$ , $g_k(\cdot): \mathbb{R}^{d^*} \to \mathbb{R}$ , and $f_{1k}, \dots , f_{d^* k}: \mathbb{R}^d \to \mathbb{R}$ such that $f_{1k}, \dots , f_{d^* k}$ are GHIM of order $l$ and $m(x) = \sum_{k = 1}^K g_k(f_{1k}(x), \dots, f_{d^*k}(x))$

Bauer and Kohler (2019) Theorem 1：

$\mathbb{E}[Y \mid X = x] = m(x)$ = GHIM of order $d^*$ and finite level $l$ . $\hat m_n(\cdot)$ を $Y$ を $X$ に最小二乗回帰して求めた多層ニューラルネットワークとする*2．このとき， $\displaystyle \mathbb{E}|| m(X) - \hat m_n(X)||^2 = O\left( n^{- \frac{2p}{2p + d^*} }\right)$ . $p$ は smoothness parameter*3.

$X$ の次元ではなく $d^*$ に依存する．多層ニューラルネットワーク＝dimension reduction が備わったノンパラメトリック手法
Assumption 3： $\log(p_0/p_\theta)$ が GHIM of order $d^*$ and finite level $l$ . Discriminator のクラス $\mathcal{D}_n : = \{\Lambda(f)\}$ ここで， $f \in$ Buer and Kohler (2019) Thorem 3 と同様の多層ニューラルネットワーク， $\Lambda(x) = \text{logit}(x)$ .