Kaji, Manresa & Pouliot (2020) An adversarial approach to structural estimation, arXiv.

Introduction
  • Genaratice adversarial networks (GAN) を使って経済データをシミュレートして構造推定する.
  • GAN = minimax game

 \displaystyle \min_{generator} \max_{discriminator} \text{classification accuracy}

genarator: シミュレーションによって仮想データを生成

discriminator: 仮想データと実データを判別

上の minimax 問題を解くことで,実データに最も近い仮想データを生成する generator を作る.

  • Goodfellow のオリジナルの GAN では generator と discriminator をどちらもニューラルネットワークで作っていたが,ここでは DGP が明示的に仮定されているので

   generator = structural econometric model

Adversarial Estimation Framework
  • 尤度関数を直接計算することは困難だがシミュレーションは可能なモデルを考える.
  • 観測データ: \{X_i\}_{i = 1}^n \overset{iid}{\sim} P_0
  • パラメータ: \theta such that  P_0 = P_{\theta_0}
  • 疑似データ: \{X_i^\theta\}_{i = 1}^m \overset{iid}{\sim} P _\theta.  \{X_i^\theta\} \theta に依存しない潜在変数  \tilde X_i によって決まるとする  X_i^\theta = T_\theta(\tilde X_i).
    • 例:First-price aucion.  X_i = \text{bid},  \tilde X_i = \text{value}
  • Classification:  D: \mathcal{X} \to [0, 1];  \{D(X) = 1\} =  X は真のDGPから生成されたデータと分類, \{D(X) = 0\} =  X は疑似データと分類

The adversarial estimator*1

\begin{align} \hat \theta = \arg\min_{\theta \in \Theta} \max_{D \in \mathcal{D}} \frac{1}{n} \sum_{i = 1}^n \log D(X_i) + \frac{1}{m} \sum_{i = 1}^m \log (1 - D(X_i^\theta))\end{align}

  • 目的関数は  2 \log(1/2) から  0 の間の値に収まる:
    • 下限: P_0 P_\theta が区別できない場合, D(X_i) = D(X_i^\theta) = 1/2
    • 上限: P_0 P_\theta が完全に区別できる場合, D(X_i) =1 かつ  D(X_i^\theta) = 0
  • このminimax 問題の population counterpart は

\begin{align} \min_{\theta \in \Theta} \max_{D \in \mathcal{D}} \mathbb{E}_{P_0}[ \log D(X_i)] + \mathbb{E}_{P_\theta}[ \log (1 - D(X_i^\theta))]\end{align}

と表すことができる.

  • このとき,内側の  D に関する最大化問題は明示的に解くことができて

\begin{align} D_\theta(X) := \frac{p_0(X)}{p_0(X) + p_\theta(X)} \end{align}

となる(Goodfellow et al., 2014, Proposition 1).ただし, p P の density. 

  •  D_\theta(X) D として使うとき,上の population 目的関数は  P_0 P_\thetaJensen-Shannon deivergence に他ならない:

\begin{align} \min_{\theta \in \Theta} \max_{D \in \mathcal{D}} \mathbb{E}_{P_0}[ \log D(X_i)] + \mathbb{E}_{P_\theta}[ \log (1 - D(X_i^\theta))] = \min_{\theta \in \Theta} \text{JS}(P_0 || P_\theta)\end{align}

  • さらに, \theta_0 が識別可能ならば  \theta_0 = \min_{\theta \in \Theta} \text{JS}(P_0 || P_\theta) が成り立つ(Goodfellow et al., 2014, Theorem 1).
  • Example 2 (Logistic discriminator)  \displaystyle D(X) = \frac{\exp(\lambda'X)}{1 + \exp(\lambda' X)}. このとき, \hat \theta について解いてみると, n^{-1}\sum_{i = 1}^n X_i \approx m^{-1}\sum_{i = 1}^m X_i^{\hat \theta} となる.
  • Example 3 (Oracle discriminator)  D_\theta を使って  \theta を推定すると

\begin{align} \hat \theta & = \arg\min_{\theta \in \Theta} \text{sample JS}(P_0 || P_\theta)\\& = \arg\min_{\theta \in \Theta}  \frac{1}{n} \sum_{i = 1}^n \log \frac{p_0(X_i)}{p_0(X_i) + p_\theta(X_i)} + \frac{1}{m} \sum_{i = 1}^m \log \frac{p_\theta(X_i^\theta)}{p_0(X_i^\theta) + p_\theta(X_i^\theta)}\end{align}

このとき, n/m \to 0 の下で  \hat \theta は効率的(MLEに等しい).

Statistical Properties
  • Bauer and Kohler (2019) Definition 2:

定義:Generalized hierarchical interaction model (GHIM)

 d \in \mathbb{N}_0,  d^* \in \{1, \dots , d\},  m(\cdot): \mathbb{R}^d \to \mathbb{R}.

 m = GHIM of order  d^* and level  0

 \iff For all  x \in \mathbb{R}^d,  \exists (a_1, \dots , a_{d^*}) \in \mathbb{R}^d and  f(\cdot): \mathbb{R}^d \to \mathbb{R} such that  m(x) = f(a_1'x, \dots, a_{d^*}'x)

 m = GHIM of order  d^* and level  l + 1

 \iff For all  x \in \mathbb{R}^d,  \exists K \in \mathbb{N}_0,  g_k(\cdot): \mathbb{R}^{d^*} \to \mathbb{R}, and  f_{1k}, \dots , f_{d^* k}: \mathbb{R}^d \to \mathbb{R} such that  f_{1k}, \dots , f_{d^* k} are GHIM of order  l and  m(x) = \sum_{k = 1}^K g_k(f_{1k}(x), \dots, f_{d^*k}(x))

  • Bauer and Kohler (2019) Theorem 1:
 \mathbb{E}[Y \mid X = x] = m(x) = GHIM of order  d^* and finite level  l.  \hat m_n(\cdot) Y X に最小二乗回帰して求めた多層ニューラルネットワークとする*2.このとき, \displaystyle \mathbb{E}|| m(X) - \hat m_n(X)||^2 = O\left( n^{- \frac{2p}{2p + d^*} }\right).  p は smoothness parameter*3.

Assumption 3 + regularity conditions  \Longrightarrow

Theorem 5: Hellinger distance between  p_{\hat \theta} and  p_0 =  O_P(n^{-1/2})

Theorem 6:  \sqrt{n}(\hat \theta - \theta_0) \overset{d}{\to} N(0, I_{\theta_0}^{-1} V I_{\theta_0}^{-1}).

  • 尤度関数が明示的に書けないので,Theorem 6 の分散を直接計算することは難しい.この論文ではブートストラップを用いることを提案.

*1:推定方法の発想は Indirect Inference と同じ.

*2:隠れ層やユニットの数の決め方は論文参照.

*3:いわゆる  p-smooth class.  p = q + s, where  q 回連続微分可能+ q導関数が指数  s のヘルダー連続.