Kaji, Manresa & Pouliot (2020) An adversarial approach to structural estimation, arXiv.
Introduction
- Genaratice adversarial networks (GAN) を使って経済データをシミュレートして構造推定する.
- GAN = minimax game
genarator: シミュレーションによって仮想データを生成
discriminator: 仮想データと実データを判別
上の minimax 問題を解くことで,実データに最も近い仮想データを生成する generator を作る.
- Goodfellow のオリジナルの GAN では generator と discriminator をどちらもニューラルネットワークで作っていたが,ここでは DGP が明示的に仮定されているので,
generator = structural econometric model
- Discriminator は何でもOK(この論文ではニューラルネットワーク).
Adversarial Estimation Framework
- 尤度関数を直接計算することは困難だがシミュレーションは可能なモデルを考える.
- 観測データ:
- パラメータ: such that
- 疑似データ:. は に依存しない潜在変数 によって決まるとする .
- 例:First-price aucion. ,
- Classification: ; = は真のDGPから生成されたデータと分類, = は疑似データと分類
The adversarial estimator*1
\begin{align} \hat \theta = \arg\min_{\theta \in \Theta} \max_{D \in \mathcal{D}} \frac{1}{n} \sum_{i = 1}^n \log D(X_i) + \frac{1}{m} \sum_{i = 1}^m \log (1 - D(X_i^\theta))\end{align}
- 目的関数は から の間の値に収まる:
- 下限: と が区別できない場合,
- 上限: と が完全に区別できる場合, かつ
- このminimax 問題の population counterpart は
\begin{align} \min_{\theta \in \Theta} \max_{D \in \mathcal{D}} \mathbb{E}_{P_0}[ \log D(X_i)] + \mathbb{E}_{P_\theta}[ \log (1 - D(X_i^\theta))]\end{align}
と表すことができる.
- このとき,内側の に関する最大化問題は明示的に解くことができて
\begin{align} D_\theta(X) := \frac{p_0(X)}{p_0(X) + p_\theta(X)} \end{align}
となる(Goodfellow et al., 2014, Proposition 1).ただし, は の density.
- を として使うとき,上の population 目的関数は と の Jensen-Shannon deivergence に他ならない:
\begin{align} \min_{\theta \in \Theta} \max_{D \in \mathcal{D}} \mathbb{E}_{P_0}[ \log D(X_i)] + \mathbb{E}_{P_\theta}[ \log (1 - D(X_i^\theta))] = \min_{\theta \in \Theta} \text{JS}(P_0 || P_\theta)\end{align}
- さらに, が識別可能ならば が成り立つ(Goodfellow et al., 2014, Theorem 1).
- Example 2 (Logistic discriminator) . このとき, について解いてみると, となる.
- Example 3 (Oracle discriminator) を使って を推定すると
\begin{align} \hat \theta & = \arg\min_{\theta \in \Theta} \text{sample JS}(P_0 || P_\theta)\\& = \arg\min_{\theta \in \Theta} \frac{1}{n} \sum_{i = 1}^n \log \frac{p_0(X_i)}{p_0(X_i) + p_\theta(X_i)} + \frac{1}{m} \sum_{i = 1}^m \log \frac{p_\theta(X_i^\theta)}{p_0(X_i^\theta) + p_\theta(X_i^\theta)}\end{align}
このとき, の下で は効率的(MLEに等しい).
Statistical Properties
- Bauer and Kohler (2019) Definition 2:
定義:Generalized hierarchical interaction model (GHIM)
, , .
= GHIM of order and level
For all , and such that
= GHIM of order and level
For all , , , and such that are GHIM of order and
- Bauer and Kohler (2019) Theorem 1:
- の次元ではなく に依存する.多層ニューラルネットワーク=dimension reduction が備わったノンパラメトリック手法
- Assumption 3: が GHIM of order and finite level . Discriminator のクラス ここで, Buer and Kohler (2019) Thorem 3 と同様の多層ニューラルネットワーク,.
Assumption 3 + regularity conditions
Theorem 5: Hellinger distance between and =
Theorem 6: .
- 尤度関数が明示的に書けないので,Theorem 6 の分散を直接計算することは難しい.この論文ではブートストラップを用いることを提案.