Athey, Eckles & Imbens (2018) Exact p-values for network interference, JASA.

Setup
  • Population  \mathbb{P} = \{1, \ldots, N\} of  N individuals.
  • 観測される Treatments  \mathbf{W} = \{W_1, \ldots, W_N\} \in \mathbb{W} = \{0, 1\}^N.
  • Potential outcomes  \mathbf{Y} : \mathbb{W} \mapsto \mathbb{Y}^N.  \mathbf{W} = \mathbf{w} であるときの potential outcomes を  \mathbf{Y}(\mathbf{w}) = (Y_1(\mathbf{w}), \ldots, Y_N(\mathbf{w})) と書く.このとき,観測される outcomes は  \mathbf{Y}^{obs} = \mathbf{Y}(\mathbf{W}).
  • Undirected 隣接行列: \mathbf{G} \in \mathbb{G}
  • Observables:  (\mathbf{Y}^{obs}, \mathbf{W}, \mathbf{G})*1.

以下を定義:

Level Sets: 各  i \mathbf{w} \in \mathbb{W} について,ある帰無仮説  H_0 の下で outcome  Y_i(\mathbf{w}) と同水準の outcome を達成するすべての  \mathbf{w} \in \mathbb{W}. すなわち,

 \mathbb{V}(i, \mathbf{w}, H_0) = \{\mathbf{w}' \in \mathbb{W} \mid Y_i(\mathbf{w}') = Y_i(\mathbf{w}) \text{ given } H_0\}

具体的な帰無仮説として,以下を考える*2

 H_0 (No spillovers):  Y_i(\mathbf{w}) = Y_i(\mathbf{w'}) for all  i and all  \mathbf{w}, \mathbf{w}' \in \mathbb{W} such that  w_i = w_i'.

この場合,例えば  N = 3 とすれば,

 \mathbb{V}(1, (1,0,0), H_0) = \{(1,0,0), (1,0,1), (1,1,0), (1,1,1)\}

となる.

Artificial Experiments:  H_0 (No spillovers) の場合
  • p値を計算するための subpopulation を選ぶ.これを focal subpopulation と呼び  \mathbb{P}_F で表す.
  • ここで, N_F = \mathbb{P}_F の cardinality, \mathbf{Y}_F(\mathbf{w}) = focal units の potential outcomes, \mathbf{Y}_F^{obs} = \mathbf{Y}_F(\mathbf{W}) と書くことにする.
  • 検定の方針:検定統計量  T(\mathbf{Y}_F^{obs},\mathbf{W},\mathbf{G}) を計算し,artificial experiments によってシミュレートされた  T(\mathbf{Y}_F(\mathbf{W}),\mathbf{W},\mathbf{G}) の分布からp値を求める*3

以下,単純化のため  N は偶数とし, \mathbf{G} N/2 個のペアによって構成されるとする*4

Step 1:

  • 各ペアから1人ランダムに選ぶ = focal subpopulation.

Step 2:

  •  H_0 を真としたとき, i にとって実際の treatment と無差別な treatment assignment の集合は  \mathbb{V}(i, \mathbf{W}, H_0) = \{\mathbf{w} \in \mathbb{W} \mid w_i = W_i \} で与えられる.
  • したがって,focal units 全員にとって無差別な treatment assignment の集合は \mathbb{W}_S = \cap_{i \in \mathbb{P}_F}\mathbb{V}(i, \mathbf{W}, H_0) となる.  \mathbb{W}_S においては non-focal units の treatment status のみが変わりうることに注意. \mathbb{W}_S の要素をランダムに取り換えて計算を繰り返すことで統計量の分布を作る.

Step 3:

  •  \ell(i) i のパートナーとして,以下のような potential outcome model を考える:

 Y_i(w_i, w_{\ell(i)}) = \alpha + \tau_{direct} w_i + \tau_{spill} w_{\ell(i)} + \epsilon_i

  •  H_0 が真であれば  \tau_{spill} = 0.
  •  \epsilon_i \sim_{i.i.d.} N(0, \sigma^2) と仮定すれば,尤度関数は

 \displaystyle \mathcal{L}( \sigma^2, \alpha, \tau_{direct}, \tau_{spill}) = \prod_{i \in \mathbb{P}_F} \frac{1}{\sqrt{2 \pi \sigma^2 }} \exp\left( - \frac{1}{2 \sigma^2} (Y_i^{obs} - \alpha - \tau_{direct} W_i - \tau_{spill} W_{\ell(i)})^2 \right)

  • コアテストを考える. H_0: \tau_{spill} = 0 の下で最尤推定を実施して*5 \tau_{spill} = 0 で評価した  \tau_{spill} に関するスコアが十分ゼロに近いかをチェックする.
  • 具体的には,検定統計量は以下のかたちになる:
 \displaystyle T_{score}(\mathbf{Y}_F^{obs},\mathbf{W},\mathbf{G}) = \frac{1}{N_F} \sum_{i \in \mathbb{P}_F} \left(Y_i^{obs} - \bar{Y}_{F,0}^{obs} - W_i (\bar{Y}_{F,1}^{obs} - \bar{Y}_{F,0}^{obs}) \right) W_{\ell(i)}

ここで, \bar{Y}_{F,0}^{obs} は focal units で  W_i = 0 である人たちの  Y_i^{obs} の平均値. \bar{Y}_{F,1}^{obs} も同様*6

Step 4:

  •  \mathbb{W}_S から要素をランダムに取り出す: \{\mathbf{w}_b^* \in \mathbb{W}_S\}_{b=1}^B
  •  T_{score} を各  \mathbf{w}_b^* について計算し(変化するのは  W_{\ell(i)} の値のみ),それらの絶対値が  T_{score}(\mathbf{Y}_F^{obs},\mathbf{W},\mathbf{G}) を上回る割合を計算する = p値.

 

*1:論文中では individual attributes  \mathbf{X} = (X_1, \ldots, X_N) も観測できるとしているがここでは無視する

*2:論文中では他にも様々な帰無仮説を提示している

*3:Focal subpopulation をどうやって選ぶかによって検定力が影響を受けてしまうのでは?  \Longrightarrow Yes. 論文 Section 5.4 参照

*4:より一般的なケースは論文参照

*5:単に  \{Y_i^{obs}\}_{i \in \mathbb{P}_F} \{(1, W_i)\}_{i \in \mathbb{P}_F} にOLS回帰するだけ

*6: \hat \alpha = \bar{Y}_{F,0}^{obs},  \hat \tau_{direct} = \bar{Y}_{F,1}^{obs} - \bar{Y}_{F,0}^{obs}