Forastiere, Airoldi & Mealli (2020) Identification and estimation of treatment and interference effects in observational studies on networks, JASA.

Setup

Undirected network $G = (N, E)$ , where $N =$ set of nodes, and $E =$ set of edges.
$N_i =$ $i$ とリンクしているnodeの集合 (degree)， $N_{-i} =$ $i$ とpath lengthが2以上のnodeの集合 ( $N = \{i\} \cup N_i \cup N_{-i}$ ).
Binary treatment: $Z_i$ , $\mathbf{Z} = (Z_1, \ldots, Z_N)$ ; observed outcome: $Y_i = Y_i(\mathbf{Z})$ ; covariates: $X_i$ .

Assumption (Neighborhood interference)

ある関数 $g_i : \{0,1\}^{N_i} \to \mathcal{G}_i$ が存在し， $g_i(\mathbf{Z}_{N_i}) = g_i(\mathbf{Z}_{N_i}')$ ならば $Y_i(Z_i, \mathbf{Z}_{N_i}, \mathbf{Z}_{N_{-i}}) = Y_i(Z_i, \mathbf{Z}_{N_i}', \mathbf{Z}_{N_{-i}}')$ .

つまり，neighbor以外のトリートメントからの影響はない．

$G_i = g_i(\mathbf{Z}_{N_i})$ と書く．典型的な例としては， $G_i = \sum_{j \in N_i} Z_j$ など．

Here we assume the function $g_i(\cdot)$ to be known and well-specified.

この仮定により，potential outcomeは $Y_i(z,g)$ と書ける．

Causal Estimands

$G_i$ の値域は $i$ によって異なる． $G_i = g$ を実現可能なnodeの集合を $V_g = \{i \mid g \in \mathcal{G}_i\}$ と書く．
この論文でも potential outcome は固定値とする (p. 5, para. 3).

Individual main effect

$\tau(g) = \mu(1,g ; V_g) - \mu(0, g; V_g)$ , where $\mu(z,g; V) = \mathbb{E}[Y_i(z,g) \mid i \in V]$ .

Overall main effect

$\tau = \sum_{g \in \mathcal{G}} \tau(g) \Pr(G_i = g)$

Spillover effect

$\delta(g; z) = \mu(z, g ; V_g) - \mu(z, 0; V_g)$

Overall spillover effect

$\Delta(z) = \sum_{g \in \mathcal{G}} \delta(g; z) \Pr(G_i = g)$

$\mu(z,g; V)$ を average dose-response function (ADRF) と呼ぶ．

Assumption (Unconfoundedness)

$Y_i(z, g) \perp Z_i, G_i \mid X_i$ for all $z \in \{0,1\}, \: g \in \mathcal{G}_i$ .

以上の仮定の下でADRFは識別可能．

Theorem 1:

Assumptions (Neiborhood interference) + (Uncondoundedness)

$\Longrightarrow$

$\mu(z,g; V_g) = \sum_x \mathbb{E}\left[ Y_i \mid Z_i = z, G_i = g, X_i = x, i \in V_g \right] \Pr(X_i = x \mid i \in V_g)$

次のセクションではSUTVAを誤って仮定したときのバイアスについて考察している（ここでは省略）．

Generalized Propensity Score

Joint propensity score： $\psi(z;g;x) = \Pr(Z_i = z, G_i =g \mid X_i = x)$
定義から以下のことが分かる：

Proposition 1:

$\Pr(Z_i =z, G_i =g \mid X_i, \psi(z; g; X_i)) = \Pr(Z_i =z, G_i =g \mid \psi(z; g; X_i))$

Proposition 2:

$Y_i(z, g) \perp Z_i, G_i \mid \psi(z; g; X_i)$ under (Unconfoundedness).

Proposition 2により， $\mu(z,g; V)$ は $V$ に属するデータで以下を計算することで推定できる：

$\mathbb{E}\left[ \mathbb{E}\left[ Y_i \mid Z_i = z, G_i = g, \psi(z; g; X_i) \right] \mid Z_i = z, G_i = g\right]$

しかし， $\psi(z; g; X_i)$ はbivariateかつ $G_i$ は多くの異なる値を取りうるので，propensity scoreをmatchさせるのが難しい可能性がある．

ここで， $X^z_i$ を $X_i$ の要素で自分のトリートメントに影響する変数， $X_i^g$ を $X_i$ の要素で $G_i$ に影響する変数とする．一般的にこれらは重複する要素をもつ．
Neighborhood propensity score： $\lambda(g;z;x^g) = \Pr(G_i = g \mid Z_i = z, X_i^g = x^g)$
Individual propensity score： $\phi(z; x^z) = \Pr(Z_i =z \mid X_i^z = x^z)$