Forastiere, Airoldi & Mealli (2020) Identification and estimation of treatment and interference effects in observational studies on networks, JASA.

Setup
  • Undirected network  G = (N, E), where  N = set of nodes, and  E = set of edges.
  •  N_i =  i とリンクしているnodeの集合 (degree), N_{-i} =  i とpath lengthが2以上のnodeの集合 ( N = \{i\} \cup N_i \cup N_{-i}).
  • Binary treatment:  Z_i,  \mathbf{Z} = (Z_1, \ldots, Z_N); observed outcome:  Y_i = Y_i(\mathbf{Z}); covariates:  X_i.

Assumption (Neighborhood interference)

ある関数  g_i : \{0,1\}^{N_i} \to \mathcal{G}_i が存在し, g_i(\mathbf{Z}_{N_i}) = g_i(\mathbf{Z}_{N_i}') ならば  Y_i(Z_i, \mathbf{Z}_{N_i}, \mathbf{Z}_{N_{-i}}) = Y_i(Z_i, \mathbf{Z}_{N_i}', \mathbf{Z}_{N_{-i}}').

つまり,neighbor以外のトリートメントからの影響はない.

  •  G_i = g_i(\mathbf{Z}_{N_i}) と書く.典型的な例としては, G_i = \sum_{j \in N_i} Z_j など.

Here we assume the function  g_i(\cdot) to be known and well-specified.

  • この仮定により,potential outcomeは  Y_i(z,g) と書ける.
Causal Estimands
  •  G_i の値域は  i によって異なる. G_i = g を実現可能なnodeの集合を  V_g = \{i \mid g \in \mathcal{G}_i\} と書く.
  • この論文でも potential outcome は固定値とする (p. 5, para. 3).

Individual main effect

 \tau(g) = \mu(1,g ; V_g) - \mu(0, g; V_g), where  \mu(z,g; V) = \mathbb{E}[Y_i(z,g) \mid i \in V] .

Overall main effect

 \tau = \sum_{g \in \mathcal{G}} \tau(g) \Pr(G_i = g)

Spillover effect

 \delta(g; z) = \mu(z, g ; V_g) - \mu(z, 0; V_g)

Overall spillover effect

 \Delta(z) = \sum_{g \in \mathcal{G}} \delta(g; z) \Pr(G_i = g)

  •  \mu(z,g; V) を average dose-response function (ADRF) と呼ぶ.

Assumption (Unconfoundedness)

 Y_i(z, g) \perp Z_i, G_i \mid X_i for all  z \in \{0,1\}, \: g \in \mathcal{G}_i.

  • 以上の仮定の下でADRFは識別可能.

Theorem 1:

Assumptions (Neiborhood interference) + (Uncondoundedness)

 \Longrightarrow

 \mu(z,g; V_g) = \sum_x \mathbb{E}\left[ Y_i \mid Z_i = z, G_i = g, X_i = x, i \in V_g \right] \Pr(X_i = x \mid i \in V_g)

  • 次のセクションではSUTVAを誤って仮定したときのバイアスについて考察している(ここでは省略).
Generalized Propensity Score
  • Joint propensity score \psi(z;g;x) = \Pr(Z_i = z, G_i =g \mid X_i = x)
  • 定義から以下のことが分かる:

Proposition 1:

 \Pr(Z_i =z, G_i =g \mid X_i, \psi(z; g; X_i)) = \Pr(Z_i =z, G_i =g \mid \psi(z; g; X_i))

Proposition 2:

 Y_i(z, g) \perp Z_i, G_i \mid \psi(z; g; X_i) under (Unconfoundedness).

  • Proposition 2により, \mu(z,g; V) V に属するデータで以下を計算することで推定できる:

 \mathbb{E}\left[ \mathbb{E}\left[ Y_i \mid Z_i = z, G_i = g, \psi(z; g; X_i) \right] \mid Z_i = z, G_i = g\right]

  • しかし, \psi(z; g; X_i) はbivariateかつ  G_i は多くの異なる値を取りうるので,propensity scoreをmatchさせるのが難しい可能性がある.

 

  • ここで, X^z_i X_i の要素で自分のトリートメントに影響する変数, X_i^g X_i の要素で  G_i に影響する変数とする.一般的にこれらは重複する要素をもつ.
  • Neighborhood propensity score \lambda(g;z;x^g) = \Pr(G_i = g \mid Z_i = z, X_i^g = x^g)
  • Individual propensity score \phi(z; x^z) = \Pr(Z_i =z \mid X_i^z = x^z)

Proposition 3:

 Y_i(z, g) \perp Z_i, G_i \mid \lambda(z; g; X_i^g), \phi(1; X_i^z) under (Unconfoundedness).

  • したがって, \mu(z,g; V) は以下を計算して推定しても良い:

 \mathbb{E}\left[ \mathbb{E}\left[ Y_i \mid Z_i = z, G_i = g, \lambda(z; g; X_i^g), \phi(1; X_i^z) \right] \mid Z_i = z, G_i = g\right]

  • 具体的な手順はSection 5.2参照.
  • Bootstrapによるinferenceも提案:Appendix D.