Abadie, Athey, Imbens & Wooldridge (2020) Sampling-based versus design-based uncertainty in regression analysis, ECTA.

Section 1. Introduction

Sampling-based uncertainty: パラメータ推定のランダムネスは母集団からのランダムなサンプリングによるものと考える．母集団が（無限に）大きいときにはこの考え方は妥当．しかし，母集団として州や国を観測単位とするときには不自然な考え方．
Design-based uncertainty: Randomized experiments における randomization inference に基づく（Neyman, 1923/1990）．パラメータ推定のランダムネスはトリートメントの割り振りのランダムネスによるものと考える．

Section 2. A simple example

サイズ $n$ の有限母集団を考える．この中から $N$ 個のサンプルを抽出する．
$R_i \in \{0, 1\}$ : サンプルされたか否かを表すダミー変数．
$X_i \in \{0, 1\}$ : ダミー説明変数． $n_x$ ( $N_x$ ): $X = x$ を満たす母集団（標本）のサイズ．
Outcome:

\begin{align} Y_i = Y_i^*(X_i) = \begin{cases}Y^*_i(1) & \text{if } X_i = 1 \\ Y^*_i(0) & \text{if } X_i = 0 \end{cases}\end{align}

Potential outcome $Y_i^*(\cdot)$ は deterministic な関数だとする*1．一方で， $R_i$ と $X_i$ はランダム．したがって，観測される $Y_i$ もランダム．
Three estimands, one descriptive and two causal:

\begin{align}\theta^\text{descr} & = \frac{1}{n_1}\sum_{i = 1}^n X_i Y_i - \frac{1}{n_0} \sum_{i = 1}^n(1 - X_i)Y_i\\ \theta^\text{causal, sample} & = \frac{1}{N}\sum_{i = 1}^n R_i (Y_i^*(1) - Y_i^*(0))\\\theta^\text{causal} & = \frac{1}{n}\sum_{i = 1}^n (Y_i^*(1) - Y_i^*(0))\end{align}

これらのパラメータはいずれも直接計算できない．そこで，以下の観測データによる feasible な推定量を考える：

\begin{align} \hat \theta = \frac{1}{N_1}\sum_{i = 1}^n R_i X_i Y_i - \frac{1}{N_0} \sum_{i = 1}^n R_i(1 - X_i)Y_i\end{align}

Assumption 1: Random sampling

$\Pr(\mathbf{R} = \mathbf{r}) = 1/\binom{n}{N}$ for all $\mathbf{r}$ such that $\sum_{i = 1}^n r_i = N$

Assumption 2: Random assignment

$\Pr(\mathbf{X} = \mathbf{x} \mid \mathbf{R}) = 1/\binom{n}{n_1}$ for all $\mathbf{x}$ such that $\sum_{i = 1}^n X_i = n_1$

これらの仮定の下， $N_x/N = n_x/n$ , $\mathbb{E}R_i = N/n$ , $\mathbb{E}X_i = N_1/N$ に注意すれば，

\begin{align} \mathbb{E}\left[ \hat \theta \mid \mathbf{X}, N_1, N_0 \right] & = \frac{N}{N_1 n}\sum_{i = 1}^n X_i Y_i^*(1) - \frac{N}{N_0 n} \sum_{i = 1}^n (1 - X_i)Y_i^*(0) = \theta^\text{descr}\\ \mathbb{E}\left[ \hat \theta \mid \mathbf{R}, N_1, N_0 \right] & = \theta^\text{causal, sample} \\ \mathbb{E}\left[ \hat \theta \mid N_1, N_0 \right] & = \theta^\text{causal} \end{align}

を得る．

また， $S_x^2$ を $\{Y_i^*(x)\}_{i = 1}^n$ の分散， $S_\theta^2$ を $\{Y_i^*(1) - Y_i^*(0)\}_{i = 1}^n$ の分散とする．
このとき，

Total Variance

$\displaystyle \text{var}(\hat \theta \mid N_1, N_0) = \frac{S_1^2}{N_1} + \frac{S_0^2}{N_0} - \frac{S_\theta^2}{n_0 + n_1}$

"Sampling variance" conditional on $\mathbf{X}$

$\displaystyle\mathbb{E} \left[ \text{var}(\hat \theta \mid \mathbf{X}, N_1, N_0) \mid N_1, N_0 \right]= \frac{S_1^2}{N_1}\left( 1 - \frac{N_1}{n_1}\right) + \frac{S_0^2}{N_0}\left( 1 - \frac{N_0}{n_0}\right)$

"Design variance" conditional on $\mathbf{R}$

$\displaystyle\mathbb{E} \left[ \text{var}(\hat \theta \mid \mathbf{R}, N_1, N_0) \mid N_1, N_0 \right]= \frac{S_1^2}{N_1} + \frac{S_0^2}{N_0} - \frac{S_\theta^2}{N_0 + N_1}$

計算例：

\begin{align} \hat \theta - \mathbb{E}[\hat \theta \mid \mathbf{R}, N_1, N_0] & = \frac{1}{N}\sum_{i = 1}^n \frac{N}{N_1} X_i R_i Y_i^*(1) - \frac{1}{N} \sum_{i = 1}^n \frac{N}{N_0} (1 - X_i) R_i Y_i^*(0) \\ & \quad - \frac{1}{N}\sum_{i = 1}^n R_i (Y_i^*(1) - Y_i^*(0)) \\ & = \frac{1}{N}\sum_{i = 1}^n D_i Z_i \end{align}

where, noting that $1 - N/N_0 = - N_1/N_0$ ,

\begin{align} D_i & = \frac{N}{N_1} X_i - 1 \\ Z_i & = R_i Y_i^*(1) + \frac{N_1}{N_0} R_i Y_i^*(0) \end{align}

したがって，

$\displaystyle \text{var}(\hat \theta \mid \mathbf{R}, N_1, N_0) = \frac{1}{N^2}\mathbb{E}\left[ \left( \sum_{i = 1}^n D_i Z_i \right)^2 \mid \mathbf{R}, N_1, N_0 \right]$

を計算して， $\mathbf{R}$ について期待値をとればよい．

Sampling variance は sampling rate が上がればゼロに近づく（ $N_X/n_x \to 1$ ）．
Design variance は母集団のサイズに影響を受けない．Total variance と sampling variance は母集団が大きくなるにつれて小さくなる．

Section 3. The general case

$Z_{n,i}$ : 固定の個人属性， $U_{n,i}$ : potential outcome を生成する causal 変数， $Y_{n,i} = Y_{n,i}^*(U_{n,i})$ realized outcome.
Assumption: $\{U_{n,i}\}$ are jointly independent and independent of $\{R_{n,i}\}$ .
$\{X_{n,i}\}$ を $\{Z_{n,i}\}$ と相関しないように $\{U_{n,i}\}$ を変換したものとする．変換方法は (3.1) 参照．
Least squares estimator:

$(\hat \theta_n, \hat \gamma_n) = \arg\min_{(\theta, \gamma)} \sum_{i = 1}^n R_{n,i} (Y_{n,i} - X_{n,i}'\theta - Z_{n,i}')^2$

以降では， $\{R_{n,i}\}$ と $\{X_{n,i}\}$ のいずれか or 両方を given として， $\theta_n^\text{descr}$ , $\theta_n^\text{causal, sample}$ , $\theta_n^\text{causal}$ を定義し， $\sqrt{N}(\hat \theta_n - \theta_n^\text{xxx})$ の漸近分布を調べる．Theorem 3 参照.
Theorem 3 の重要な implication の１つは，標本サイズが母集団に対して non-negligible の場合（i.e., 有限母集団の場合），通常の無限母集団の場合に比べて， $\theta_n^\text{descr}$ と $\theta_n^\text{causal}$ に関する標準誤差が小さくなる．

*1:固定の個人属性とみなす．