Stein’s method: Ch.2 Ross and Pekoz (2007) 1/2

Coupling

定義:確率変数のペア  (\hat X, \hat Y) \hat X =_d X かつ  \hat Y =_d Y を満たすとき,それらを  (X, Y)coupling という.

  • 例: X,Y,U \sim \text{Uniform}(0,1) とするとき  (U, 1- U) (X, Y) の coupling.
  •  \Pr(X \le x) \ge \Pr(Y \le x) for all  x であるとき  X \le_{st} Y と書く.

Proposition 2.3

 X \le_{st} Y であるとき, \hat X \le_{st} \hat Y (a.s.) を満たす  (X, Y) の coupling  (\hat X, \hat Y) が構成できる.

証明 X Y の分布関数をそれぞれ  F G とし, \hat X = F^{-1}(U),  \hat Y = G^{-1}(U) とおく.ただし  U \sim \text{Uniform}(0,1).  \hat X \le_{st} \hat Y は明らか.

    \Pr(\hat X \le x) = \Pr(U \le F(x)) = F(x)

より  \hat X =_d X.  \hat Y =_d Y も同様.■

 

定義: (X, Y) の coupling のうち, \Pr(\hat X = \hat Y) となる確率が最も高いものを maximal coupling という.

  • 注: \hat X \hat Y が独立の確率変数ならば当然  \Pr(\hat X = \hat Y) = 0

Proposition 2.5

 X Y の密度関数をそれぞれ  f g とするとき,maximal coupling  (\hat X, \hat Y)

    \Pr(\hat X = \hat Y) = \int \min\{f(x), g(x)\}dx

を満たす.

証明 p = \int \min\{f(x), g(x)\}dx,  A = \{x \mid f(x) \lt g(x) \} とおく.

\begin{align} \Pr(\hat X = \hat Y) &= \Pr(\hat X = \hat Y \in A) + \Pr(\hat X = \hat Y \in A^c)\\ &\le \Pr(\hat X \in A) + \Pr(\hat Y \in A^c)\\ &= \Pr( X \in A) + \Pr(Y \in A^c)\\ &= \int_A f(x)dx + \int_{A^c} g(x)dx = p. \end{align}

次に逆の不等式を導出する.確率変数  (B,C,D) がそれぞれ以下の密度関数をもつとする:

\begin{align} \displaystyle b(x) &= \frac{\min\{f(x), g(x)\}}{p}\\ c(x) &= \frac{f(x) - \min\{f(x), g(x)\}}{1 - p}\\ d(x) &= \frac{g(x) - \min\{f(x), g(x)\}}{1 - p}\end{align}

さらに  I \sim \text{Bernoulli}(p)

\begin{cases} \displaystyle \hat X = \hat Y = B & \text{if } I =1\\ \hat X = C, \; \hat Y = D & \text{if } I =0\end{cases}

とおく.明らかに  \Pr(\hat X = \hat Y) \ge p. 最後に,この  (\hat X, \hat Y) (X, Y) の coupling であることを示す.

\begin{align} \displaystyle \Pr(\hat X \le x) & = \Pr(\hat X \le x \mid I = 1)p + \Pr(\hat X \le x \mid I = 0)(1 - p) \\ & = p \int^x b(x)dx + (1-p) \int^x c(x)dx = \int^x f(x)dx.\end{align}

 \hat Y =_d Y も同様.■

  • 離散確率変数の場合は  \Pr(\hat X = \hat Y) = \sum_x \min\{f(x), g(x)\} になる.

 

定義:2つの確率変数  (X, Y) について,全変動距離 (total variation distance) を

    d_{TV}(X, Y) = \sup_A| \Pr(X \in A) - \Pr(Y \in A) |

で定義する.

Proposition 2.7

 (\hat X, \hat Y) (X, Y) の maximal coupling とするとき,

    d_{TV}(X, Y) = \Pr(\hat X \neq \hat Y)

が成立する.

証明 A = \{x \mid f(x) \gt g(x) \} とおく.このとき,

\begin{align} d_{TV}(X, Y) & = \max\{ \Pr(X \in A) - \Pr(Y \in A), \:  \Pr(Y \in A^c) - \Pr(X \in A^c)\} \\ &= \max\{ \Pr(X \in A) - \Pr(Y \in A), \:  1 - \Pr(Y \in A) - 1 + \Pr(X \in A)\} \\ & = \Pr(X \in A) - \Pr(Y \in A) \end{align}

したがって,Proposition 2.5 から

\begin{align} \Pr(\hat X \neq \hat Y) &= 1 - \int \min\{f(x), g(x)\}dx \\ &= 1 - \int_A g(x)dx - \int_{A^c} f(x) dx \\ &= 1 - \Pr(Y \in A) - 1 + \Pr(X \in A) \\ &= d_{TV}(X, Y).\end{align}