Buhlmann and van de Geer (2011) Section 6.2 Least squares and the Lasso 2/2

6.2.2 続き

  • Let  S \subset \{1, \ldots, p \},  \beta_{j,S} := \beta_j 1\{j \in S\},  \beta_{j,S^c} := \beta_j 1\{j \notin S\}.
  • 明らかに  \beta = \beta_S + \beta_{S^c}.

Lemma 6.3: On  \mathcal{T} with  \lambda \ge 2\lambda_0,  2|| \mathbf{X}(\hat \beta - \beta^0) ||_2^2/n + \lambda || \hat \beta_{S_0^c} ||_1 \le 3 \lambda || \hat \beta_{S_0} -\beta_{S_0}^0 ||_1.

Proof.

Lemma 6.1 と  \lambda \ge 2\lambda_0 から,

\begin{align*}2||\mathbf{X}(\hat \beta - \beta^0) ||_2^2/n + 2\lambda || \hat \beta ||_1 \le \lambda ||\hat \beta - \beta^0|| + 2 \lambda || \beta^0 ||_1\end{align*}

また,三角不等式から

\begin{align*} || \hat \beta ||_1 = || \hat \beta_{S_0} ||_1 + || \hat \beta_{S_0^c} ||_1 \ge || \beta_{S_0}^0 ||_1 - || \hat \beta_{S_0} - \beta_{S_0}^0 ||_1 + || \hat \beta_{S_0^c} ||_1 \end{align*}

さらに, || \beta^0 ||_1 = || \beta^0_{S_0} ||_1,  ||\hat \beta - \beta^0||_1 = ||\hat \beta_{S_0} - \beta^0_{S_0}||_1 + ||\hat \beta_{S_0^c}||_1 から結果を得る.

  • Cauchy-Schwarz inequality から, ||\hat \beta_{S_0} - \beta_{S_0}^0||_1 \le \sqrt{s_0} ||\hat \beta_{S_0} - \beta_{S_0}^0||_2
  • Recall that  \hat \Sigma := \mathbf{X}^\top \mathbf{X}/n,  ||\mathbf{X}(\hat \beta - \beta^0) ||_2^2/n = (\hat \beta - \beta^0)^\top \hat \Sigma (\hat \beta - \beta^0).
  • ここで,ある  \phi_0 \gt 0 について  ||\hat \beta_{S_0} - \beta_{S_0}^0||_2^2 \le (\hat \beta - \beta^0)^\top \hat \Sigma (\hat \beta - \beta^0)/\phi_0^2 ならば,不等式をさらに進めることができる.
  • 一方, \hat \beta はランダムなので上の不等式を満たす  \phi_0 を直接仮定することはできない. \beta のある集合上で一様に不等式を満たす  \phi_0 を考える.
  • Lemma 6.3 から, \mathcal{T} の上で  ||\hat \beta_{S_0^c}||_1 \le 3 ||\hat \beta_{S_0} - \beta_{S_0}^0||_1 を満たす.

Compatibility condition: ある  \phi_0 \gt 0 ||\beta_{S_0^c}||_1 \le 3 ||\beta_{S_0}||_1 について, ||\beta_{S_0}||_1^2 \le \left( \beta^\top \hat \Sigma \beta \right) s_0 / \phi_0^2.

  • Compatibility condition はどのようなときに満たされる?
    •  ||\beta_{S_0}||_1^2 \le s_0 ||\beta_{S_0}||_2^2 から, \hat \Sigma の最小固有値が十分に大きければOK.
    •  ||\beta_{S_0^c}||_1 \le 3 ||\beta_{S_0}||_1 の制約があるので,直接固有値に仮定を入れるよりは弱い.
    •  S_0 は観測できないので,仮定を直接検証することはできない.
    • Bickel et al. (2009) では restricted eigenvalue assumption と呼んでいる.

Theorem 6.1: Compatibility condition +  \mathcal{T} +  \lambda \ge 2\lambda_0  \Longrightarrow.

\begin{align*}||\mathbf{X}(\hat \beta - \beta^0) ||_2^2/n \le 4 \lambda^2 s_0 / \phi_0^2, \quad ||\hat \beta - \beta^0||_1 \le 4 \lambda s_0 / \phi_0^2 \end{align*}

Proof. 

Lemma 6.3 から

\begin{align*} 2||\mathbf{X}(\hat \beta - \beta^0) ||_2^2/n + \lambda||\hat \beta - \beta^0||_1 & = 2||\mathbf{X}(\hat \beta - \beta^0) ||_2^2/n + \lambda||\hat \beta_{S_0} - \beta^0_{S_0}||_1 + \lambda ||\hat \beta_{S_0^c}||_1 \\ & = 4 \lambda ||\hat \beta_{S_0} - \beta^0_{S_0}||_1 \\ & \le 4 \lambda \sqrt{s_0} ||\hat \beta_{S_0} - \beta^0_{S_0}||_2 \\ & \le 4 \lambda \sqrt{s_0} ||\mathbf{X}(\hat \beta - \beta^0)||_2/(\sqrt{n}\phi_0) \\ & \le  ||\mathbf{X}(\hat \beta - \beta^0)||_2^2/n + 4 \lambda^2 s_0/\phi_0^2 \end{align*}

最後の不等式では  4uv \le u^2 + 4v^2 を使った.